MedConclusion：首創 570 萬筆生醫文獻數據集，挑戰大型語言模型從科學證據推導結論的推理能力

本研究推出大規模標竿數據集 MedConclusion，透過 570 萬筆結構化摘要，評估模型從醫學數據推導科學結論的能力，為生醫領域的自動化推理研究奠定重要基礎。

Problem

儘管大型語言模型（LLM）被廣泛應用於學術研究，但目前仍缺乏專門的資源與基準，用以評估模型是否能準確地從結構化的生物醫學證據中，推導出符合邏輯且具科學性的研究結論。

Method

研究團隊開發了 MedConclusion 數據集，從 PubMed 提取 570 萬筆結構化摘要，將其區分為「證據段落」與「作者結論」進行配對。該數據集亦包含期刊類別與 SJR 影響力指標等元數據。評測過程中，團隊比較了模型在「生成結論」與「撰寫摘要」任務下的表現差異，並結合自動化指標與模型裁判（LLM-as-a-judge）進行綜合評比。

Results

研究發現撰寫結論與一般摘要在語言行為上有顯著差異。目前主流的大型語言模型在現有的自動評測指標中表現非常接近，難以拉開差距；此外，實驗證實選用不同的模型作為裁判，會對最終的絕對評分結果產生實質性的偏移。

Significance

MedConclusion 為科學推理研究提供了龐大且可重複利用的資源，幫助學界深入探討模型如何將證據轉化為結論。透過該數據集的多維度後設資料，研究人員能針對不同生醫子領域進行更細緻的推理分析，對於提升自動化學術寫作與輔助研究具有重要價值。