Problem
儘管大型語言模型(LLM)被廣泛應用於學術研究,但目前仍缺乏專門的資源與基準,用以評估模型是否能準確地從結構化的生物醫學證據中,推導出符合邏輯且具科學性的研究結論。
Method
研究團隊開發了 MedConclusion 數據集,從 PubMed 提取 570 萬筆結構化摘要,將其區分為「證據段落」與「作者結論」進行配對。該數據集亦包含期刊類別與 SJR 影響力指標等元數據。評測過程中,團隊比較了模型在「生成結論」與「撰寫摘要」任務下的表現差異,並結合自動化指標與模型裁判(LLM-as-a-judge)進行綜合評比。
Results
研究發現撰寫結論與一般摘要在語言行為上有顯著差異。目前主流的大型語言模型在現有的自動評測指標中表現非常接近,難以拉開差距;此外,實驗證實選用不同的模型作為裁判,會對最終的絕對評分結果產生實質性的偏移。
Significance
MedConclusion 為科學推理研究提供了龐大且可重複利用的資源,幫助學界深入探討模型如何將證據轉化為結論。透過該數據集的多維度後設資料,研究人員能針對不同生醫子領域進行更細緻的推理分析,對於提升自動化學術寫作與輔助研究具有重要價值。