MedConclusion 包含 570 萬個 PubMed 結構化摘要,每個樣本將非結論部分與作者原寫結論配對,用於訓練和評估大型語言模型(LLM)從證據推斷結論的能力。
資料集還包含期刊元數據,如生物醫學類別和 SJR 指標,支持跨領域子群分析。
論文於 2026 年 4 月 7 日提交至 arXiv,主題涵蓋計算語言學(cs.CL)和人工智慧(cs.AI)。
研究評估了多種 LLM 在結論生成和摘要生成提示下的表現,使用參考基準指標和 LLM-as-a-judge 評分。結果顯示,結論寫作與摘要寫作行為不同,強模型在自動指標下仍緊密聚集,且評判者身份會大幅影響分數。這提供了一個可重用資源,用於研究科學證據到結論的推理,程式碼和資料在 GitHub 上公開。







