[技術文章] 牛津團隊用 MedMisBench 測試醫療 LLM 抗誤導力

這個項目由 University of Oxford、University of Washington、University College London 及 University of Waterloo 的研究人員合作提出，重點放在醫療 Large language models（LLMs）遇上誤導內容時，能否守住原本正確的醫療判斷。作者指出，現有做法多數用乾淨、考試式題目評估模型知識，但這種範式只量到模型「識唔識」，未有量到模型在混雜資訊環境中會否被帶偏。

因此，團隊提出 MedMisBench，將「epistemic resilience」定義為模型在 adversarial context 之下仍維持正確判斷的能力。這個 benchmark 收錄 10,932 條醫療題目項目，以及 48,889 組 misleading context-option pairs，涵蓋 medical reasoning、agentic capability 和 patient-journey evaluation，用來測試模型面對看似合理但其實錯誤的上下文時會點樣改答案。

論文最關鍵的訊息，是不少模型本來答啱，但加入聚焦式誤導句子後便放棄正確答案。11 個 model configurations 的平均準確率，由原題的 71.1% 跌到 38.0%，attack success 達 51.5%；其中 authority-framed falsehoods 的攻擊成功率有 69.5%，exception-poisoning claims 也有 64.1%，顯示帶有權威語氣或規則例外包裝的錯誤資訊尤其危險。

對想使用醫療 AI 的讀者來說，這個項目的價值不在於提供新診斷模型，而是補上現有醫療評測的盲點：高分醫學考試 benchmark，未必代表模型在真實健康資訊環境中仍可靠。研究還找來來自 7 個國家的 14 人臨床小組覆核，認為 38.2% 檢視個案存在嚴重潛在傷害，這令 MedMisBench 很適合用作醫療模型安全測試、紅隊檢驗，以及部署前風險篩查。

核心批評：現有 benchmark 多測知識正確率，較少測 misleading context 下是否仍能守住正確判斷
新增 framing：用 epistemic resilience 專門量度模型抗誤導能力
數據規模：10,932 個醫療題目項目、48,889 組 misleading context-option pairs
主要結果：平均準確率由 71.1% 跌至 38.0%，attack success 為 51.5%
引用模型包括 ChatGPT、Gemini 等醫療文字理解與生成能力較強的 LLMs

Paper： https://arxiv.org/pdf/2606.12291