[技術文章] 牛津團隊用 MedMisBench 測試醫療 LLM 抗誤導力

Hero image preview

這個項目由 University of Oxford、University of Washington、University College London 及 University of Waterloo 的研究人員合作提出,重點放在醫療 Large language models(LLMs)遇上誤導內容時,能否守住原本正確的醫療判斷。作者指出,現有做法多數用乾淨、考試式題目評估模型知識,但這種範式只量到模型「識唔識」,未有量到模型在混雜資訊環境中會否被帶偏。

因此,團隊提出 MedMisBench,將「epistemic resilience」定義為模型在 adversarial context 之下仍維持正確判斷的能力。這個 benchmark 收錄 10,932 條醫療題目項目,以及 48,889 組 misleading context-option pairs,涵蓋 medical reasoning、agentic capability 和 patient-journey evaluation,用來測試模型面對看似合理但其實錯誤的上下文時會點樣改答案。

論文最關鍵的訊息,是不少模型本來答啱,但加入聚焦式誤導句子後便放棄正確答案。11 個 model configurations 的平均準確率,由原題的 71.1% 跌到 38.0%,attack success 達 51.5%;其中 authority-framed falsehoods 的攻擊成功率有 69.5%,exception-poisoning claims 也有 64.1%,顯示帶有權威語氣或規則例外包裝的錯誤資訊尤其危險。

對想使用醫療 AI 的讀者來說,這個項目的價值不在於提供新診斷模型,而是補上現有醫療評測的盲點:高分醫學考試 benchmark,未必代表模型在真實健康資訊環境中仍可靠。研究還找來來自 7 個國家的 14 人臨床小組覆核,認為 38.2% 檢視個案存在嚴重潛在傷害,這令 MedMisBench 很適合用作醫療模型安全測試、紅隊檢驗,以及部署前風險篩查。

  • 核心批評:現有 benchmark 多測知識正確率,較少測 misleading context 下是否仍能守住正確判斷
  • 新增 framing:用 epistemic resilience 專門量度模型抗誤導能力
  • 數據規模:10,932 個醫療題目項目、48,889 組 misleading context-option pairs
  • 主要結果:平均準確率由 71.1% 跌至 38.0%,attack success 為 51.5%
  • 引用模型包括 ChatGPT、Gemini 等醫療文字理解與生成能力較強的 LLMs

Paper: https://arxiv.org/pdf/2606.12291

Categories: Gemini, OpenAI, Agentic, Medical醫學, 多模態模型, 安全, Dataset 數據集

ClinHallu 拆解醫療 MLLM 幻覺來源

ClinHallu logo

ClinHallu 是一個醫療多模態大模型 benchmark 與評測工具,目標不是只計算答對率,而是找出 Medical MLLM 在推理途中哪一段開始出現 hallucination。現有醫療 hallucination benchmark 多數偏重資料收集與最終輸出檢查,作者認為這種範式難以分辨錯誤究竟來自看錯影像、記錯醫學知識,還是把資訊串連時推錯,因此把問題重組成 stage-wise 診斷。

這個項目的核心做法,是把每筆樣本的 reasoning trace 拆成 Visual Recognition、Knowledge Recall、Reasoning Integration 三段,再配合 structured CoT annotations 與 stage-replacement interventions 觀察:如果只修正其中一段,最終答案會否改善。這種設計比單看答案更有分析力,因為它直接對應三種常見錯誤來源:visual hallucination、knowledge hallucination、reasoning hallucination。

ClinHallu 含有 7,031 個驗證過的 instances,並提供評測流程。想試這個項目的人,較合理的路線是先選定 datasets 內要跑的資料集,再對照 models.gold cotmodels.model cotmodels.judge 的設定,之後查看 results 內的 model cot 與 eval 輸出;若只想生成替換後的 jsonl,也可用 generate 流程。這表示它較適合研究、模型比較與錯誤分析,不是面向一般用家的醫療問答產品。

基準結果也有參考價值。公開表格顯示,Gemini-3-Flash 在整體準確率與三類 hallucination rate 上都屬前列,Avg Acc 為 80.1,而 Qwen3-VL-Plus、Qwen3.5-9B、Qwen3-VL-32B 等模型亦有列入比較。這些數字的重點不是分高下,而是提醒你:同一模型可能答案不差,但在某個階段的 hallucination rate 仍然偏高,之後微調或加防護時就有更清晰方向。

  • 不是只看答對率:它會拆解模型在哪個推理階段出錯。
  • 方法有辨識度:用 structured CoT 與 stage-replacement interventions 做細粒度診斷。
  • 場景很明確:適合醫療 AI 研究、模型評測、trace-supervised fine-tuning 前後比較。
  • 相關模型完整:結果涵蓋 Qwen、Gemini、InternVL、MedGemma、Lingshu 等系列。

如果你在找的是可直接部署的醫療助手,ClinHallu 並不屬於那一類;它更像一把量尺,專門檢查模型推理鏈哪裡開始失真。對研究團隊來說,這比只知道「模型有幻覺」更有用,因為後續可以按 Visual Recognition、Knowledge Recall、Reasoning Integration 分段修正,連 trace-supervised fine-tuning 是否有效都較容易驗證。

GitHub: https://github.com/alibaba-damo-academy/ClinHallu

Paper: https://arxiv.org/pdf/2606.14697

Categories: 開源, 阿里巴巴, Qwen, 香港科技大學, Gemini, Medical醫學, 多模態模型, Dataset 數據集, 清華大學

GENEB 統整基因組模型評測:跨 100 個任務的統一比較框架

Repository image for darlednik/GENEB

基因組機器學習近十年快速擴張,但模型之間的比較長期處於碎片化狀態。DARLEDNIK/GENEB 正是針對這項痛點設計的統一評測基準,收錄 100 個分類任務、橫跨 13 個功能類別,並透過線性探測(linear probe)方式,在完整、10-shot 與 1-shot 三種情境下評估預訓練模型凍結後的表徵品質。

這個項目最大的特色是統一了過往各家模型各自為政的評測協議。你只需在 harness/extractors/ 撰寫一個小型 embedding extractor,就能用 run_GENEB.py 在固定的 GENEB 任務資料上產生提交檔,並由 CI 自動驗證後合併到排行榜。提交的模型權重並不儲存在儲存庫內,僅保留評測結果與模型卡片,設計上兼顧了可重現性與第三方權重規範。

它可以支援訓練後的評估,例如你訓練完不同 genomic foundation models,拿 GENEB 來比較它們在多任務、多類別上的表現。

GENEB 對 40 個基因組基礎模型進行了系統性比較,包括 DNA-GPT、GENOMEOCEAN、EVO 等知名模型。研究發現,聚合排行榜其實相當不穩定:模型在不同任務類別的排名會大幅擺動,單一總分容易掩蓋細節差異。論文也指出,模型規模帶來的提升有限且不一致,架構與預訓練資料的對齊程度,往往比參數量更影響下游表現。這些結論對領域內「愈大愈好」的直覺提出了務實的提醒。

這個項目特別適合基因組學領域的研究者、模型開發者,以及需要為下游應用挑選合適表徵的工程團隊。對於想了解現有基因組模型相對強弱的人,Hugging Face Space 上的排行榜提供了 macro 分數與單任務分數兩種視角,方便依功能類別做選擇。

重點摘要

  • 涵蓋 100 個任務、13 個功能類別,並支援 full、10-shot、1-shot 三種評測設定。
  • 採用線性探測協議,統一比較 40 個基因組基礎模型的凍結表徵。
  • 透過 embedding extractor 介面與 CI 流程,確保新模型提交的可重現性。
  • 論文分析顯示聚合排行榜不穩定,模型排名隨任務類別大幅變動。
  • 規模效益有限,架構與預訓練對齊對表現的影響往往大於參數量。

GitHub: https://github.com/darlednik/GENEB

項目: https://huggingface.co/spaces/darlednik/geneb-leaderboard

Categories: 開源, Medical醫學, 框架

BrainCause:用因果測試重新看懂腦部視覺表徵

Og image

BrainCause 是一個針對神經科學與電腦視覺領域開發的自動化框架,用來尋找人腦視覺概念表徵的研究項目。它處理的核心問題是:某個腦區對圖片反應很強,未必代表它真的在表徵該概念,因為反應也可能只是被相關的視覺線索或語意線索帶動。

這個項目會先根據查詢概念建立一組受控刺激資料,包括目標概念圖片、保留其他內容但移除目標概念的 counterfactual edits,以及帶有相關干擾元素的圖片。然後再配合 brain models 與 fMRI 驗證,檢查腦區反應是否會隨概念移除而下降,藉此做 targeted causal testing。

重點在於,它不是只用 activation 來定位腦區,而是加入 causality 驗證。頁面內容指出,若只看 activation,很多定位結果都可能是假陽性;BrainCause 則會回傳經驗證的候選表徵,並提出後續 fMRI 實驗,用來進一步確認或擴展發現。

  • 針對指定概念自動建立 causal dataset
  • 使用 positive images、semantic negatives、counterfactual negatives 作比較
  • 減少只靠 activation 帶來的 false positives
  • 可找回已知功能定位,也能提出新的候選表徵
  • 已在 predicted 與 measured fMRI data 上驗證,涵蓋數十個概念

如果你關心神經科學、電腦視覺,或想了解生成模型如何協助腦科學研究,這個項目很有參考價值。頁面亦提供 Paper、Data 與 Code 入口,方便進一步了解方法與結果。

項目: https://yuvalgol123.github.io/BrainCause/

Categories: 開源, Medical醫學, Dataset 數據集, 框架

從腦部訊號到影像問答:Brain-IT-VQA 框架解碼大腦視覺理解

Weizmann Institute of Science

Brain-IT-VQA 是一套從 fMRI(功能性磁共振造影)腦部訊號出發,自動回答「圖片中看到什麼」這類問題的框架。研究團隊建基於 Brain Interaction Transformer(Brain-IT),把腦部活動轉換成語言條件表徵,再交由預訓練的視覺語言模型生成答案,全程毋須先把腦部訊號重建成影像。

這項工作解決了一個長期難題:過去從 fMRI 解讀視覺內容的研究,大多只能產生粗略描述,而且準確度有限;更少有模型被用來分析大腦內部如何處理視覺資訊。Brain-IT-VQA 在多項基準上明顯超越以往的 fMRI 影像描述與 VQA(Visual Question Answering,視覺問答)方法,同時提供拆解視覺理解層次的工具。

團隊同步發佈 NSD-VQA 數據集,以 Natural Scenes Dataset(NSD)為基礎,平均每張影像提供約 20 題,涵蓋 20 個受控問題類別。這些類別覆蓋物件辨識、空間關係、語意判斷等不同層次,方便研究者細緻評估模型在各種視覺與語意任務上的表現。

透過「解碼貢獻分析」,框架可揭示不同腦區對各類問題的貢獻分布,協助神經科學家理解大腦處理視覺資訊的空間分佈特徵。頁面亦設有互動示範,讓訪客在從未參與訓練的 NSD 測試影像上,瀏覽模型生成的描述與問答結果。

重點摘要

  • 直接從 fMRI 解碼語言:把腦部活動轉成語言條件表徵,由預訓練視覺語言模型生成描述與答案,毋須影像重建步驟。
  • 公開 NSD-VQA 數據集:每張影像平均 20 題、20 個受控類別,提供更細緻的 VQA 評估基準。
  • 顯著超越先前方法:在 fMRI 影像描述與視覺問答任務上,明顯優於過往同類模型。
  • 支援腦區貢獻分析:可拆解不同腦區在各類視覺問題中的參與程度,輔助神經科學研究。
  • 附設互動示範:容許瀏覽者在 NSD 測試影像上查看模型的預測輸出。

這個項目最適合從事腦部解碼、視覺語言模型、神經科學與認知計算的研究人員與研究生。對希望了解 AI 與人類視覺如何結合的工程師而言,NSD-VQA 與開源代碼亦提供了一個具挑戰性的新基準。

研究單位
Weizmann Institute of Science (魏茨曼科學研究所)在以色列的雷霍沃特(Rehovot),大約在特拉維夫以南。

魏茨曼科學研究所一般被視為世界頂尖的基礎研究機構之一;在你這次查到的資料裡,它在萊頓排名中被列到全球前十,2021 年為第 8 名。

它的重點研究領域主要集中在 生物學/生物化學、化學、物理、數學與電腦科學,也有跨學科方向。

項目: https://mcosarinsky.github.io/brain-it-vqa/

Categories: Medical醫學, Dataset 數據集

chi-bench:測試醫療 AI 代理真功夫

χ-Bench

chi-bench 係一個用來評估 AI 代理嘅基準環境,重點唔係問答,而係要模型喺模擬出嚟嘅美國醫療工作流程中,逐步完成整個個案。它覆蓋事前授權、保險方利用管理,以及群體照護管理三類長流程工作,目的是測試 AI 有冇能力處理多步驟、規則密集、而且涉及多角色協作嘅任務。

官方摘要提到它使用 20 個 healthcare apps、87 個 MCP tools,以及一份 1,290+ 文件的 managed-care operations handbook 作為任務依據。

實際使用時,研究者通常會先準備對應嘅 API 金鑰,再揀選代理框架同模型跑任務,之後由內建評審機制按每次結果評分。每個任務會提供臨床個案、模擬工作系統,以及大量操作手冊,AI 要透過工具呼叫同撰寫文件去推進流程,唔係單靠生成一段答案就算完成。

它最有意思嘅地方,在於把醫療行政流程入面最麻煩嘅部分具體化:規則多、文件多、系統多,而且中途可能要反覆互動。相比一般 benchmark 只量度單步推理,chi-bench 更接近現實世界,因為它會考驗模型點樣跨應用程式、跟住政策辦事,並保持長時間決策一致。

  • 涵蓋 3 大醫療流程場景,屬於端到端任務評估
  • 以約 20 個模擬醫療應用及大量文件作為操作環境
  • 支援多類代理與模型比較,包括 Claude、OpenAI、Gemini 及開源權重路線
  • 排行榜以 pass@1 為主,亦可保留多次試跑作額外分析

從現有資料睇,呢個基準對現時最強模型都相當困難,代表它有一定鑑別力,唔會輕易被高分掩蓋弱點。已知相關配置包括 Claude Code 配 Claude Opus、OpenAI/Codex 路線、Gemini CLI,以及經 OpenRouter 接入嘅 Hermes、OpenClaw、DeepAgents 等;至於具體表現會隨代理包裝方式同工具使用能力而有明顯差異。

對 AI 代理研究員、醫療流程自動化團隊,甚至想了解「模型識唔識真做事」嘅產品人員嚟講,chi-bench 都幾有參考價值。不過它聚焦美國醫療制度同受規管流程,閱讀結果時要留意場景限制,唔適宜直接當成所有行業嘅通用結論。

GitHub: https://github.com/actava-ai/chi-bench

Paper: https://arxiv.org/pdf/2605.16679

Categories: 開源, Medical醫學, 框架

RealICU:測試AI能否真正讀懂深切治療數據

Og image

RealICU 是一個用來評估大型語言模型在深切治療部情境下表現的基準。重點不在於AI有沒有照抄以往醫生做過的決定,而是看它面對長時間、資訊密集又持續變化的病人資料時,能否作出較接近臨床正確性的判斷。

如果你對醫療人工智能有興趣,RealICU-Bench 值得留意。它聚焦深切治療部入面又長又密集的病人資料,目的唔係叫模型照抄過往醫生做法,而係測試模型面對完整病程時,能否作出更合理判斷。

這個項目針對一個很實際的問題:ICU 決策往往要在高壓下,快速整合大量檢驗、監測和病程資訊。現有不少評估方法把歷史醫療行為當作標準答案,但原始決策當時可能資訊未齊全,因此未必最理想;RealICU 改用事後回顧整個病人歷程的標註方式,嘗試更公平地評估AI推理能力。

如果你想了解或使用這個項目,最適合由它定義的四類任務入手:病人目前情況、急性問題、建議處置,以及需要避免的危險行動。網站亦提供論文與程式碼入口,而資料集顯示仍有部分內容即將推出;若你是研究者,可先用 RealICU-Gold 和 RealICU-Scale 的設計思路,理解其評估框架。

  • 由超過30位臨床醫生共同界定核心任務
  • 包含 930 個醫生共識樣本,以及 11,862 個大規模評估視窗
  • 引入經醫生驗證的 LLM 評估器作大規模標註
  • 提出 ICU-Evo,以結構化記憶研究長時序推理
  • 發現前沿模型存在召回與安全之間的取捨,以及錨定偏差

這個項目的創新之處,在於它把評估焦點由「像不像醫生以前做過的事」轉向「是否真正理解病情演變」。另外,ICU-Evo 用多種結構化記憶整理臨床上下文,較貼近醫生思考方式;不過作者亦明確指出,這類方法雖有助長程推理,仍不足以保證安全。

整體而言,RealICU 特別適合醫療AI研究者、醫院創新團隊,以及關注高風險場景AI安全的人士。從現有結果看,這不是一個宣稱模型已可直接臨床部署的項目,而是一個更嚴謹的測試場,幫助大家看清AI在真實重症決策支援中的能力與限制。

層級作用規模標註方式
RealICU整體 benchmark全部框架包含 Gold 和 Scale 兩部分 
RealICU-Gold高品質基準集930 windows / 94 patients醫師共識標註 
RealICU-Scale大規模延伸集11,862 windowsOracle 自動擴展標註 

在 RealICU-Gold 上,Gemini-3.1-pro + ICU-Evo 達到 Patient Status 0.459、Action Recommendation Recall@5 0.534;同時,structured memory 雖然提升了長程推理,但仍然沒有徹底解決安全失敗和 anchoring bias. 也就是說,ICU-Evo 是“更好的 memory-based agent”,但不是把 RealICU 這個 benchmark 作為最終方案。

RealICU
├─ RealICU-Gold
│  └─ 930 個 window,來自 94 個 ICU stays
│     └─ 由多位 ICU 醫師做 hindsight consensus 標註
└─ RealICU-Scale
   └─ 11,862 個 window
      └─ 用 Oracle(醫師驗證過的 LLM hindsight evaluator)自動擴展標註

網址: https://chengzhi-leo.github.io/RealICU-Bench/

Categories: 開源, Medical醫學, 框架

Healthcare_GYM:醫療代理訓練場

Repository image for minstar/Healthcare_GYM

Healthcare_GYM 是一個相容 Gymnasium 的醫療 AI 訓練環境,核心目的不是單純問答,而是讓代理在多回合流程中學會查資料、呼叫工具並完成臨床任務。它涵蓋 10 個臨床領域、3,600 多個任務與 135 個專用工具,並把 82.8 萬筆醫療段落納入可檢索知識庫。

實際使用上,它比較像給研究團隊的「醫療代理測試場」。若你已經有強化學習流程,就能透過標準的環境互動介面,把代理接到任務、工具呼叫與回饋函數上,觀察模型在臨床推理、資訊檢索與多步驟決策中的表現。

這個專案最值得注意的創新,是提出 TT-OPD 這套多回合代理式 RL 的自蒸餾方法。從說明來看,作者認為 teacher 會隨學生探索而逐漸過時,因此蒸餾價值主要集中在訓練前期,並以 EMA 教師與週期性硬同步控制師生偏移,而不是長期依賴固定 teacher。

從結果來看,它在 18 個基準中的 10 個拿到最佳成績,平均比非 RL 的代理基線高出約 3.9 個百分點。不過資料也顯示,代理式評估未必在所有知識回憶型任務都占優,代表這套框架更適合需要檢索、工具操作與多步推理的情境,而不是只比裸模型記憶能力。

  • 重點摘要
  • 支援多回合臨床工具使用,不只是靜態醫療問答。
  • 知識來源包含 PubMed 摘要、臨床指引與醫學教科書。
  • 以 BM25 檢索 82.8 萬筆醫療段落,工具呼叫直接納入動作空間。
  • TT-OPD 以 EMA teacher 與分階段淡出蒸餾來穩定訓練。
  • README 指出實驗使用 Qwen3.5-9B 骨幹模型。

整體而言,Healthcare_GYM 最適合醫療代理、臨床決策輔助研究、RAG 結合工具使用的 RL 訓練,以及需要比較不同代理策略的學術實驗。若你的目標是建立可重現的醫療 agent benchmark,這個專案提供的環境設計與訓練觀點都相當有參考價值。

Source: https://github.com/minstar/Healthcare_GYM

Categories: Medical醫學

MedConclusion 一個用於生物醫學結論生成的基準資料集

MedConclusion 包含 570 萬個 PubMed 結構化摘要,每個樣本將非結論部分與作者原寫結論配對,用於訓練和評估大型語言模型(LLM)從證據推斷結論的能力。
資料集還包含期刊元數據,如生物醫學類別和 SJR 指標,支持跨領域子群分析。
論文於 2026 年 4 月 7 日提交至 arXiv,主題涵蓋計算語言學(cs.CL)和人工智慧(cs.AI)。

研究評估了多種 LLM 在結論生成和摘要生成提示下的表現,使用參考基準指標和 LLM-as-a-judge 評分。結果顯示,結論寫作與摘要寫作行為不同,強模型在自動指標下仍緊密聚集,且評判者身份會大幅影響分數。這提供了一個可重用資源,用於研究科學證據到結論的推理,程式碼和資料在 GitHub 上公開。

Categories: 開源, Medical醫學

Page 1 of 3
1 2 3