RealICU:測試AI能否真正讀懂深切治療數據

Og image

RealICU 是一個用來評估大型語言模型在深切治療部情境下表現的基準。重點不在於AI有沒有照抄以往醫生做過的決定,而是看它面對長時間、資訊密集又持續變化的病人資料時,能否作出較接近臨床正確性的判斷。

如果你對醫療人工智能有興趣,RealICU-Bench 值得留意。它聚焦深切治療部入面又長又密集的病人資料,目的唔係叫模型照抄過往醫生做法,而係測試模型面對完整病程時,能否作出更合理判斷。

這個項目針對一個很實際的問題:ICU 決策往往要在高壓下,快速整合大量檢驗、監測和病程資訊。現有不少評估方法把歷史醫療行為當作標準答案,但原始決策當時可能資訊未齊全,因此未必最理想;RealICU 改用事後回顧整個病人歷程的標註方式,嘗試更公平地評估AI推理能力。

如果你想了解或使用這個項目,最適合由它定義的四類任務入手:病人目前情況、急性問題、建議處置,以及需要避免的危險行動。網站亦提供論文與程式碼入口,而資料集顯示仍有部分內容即將推出;若你是研究者,可先用 RealICU-Gold 和 RealICU-Scale 的設計思路,理解其評估框架。

  • 由超過30位臨床醫生共同界定核心任務
  • 包含 930 個醫生共識樣本,以及 11,862 個大規模評估視窗
  • 引入經醫生驗證的 LLM 評估器作大規模標註
  • 提出 ICU-Evo,以結構化記憶研究長時序推理
  • 發現前沿模型存在召回與安全之間的取捨,以及錨定偏差

這個項目的創新之處,在於它把評估焦點由「像不像醫生以前做過的事」轉向「是否真正理解病情演變」。另外,ICU-Evo 用多種結構化記憶整理臨床上下文,較貼近醫生思考方式;不過作者亦明確指出,這類方法雖有助長程推理,仍不足以保證安全。

整體而言,RealICU 特別適合醫療AI研究者、醫院創新團隊,以及關注高風險場景AI安全的人士。從現有結果看,這不是一個宣稱模型已可直接臨床部署的項目,而是一個更嚴謹的測試場,幫助大家看清AI在真實重症決策支援中的能力與限制。

層級作用規模標註方式
RealICU整體 benchmark全部框架包含 Gold 和 Scale 兩部分 
RealICU-Gold高品質基準集930 windows / 94 patients醫師共識標註 
RealICU-Scale大規模延伸集11,862 windowsOracle 自動擴展標註 

在 RealICU-Gold 上,Gemini-3.1-pro + ICU-Evo 達到 Patient Status 0.459、Action Recommendation Recall@5 0.534;同時,structured memory 雖然提升了長程推理,但仍然沒有徹底解決安全失敗和 anchoring bias. 也就是說,ICU-Evo 是“更好的 memory-based agent”,但不是把 RealICU 這個 benchmark 作為最終方案。

RealICU
├─ RealICU-Gold
│  └─ 930 個 window,來自 94 個 ICU stays
│     └─ 由多位 ICU 醫師做 hindsight consensus 標註
└─ RealICU-Scale
   └─ 11,862 個 window
      └─ 用 Oracle(醫師驗證過的 LLM hindsight evaluator)自動擴展標註

網址: https://chengzhi-leo.github.io/RealICU-Bench/

Categories: 開源, Medical醫學, 框架