RealICU：測試AI能否真正讀懂深切治療數據

RealICU 是一個用來評估大型語言模型在深切治療部情境下表現的基準。重點不在於AI有沒有照抄以往醫生做過的決定，而是看它面對長時間、資訊密集又持續變化的病人資料時，能否作出較接近臨床正確性的判斷。

如果你對醫療人工智能有興趣，RealICU-Bench 值得留意。它聚焦深切治療部入面又長又密集的病人資料，目的唔係叫模型照抄過往醫生做法，而係測試模型面對完整病程時，能否作出更合理判斷。

這個項目針對一個很實際的問題：ICU 決策往往要在高壓下，快速整合大量檢驗、監測和病程資訊。現有不少評估方法把歷史醫療行為當作標準答案，但原始決策當時可能資訊未齊全，因此未必最理想；RealICU 改用事後回顧整個病人歷程的標註方式，嘗試更公平地評估AI推理能力。

如果你想了解或使用這個項目，最適合由它定義的四類任務入手：病人目前情況、急性問題、建議處置，以及需要避免的危險行動。網站亦提供論文與程式碼入口，而資料集顯示仍有部分內容即將推出；若你是研究者，可先用 RealICU-Gold 和 RealICU-Scale 的設計思路，理解其評估框架。

由超過30位臨床醫生共同界定核心任務
包含 930 個醫生共識樣本，以及 11,862 個大規模評估視窗
引入經醫生驗證的 LLM 評估器作大規模標註
提出 ICU-Evo，以結構化記憶研究長時序推理
發現前沿模型存在召回與安全之間的取捨，以及錨定偏差

這個項目的創新之處，在於它把評估焦點由「像不像醫生以前做過的事」轉向「是否真正理解病情演變」。另外，ICU-Evo 用多種結構化記憶整理臨床上下文，較貼近醫生思考方式；不過作者亦明確指出，這類方法雖有助長程推理，仍不足以保證安全。

整體而言，RealICU 特別適合醫療AI研究者、醫院創新團隊，以及關注高風險場景AI安全的人士。從現有結果看，這不是一個宣稱模型已可直接臨床部署的項目，而是一個更嚴謹的測試場，幫助大家看清AI在真實重症決策支援中的能力與限制。

層級	作用	規模	標註方式
RealICU	整體 benchmark	全部框架	包含 Gold 和 Scale 兩部分
RealICU-Gold	高品質基準集	930 windows / 94 patients	醫師共識標註
RealICU-Scale	大規模延伸集	11,862 windows	Oracle 自動擴展標註

在 RealICU-Gold 上，Gemini-3.1-pro + ICU-Evo 達到 Patient Status 0.459、Action Recommendation Recall@5 0.534；同時，structured memory 雖然提升了長程推理，但仍然沒有徹底解決安全失敗和 anchoring bias. 也就是說，ICU-Evo 是“更好的 memory-based agent”，但不是把 RealICU 這個 benchmark 作為最終方案。

RealICU
├─ RealICU-Gold
│  └─ 930 個 window，來自 94 個 ICU stays
│     └─ 由多位 ICU 醫師做 hindsight consensus 標註
└─ RealICU-Scale
   └─ 11,862 個 window
      └─ 用 Oracle（醫師驗證過的 LLM hindsight evaluator）自動擴展標註

網址： https://chengzhi-leo.github.io/RealICU-Bench/