香港 – Page 4 – InferNews

DREAM：用語言模型反向教檢索

2026 年 6 月 26 日

DREAM 是一個稠密檢索嵌入訓練方法／研究原型，核心是把 autoregressive language model 的預測訊號拿來訓練 dense retriever。它要解決的問題很明確：傳統 dense retrieval 多數依賴 contrastive objectives，需要正負文件配對與標註，但這類資料昂貴，hard negatives 也不穩定。

現有做法通常是替 query 配 positive documents 與 sampled negatives，再拉近或拉遠 embedding 距離；作者認為這種範式過度依賴人工或額外挖掘流程，未必真正反映哪些文件能幫助模型完成生成。DREAM 的做法是把 query-document 相似度送入指定的 Query-Focused Retrieval Heads（QRHeads），讓 frozen LLM 在預測 target 時，直接用 next-token prediction loss 回傳訊號，告訴 retriever 哪些文件真的有用。

這個取向最值得留意的地方，在於它不是單純改 loss，而是把檢索分數接進 attention heads，令生成模型的預測難度成為監督來源。代價也很明顯：流程比一般 embedding fine-tuning 更複雜，要先做 QRHead detection，再跑 DREAM adapter 訓練；儲存庫亦未附完整 training data、checkpoints 與 evaluation outputs，較接近研究復現路線，而不是即裝即用工具。

安裝與理解方式算清晰，儲存庫分成 qrhead_repo/、dream_routing/ 與 data/sample/ 三部分：前者負責找出 QRHeads，後者負責訓練 adapter，樣本資料則用 JSONL 提供 query、docs、target 結構。部署重點不是直接上線服務，而是先準備自己的 Hugging Face dataset 或本地 JSONL，依序完成 head 檢測與訓練；推論部分則主要依賴 Hugging Face 上已釋出的 adapters。

已提供預訓練模型：DREAM-0.5B、DREAM-1B、DREAM-3B
對應底座模型：Qwen2.5-0.5B、Llama-3.2-1B、Llama-3.2-3B
評測指向 BEIR 與 RTEB，論文稱在不同模型尺寸上都優於既有 baselines
適合研究檢索訓練、RAG、embedding 設計與 LLM-retriever 協同優化的團隊

受益最大的一類人，不是只想下載 embedding 即用的使用者，而是要研究 retriever 如何配合生成模型工作的團隊。對做 RAG、知識檢索、代理式搜尋的人來說，DREAM 提供了一條不同於 contrastive training 的路；對資源有限的小團隊而言，訓練鏈較長、重現門檻較高，較適合作為方法參考或實驗基線，而非現成產品元件。

GitHub： https://github.com/yixuantt/DREAM

Model： https://huggingface.co/collections/yixuantt/dream

Categories: 開源, Qwen, 香港, 香港科技大學, 工具, Embedding, LLaMa, Python, RAG, 庫, 模型, 模型訓練, Meta, Dataset 數據集

CF-World 評測：揭穿文生圖模型的「歸納火雞」盲點

2026 年 6 月 26 日

CF-World 是一個專門針對文生圖（text-to-image, T2I）模型的基準測試與研究原型，用以判斷模型在面對違反常識的指令時，到底是在推理，還是僅僅複製訓練數據中的高頻模式。現有的 T2I 模型在日常語境下表現出色，但只要物理法則被刻意改寫，例如要求它們生成「重力反轉」或「光線反向折射」的畫面，便會出現明顯崩潰。CF-World 採用三層遞進設計來暴露這種落差：L1 為事實生成，要求模型按真實世界知識作畫；L2 為顯式反事實（Explicit Counterfactual），同時提供反事實前提與指定的視覺結果，測試模型能否依指令調整；L3 為隱式反事實（Implicit Counterfactual），只給出反事實條件，要求模型自行推導應有的視覺呈現，從而考驗真正的因果推演能力。

為了量化這種落差，項目引入兩項指標：PRR（Prior Resistance Rate，先驗抵抗率）衡量模型擺脫既定視覺慣性的能力，RRR（Reasoning Retention Rate，推理保留率）則檢驗模型在多步驟指令下能否維持邏輯連貫性。儲存庫還包含因果解耦（Causal Decoupling）、屬性解耦（Attribute Decoupling）與去範式化（De-nominalization, De-norm）三條專門評測線，協助研究者區分失敗究竟源自因果變量無法分離，還是源自語言先驗的「概念鎖定」。

在評估對象方面，CF-World 涵蓋 FLUX.2-dev、Qwen-image、Nano Banana 等近期模型，結果顯示 L1 表現良好的模型在 L3 場景中普遍出現一致性急劇下降，說明高維統計先驗正在壓制真正的因果推理。代碼庫結構清晰：eval_questions 收錄預先生成的評測題目，prompt 存放基礎提示詞與反事實規則，scripts 則涵蓋題目生成及基於 VLM 的自動評分（支援 Gemini 與 Qwen3-VL）。對從事多模態模型評測、視覺推理研究或關心模型安全邊界的團隊而言，這個基準提供了一個可重現且分層細緻的測試平台，有助於定位「模型究竟卡在哪個環節」。

📂 Repository Structure

The repository is organized into prompts, pre-generated evaluation questions, and execution scripts:

├── eval_questions/        # Pre-generated evaluation questions (categorized by discipline)
│   ├── physics/           # Physics sub-disciplines (Astronomy, Mechanics, etc.)
│   └── ...
├── prompt/                # Raw base prompts and counterfactual rules
│   ├── physics/
│   └── ...
└── scripts/               # Core execution scripts
    ├── generate_eval/     # Scripts to generate evaluation questions
    │   ├── gemini.py      # Generates standard CF-World questions via Gemini
    │   └── rule_decouple.py # Generates questions for the Causal Decoupling experiment
    └── score/             # Automated VLM-based scoring scripts
        ├── gemini.py      # Standard multi-dimensional scoring using Gemini
        ├── qwen3vl-235b.py# Standard multi-dimensional scoring using Qwen3-VL
        ├── rule_decouple.py # Scoring for the Causal Decoupling experiment
        ├── attribute_decouple.py # Scoring for the Attribute Decoupling experiment
        └── denorm.py      # Scoring for the De-nominalization (De-norm) experiment

GitHub： https://github.com/jylei16/CF-World

項目主頁： https://jylei16.github.io/CF-World.github.io/

Paper： https://arxiv.org/pdf/2606.24548

Categories: 開源, 阿里巴巴, 香港, 香港中文大學, Image, txt2img, 安全, 提示詞, 框架, 上海人工智慧實驗室

PhoneBuddy：訓練手機代理的雙路徑做法

2026 年 6 月 25 日

PhoneBuddy 是一個開放式 phone-use agent 訓練研究項目，也是面向手機操作代理的模型訓練配方。它主要解決的問題，是讓代理不只會看畫面點擊與輸入，還能同時從真實手機執行回饋與可重設、可驗證的模擬環境中持續改進。

現有 mobile agents 常被當成 GUI controller 來訓練或評測：看螢幕、點擊、輸入、滑動，再重複下一步。PhoneBuddy 指出，單靠真實 App reinforcement learning（RL）雖然更貼近真機，但成本高、難重設、驗證麻煩；只靠 PhoneWorld 風格的 mock-app RL 又較易擴展，卻未必完全反映真實手機情境，所以它採用 real-app RL 加 mock-app RL 的混合路線。

這個取向的重點，不是單純把資料加多，而是把兩種訊號分工：真實執行提供 realism，模擬環境提供 resettable 與 verifier-backed tasks。根據公開頁面，PhoneBuddy-4B 在 Real+Mock RL 後，AndroidWorld 成功率達 83.2%，比只做 real-app RL 平均高 5.0；不過 cross-app 任務只有 18.0，反映跨 App 長流程仍是明顯短板。

現階段較適合把它理解成研究原型加公開模型，而不是完整可即裝即用產品。公開資訊顯示已有 Hugging Face 模型，包括 PhoneBuddy-4B、PhoneBuddy-4B-RealApp 與 PhoneBuddy-0.8B；但 code release、evaluation documentation 仍在補，dataset 亦未公開，所以目前較合理的測試方式，是先比較不同 checkpoint 的能力定位，再配合 PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety 這條研究線一併理解。

核心差異：把 real-app RL 的真實性，與 mock-app RL 的可驗證擴展性結合
已公開模型：PhoneBuddy-4B、PhoneBuddy-4B-RealApp、PhoneBuddy-0.8B
公開成績：AndroidWorld 83.2%，平均比 real-app RL only 高 5.0
主要限制：cross-app 表現偏低，資料集未公開，程式與評測文件仍未齊備
較適合人群：研究 Computer-use agents（CUAs）／手機代理、做 agent training、benchmark 或安全與私隱分析的團隊

想了解「手機代理怎樣訓練得更像真機、又不至於每次都要真人手動重置環境」，PhoneBuddy 的判斷相當清晰：真實世界負責可信度，模擬世界負責規模。它未必已經提供完整部署流程，但作為 open phone-use agents 的訓練方向，取捨、限制和下一步研究空間都表達得很明確。

GitHub： https://github.com/PhoneBuddyAI/phonebuddy

項目主頁： https://phonebuddyai.github.io/

項目： https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B

Categories: 開源, Qwen, 香港, 香港中文大學, 騰訊, Gemini, OpenAI, Agentic, 安全, 模型, 模型訓練, 中國, Dataset 數據集

PermaVid 令影片修改後仍然連貫

2026 年 6 月 22 日

很多影片生成方法處理編輯任務時，會把過往畫面當成單一記憶來源；一旦做了 style、season、weather 或 time 這類修改，舊記憶就可能變成過時參考，之後生成的鏡頭容易出現人物變樣、場景走位錯亂，或者視角切換後對不上。PermaVid 提出的方向，是把「外觀語意」同「幾何結構」分開保存，避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架，核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下，仍保持內容連貫。它使用 disentangled context memory：RGB context memory 負責記錄 semantic appearance，depth context memory 則保留 geometry-only structure，再配合 edit-aware memory update and retrieval，把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比，PermaVid 的取捨很清楚：系統更複雜，也要同時處理 RGB 與 depth 兩種脈絡，但換來的是編輯之後的長期一致性。從儲存庫資訊看，項目亦提供 dataset、paper 及 demo，並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型，顯示它不是輕量玩具，而是偏研究型、多模組組合的完整流程。

支援相機移動控制，例如 direction-frames-speed 這類格式
編輯類型涵蓋 style、season、weather、time 等全局變化
重點不只是生成單段片，而是修改之後仍維持後續片段一致
需要較完整環境配置，包含 PyTorch、CUDA 與額外訓練／推理依賴

如果你是做 instruction-based video editing、reference video generation，或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性，這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods，但公開資訊未列出完整量化分數；較穩妥的理解，是它的亮點在方法設計與 benchmark 表現方向，而不是即裝即用的消費級工具。

GitHub： https://github.com/YS-IMTech/PermaVid

項目主頁： https://ys-imtech.github.io/projects/PermaVid/

Paper： https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, 庫, 影像處理, 視覺模型, 視頻模型, 框架, Dataset 數據集

SR-REAL 把空間推理拆成兩條路

2026 年 6 月 21 日

現有 spatial VLM 往往用單一路線回答空間問題，不是純文字 chain-of-thought，就是直接靠感知結果輸出答案；作者認為這種固定範式難以同時處理語意推理與精確幾何判斷。SR-REAL 提出的做法，是把空間推理分成 Language-Only Reasoning（LOR）與 Detect-Then-Reason（DTR）兩條互補路徑，前者逐步文字推理，後者先找 3D 幾何線索，再做明確幾何推斷。

這個項目屬於框架加訓練流程實作，核心是強化 spatial vision-language models 在複雜空間問答中的判斷能力。它不是單純新增資料集，而是從 cold-start supervised fine-tuning 到 reinforcement learning（RL）都重新安排，並加入 region-to-3D 介面，令模型可把 region tokens 連到 3D 座標、中心點或 bounding boxes。

SR-REAL 重點集中在資料準備與訓練前處理。流程上會先用 SPAR、EmbodiedScan 等來源整理物件對應與 3D 座標，再由 expert.py 生成推理鏈，配合 qwen3.py 抽取物件名稱，最後組成 DTR 指令微調資料；若不想自行重建，也可直接下載作者已整理好的 Hugging Face 數據。這表示它較適合有 Python、資料處理及多模態訓練基礎的研究團隊，而不是即裝即用的終端工具。

和同類做法相比，SR-REAL 不假設所有空間問題都應該用同一種 reasoning path。作者的取向很清楚：語意關係適合 LOR，涉及明確位置、距離、中心點、框選區域的題目則交給 DTR；代價是整個資料構建與訓練流程更複雜，對 grounding 資料品質亦更敏感。

重點不在單一模型結構，而在 LOR + DTR 雙路徑推理設計
DTR 會先處理 region tokens 與 3D 幾何線索，再做空間判斷
訓練分為 cold-start supervised fine-tuning 與 reinforcement learning（RL）兩段
已提及 accuracy、format、detection rewards，顯示評測不只看答對與否，也看輸出格式及幾何對齊
相關模型與資料來源包括 spatial VLM、SR-3D、Qwen3、SPAR、EmbodiedScan、SpatialRGPT、Omni3D、CA1M、OmniNOCS

SR-REAL 在多個 spatial benchmarks 有明顯提升，並強調單一 RL-trained model 可同時支援兩條路徑，且不用 per-task tuning 也能跨資料集泛化。不過儲存庫片段未完整列出詳細分數與對照表，因此較穩妥的判斷是：這是一個研究味很重、方法論清晰的項目，適合關注 spatial reasoning、3D grounding、multimodal instruction tuning 的團隊拿來重現與延伸。

GitHub： https://github.com/jiyt17/SR-REAL

項目主頁： https://sr-real.github.io/

Categories: Qwen, 香港, 香港大學, Google, NVIDIA, DeepSeek, OpenAI, Agentic, 工具, 3D, Python, Python NLP, 多模態模型, 庫, 模型, 模型訓練, 編程, 框架

Dataset：EgoCS-400K 補足遊戲世界模型數據缺口

2026 年 6 月 18 日

現有做法多數依賴 captioned videos、機械人數據，或模擬器軌跡來訓練 World Models，但前者缺少可執行動作與可靠狀態，後者又常受成本、場景規模或真人互動不足限制。EgoCS-400K 就是針對這個缺口而設的 Dataset 數據集，用公開的 Counter-Strike / CS2 demo 重建第一身視角，將影片、控制輸入、遊戲狀態與語言描述同步整理。

這個項目最核心的價值，不只是「有很多影片」，而是把 replay-grounded 資料做到 tick-level telemetry 對齊。資料同時包含 keyboard/mouse inputs、atomic actions、protected action chains、DP-based temporal segments，以及 multi-grained video-language captions，令模型不只看到畫面，還能追蹤玩家當下做了甚麼、為何畫面會變。

官方資料顯示，它涵蓋超過 400,000 段 first-person videos、10,000 小時以上 gameplay、1,000 多場比賽、40,000 rounds、13 張地圖，規模相當大。它支援的任務亦很明確，包括 action-conditioned future prediction、state- and event-aware scene rollout、replay-grounded captioning，以及 agent egocentric action understanding。

想了解內容，可先用公開 viewer 直接查看樣本，再按需要處理影片；若要生成 VLM captions，才需要 API key。較適合研究 World Models、Gaming Agent、Computer-use agents（CUAs）相鄰方向、影片理解，或想研究人類決策與視角變化如何連動的開發者。

類型屬於 Dataset 數據集，主要解決互動式 World Models 缺乏高質素「影片-動作-狀態-語言」對齊資料的問題
舊範式依賴 web video、robotics data 或 simulator traces，各自欠缺狀態、規模或真人軌跡
辨識度最高的設計，是 replay-grounded、tick-level telemetry 與多粒度標註放在同一條時間線
適合做未來畫面預測、事件感知生成、第一身動作理解與 captioning 研究
相關方向與模型包括 World Models、vision-language-action models、video generation models、Gaming Agent

如果你只想找一般遊戲影片數據，EgoCS-400K 可能顯得偏研究型；但若你在意動作如何驅動畫面與事件，這個項目的資料結構明顯比普通影片庫更有分析價值。它未必直接等於完整訓練方案，但作為高對齊、高時間解析度的基礎數據，定位相當清晰。

GitHub： https://github.com/EgoCS-400K/Dataset

Paper： https://arxiv.org/pdf/2606.18180

Categories: 開源, Agentic, API, Video, IDE, 動畫, 多模態模型, 庫, 模型訓練, Robotic, 世界模型, 香港城市大學, Dataset 數據集

TVEdit：文字與點拖軌跡合一的圖片編輯項目

2026 年 6 月 18 日

TVEdit 是一個圖像編輯項目，目標是解決「只靠文字講意思，或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意，但難控制空間；點拖軌跡可以指位置，卻容易令語意變得含糊，所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練，資料超過 23K 筆，來源與動態影片有關。再配合 TV-Edit 框架，把拖曳或點選等視覺指令轉成更有語意的控制表示，然後接到預訓練編輯骨幹上，例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」，而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench，專門看語意忠實度、空間對齊同畫面一致性，這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit，再配 TV-Edit 權重，之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令，再調 CFG 同步數生成結果。若有加速 LoRA，步數可以大幅減少，適合想快速試驗互動式編輯的人。

結合文字語意與點拖軌跡，令空間控制更細
用 23K+ 配對資料補足跨模態指令訓練
TV-Edit-Bench 同時看語意、位置、畫面一致性
目前已提供推理程式、模型權重同網頁示範
適合做互動式圖片編輯、研究評測或模型整合

GitHub： https://github.com/PolyU-VCLab/TVEdit

Paper： https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

BadWorld：如何解決癱瘓視覺世界模型的未來推演

2026 年 6 月 17 日

視覺世界模型（Visual World Models, VWMs）能從一張起始圖片，根據使用者動作序列合成出互動式的未來影片。現有做法多數沿用文字生成圖像或文字生成影片的對抗攻擊範式，但這類方法通常假設有固定的參考輸出或可取得的未來幀標籤。BadWorld 的作者指出，攻擊 VWMs 面對兩道根本限制：攻擊者根本拿不到真實的未來影片當作監督訊號，也無法預測使用者接下來會輸入什麼動作，因此傳統攻擊範式無法直接套用。

為此，團隊提出 BadWorld 框架，屬於一種安全研究工具，專門用來壓力測試自回歸式世界模型的時序穩健性。它繞過「需要未來監督」這道牆，採用自監督的速度擾動攻擊（self-supervised velocity attack），直接破壞模型早期的去噪動力學；同時，為了讓攻擊在未知動作下仍然有效，設計了軌跡自適應雙層優化（trajectory-adaptive bi-level optimization），主動挖掘困難的動作序列以鍛造「對動作無感」的擾動。

從測試結果來看，視覺上幾乎無法分辨的對抗圖片，能可靠觸發後續推演的災難性退化，出現去噪不完全、結構崩塌、控制訊號前後不一致等現象。這些發現對準備把世界模型應用於自動駕駛、機器人等安全關鍵場景的開發者是一記警鐘，同時也提供了一種可操作的隱私保護機制。

如果想自行驗證，可以針對 Matrix-Game-2.0 與 Astra 兩款開源世界模型測試。Matrix-Game-2.0 需約 32GB 顯示記憶體，Astra 則需 80GB，環境需要搭配 FlashAttention 與 NVIDIA Apex 等加速庫，並從 Hugging Face 下載預訓練權重。

屬於安全研究工具，針對視覺世界模型做對抗壓力測試。
突破傳統攻擊需「未來監督」的限制，採自監督速度擾動。
透過軌跡自適應雙層優化，鍛造對未知動作仍有效的擾動。
已在 Matrix-Game-2.0 與 Astra 上展示結構性崩潰。
對自駕、機器人、遊戲模擬等安全關鍵部署具警示意義。

GitHub： https://github.com/LinghuiiShen/BadWorld

Paper： https://arxiv.org/pdf/2606.16519

Categories: 開源, 香港, 香港理工大學, NVIDIA, Video, Image, 工具, 安全, 庫, 模型, 模型訓練, 深度學習, 世界模型, 清華大學, 框架

S2L-PO 用小模型帶動大模型推理訓練

2026 年 6 月 16 日

這個項目來自跨校團隊，作者包括 Yiming Ren、Yiran Xu、Zicheng Lin 等人，通訊作者是 Yu Qiao 與 Ruihang Chu；所屬機構包括清華大學、上海人工智慧實驗室、香港中文大學及香港城市大學。以研究背景看，團隊明顯集中在大型語言模型訓練、推理強化學習與數學評測。

這是一個針對 Group Relative Policy Optimization（GRPO）訓練流程的研究型框架，目的是提升大型語言模型在推理任務上的 rollout diversity。現有做法多數靠提高 temperature，從 token-level randomness 增加變化，但論文指出這種固定範式容易在長推理鏈累積噪音，令軌跡變得不連貫。

S2L-PO（Small-to-Large Policy Optimization）換了一個角度：不用同一個大模型不停抽樣，而是找同家族的較小模型做 explorer，先產生一部分 qualitatively different reasoning trajectories，再讓大模型用混合 rollout 依照標準 GRPO 訓練。之後再用 progressive annealing，逐步由 small-model exploration 過渡到 fully on-policy learning，避免中途被小模型能力上限拖慢。

論文提供的結果頗有說服力。以 Qwen3-8B learner 配 1.7B explorer 為例，AIME24 Pass@1 由 15.0 提升到 23.8，AIME25 Pass@1 由 12.1 提升到 22.5；Qwen3-14B learner 配 4B explorer 亦比基線 GRPO 高。作者同時聲稱 rollout compute 還可降低，這點對訓練成本敏感的團隊尤其有吸引力。

如果你想測試這個項目，較合理的方式不是當作即裝即用工具，而是把它視為一個訓練策略參考：先看論文與公開模型設定，再比較自己手上的 GRPO 流程是否同樣受 rollout 同質化影響。硬件門檻不算低，資料列出 8B 模型約需 20 GB GPU 記憶體、14B 模型約需 32 GB，較適合研究人員、模型訓練工程師，或正在做數學推理微調的團隊。

核心判斷：這是模型訓練框架，不是一般聊天應用，重點在改善 GRPO 的探索品質
方法差異：由 token-level randomness 轉向 policy-level diversity，減少長鏈推理失真
主要創新：用較小同家族模型充當 natural explorers，再以 progressive annealing 收回大模型主導權
已列相關模型：Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B
適合場景：數學推理、可驗證獎勵訓練、想提升 RLVR 與 GRPO 收斂效率的項目

GitHub： https://github.com/qishisuren123/S2L-PO

Paper： https://arxiv.org/pdf/2605.30789

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, Agentic, 工具, Python, 模型, 模型訓練, 深度學習, 香港城市大學, 清華大學, 框架, 上海人工智慧實驗室

ClinHallu 拆解醫療 MLLM 幻覺來源

2026 年 6 月 16 日

ClinHallu 是一個醫療多模態大模型 benchmark 與評測工具，目標不是只計算答對率，而是找出 Medical MLLM 在推理途中哪一段開始出現 hallucination。現有醫療 hallucination benchmark 多數偏重資料收集與最終輸出檢查，作者認為這種範式難以分辨錯誤究竟來自看錯影像、記錯醫學知識，還是把資訊串連時推錯，因此把問題重組成 stage-wise 診斷。

這個項目的核心做法，是把每筆樣本的 reasoning trace 拆成 Visual Recognition、Knowledge Recall、Reasoning Integration 三段，再配合 structured CoT annotations 與 stage-replacement interventions 觀察：如果只修正其中一段，最終答案會否改善。這種設計比單看答案更有分析力，因為它直接對應三種常見錯誤來源：visual hallucination、knowledge hallucination、reasoning hallucination。

ClinHallu 含有 7,031 個驗證過的 instances，並提供評測流程。想試這個項目的人，較合理的路線是先選定 datasets 內要跑的資料集，再對照 models.gold cot、models.model cot、models.judge 的設定，之後查看 results 內的 model cot 與 eval 輸出；若只想生成替換後的 jsonl，也可用 generate 流程。這表示它較適合研究、模型比較與錯誤分析，不是面向一般用家的醫療問答產品。

基準結果也有參考價值。公開表格顯示，Gemini-3-Flash 在整體準確率與三類 hallucination rate 上都屬前列，Avg Acc 為 80.1，而 Qwen3-VL-Plus、Qwen3.5-9B、Qwen3-VL-32B 等模型亦有列入比較。這些數字的重點不是分高下，而是提醒你：同一模型可能答案不差，但在某個階段的 hallucination rate 仍然偏高，之後微調或加防護時就有更清晰方向。

不是只看答對率：它會拆解模型在哪個推理階段出錯。
方法有辨識度：用 structured CoT 與 stage-replacement interventions 做細粒度診斷。
場景很明確：適合醫療 AI 研究、模型評測、trace-supervised fine-tuning 前後比較。
相關模型完整：結果涵蓋 Qwen、Gemini、InternVL、MedGemma、Lingshu 等系列。

如果你在找的是可直接部署的醫療助手，ClinHallu 並不屬於那一類；它更像一把量尺，專門檢查模型推理鏈哪裡開始失真。對研究團隊來說，這比只知道「模型有幻覺」更有用，因為後續可以按 Visual Recognition、Knowledge Recall、Reasoning Integration 分段修正，連 trace-supervised fine-tuning 是否有效都較容易驗證。

GitHub： https://github.com/alibaba-damo-academy/ClinHallu

Paper： https://arxiv.org/pdf/2606.14697

Categories: 開源, 阿里巴巴, Qwen, 香港科技大學, Gemini, Medical醫學, 多模態模型, 清華大學, Dataset 數據集

Page 4 of 12

« Previous 1 2 3 4 5 6 … 12 Next »