discrete_diffusion_RRG：離散擴散模型點樣寫胸肺 X 光報告

Repository image for mxvp/discrete_diffusion_RRG

這是一個醫學影像語言模型微調與評測項目，核心是把 image-conditioned discrete-diffusion language model 與 autoregressive baseline 放在同一家族骨幹下直接比較。它主要處理 chest X-ray VQA 與放射報告補全，目標不是單純生成文字，而是讓模型根據 X 光影像回答問題，或在已知部分句子的情況下補寫其餘內容。

項目的設計重點在於控制變因：DiffusionGemma 與 Gemma-4-26B 使用相近的 backbone family、vision tower、資料與 LoRA 配方，令比較更集中於生成方式本身。diffusion 路線把報告當成可逐步去噪的 decoder canvas，autoregressive 則沿用 next-token 順序生成；前者的優勢是可以做 any-order infill，用雙向脈絡補空位，後者則較接近現時多數 VLM 的常見做法。

部署與測試門檻不算低。模型權重透過 Hugging Face IDs 載入，設定檔要接駁本地 JSON 資料索引；倉庫也提供 synthetic: {n: 16} 這種小型 smoke test，適合先確認流程有沒有跑通。硬件要求比較明確，diffusion backbone 需要支援 bf16 的 GPU，而且記憶體大約要 80 GB，這已經把它定位成研究團隊或具備高階 GPU 環境的醫療 AI 項目。

效能表現有幾個值得留意的點。支援內容提到 Discrete Diffusion Language Models 在醫療 VQA 上可追平，甚至略勝同系 autoregression，解碼速度亦可達 3.5 至 4.4 倍；不過目前較完整的準確度重心仍放在 VQA，而報告生成部分主要展示互動式 infill 能力，未算是完整臨床報告生成系統。語義評分還可接 LLM judge，但這部分需要額外 API 金鑰，也表示結果解讀仍有一定研究性質。

類型上，它較接近研究原型加評測程式碼，不是即裝即用的臨床軟件。
主要資料來源包括 VQA-RAD、SLAKE、VQA-Med 與 MIMIC-CXR。
相關模型包括 DiffusionGemma-26B、Gemma-4-26B，並以 LoRA 方式微調。
any-order infill 是最有辨識度的能力，適合先固定部分報告內容，再由模型補全其餘位置。
適合需要比較生成範式、研究 radiology report drafting，或想驗證 discrete diffusion 在醫療場景表現的團隊。

項目主頁 · GitHub · 模型