開源 Archives - Page 14 of 43

chi-bench：測試醫療 AI 代理真功夫

2026 年 5 月 20 日

chi-bench 係一個用來評估 AI 代理嘅基準環境，重點唔係問答，而係要模型喺模擬出嚟嘅美國醫療工作流程中，逐步完成整個個案。它覆蓋事前授權、保險方利用管理，以及群體照護管理三類長流程工作，目的是測試 AI 有冇能力處理多步驟、規則密集、而且涉及多角色協作嘅任務。

官方摘要提到它使用 20 個 healthcare apps、87 個 MCP tools，以及一份 1,290+ 文件的 managed-care operations handbook 作為任務依據。

實際使用時，研究者通常會先準備對應嘅 API 金鑰，再揀選代理框架同模型跑任務，之後由內建評審機制按每次結果評分。每個任務會提供臨床個案、模擬工作系統，以及大量操作手冊，AI 要透過工具呼叫同撰寫文件去推進流程，唔係單靠生成一段答案就算完成。

它最有意思嘅地方，在於把醫療行政流程入面最麻煩嘅部分具體化：規則多、文件多、系統多，而且中途可能要反覆互動。相比一般 benchmark 只量度單步推理，chi-bench 更接近現實世界，因為它會考驗模型點樣跨應用程式、跟住政策辦事，並保持長時間決策一致。

涵蓋 3 大醫療流程場景，屬於端到端任務評估
以約 20 個模擬醫療應用及大量文件作為操作環境
支援多類代理與模型比較，包括 Claude、OpenAI、Gemini 及開源權重路線
排行榜以 pass@1 為主，亦可保留多次試跑作額外分析

從現有資料睇，呢個基準對現時最強模型都相當困難，代表它有一定鑑別力，唔會輕易被高分掩蓋弱點。已知相關配置包括 Claude Code 配 Claude Opus、OpenAI/Codex 路線、Gemini CLI，以及經 OpenRouter 接入嘅 Hermes、OpenClaw、DeepAgents 等；至於具體表現會隨代理包裝方式同工具使用能力而有明顯差異。

對 AI 代理研究員、醫療流程自動化團隊，甚至想了解「模型識唔識真做事」嘅產品人員嚟講，chi-bench 都幾有參考價值。不過它聚焦美國醫療制度同受規管流程，閱讀結果時要留意場景限制，唔適宜直接當成所有行業嘅通用結論。

GitHub： https://github.com/actava-ai/chi-bench

Paper： https://arxiv.org/pdf/2605.16679

Categories: 開源, Medical醫學, 框架

OProver 點樣令 AI 更識寫數學證明

2026 年 5 月 20 日

OProver 係一個圍繞 Lean 4 建立的形式化證明框架，重點唔係單次叫模型「寫答案」，而係讓系統一邊嘗試、一邊讀取已驗證證明，再根據編譯器回饋反覆修正。對非研究背景讀者來講，可以理解成 AI 做數學題時，不只交卷一次，而係會睇提示、改錯，再重新整理答案。

實際使用上，這個專案較適合已有 Lean 4 或機器學習環境的人：一類會用它做證明推理與驗證流程，另一類會直接研究訓練管線、資料建構同檢索庫管理。儲存庫同時提供模型與資料方向，包括 OProver-8B、OProver-32B，以及 OProofs 語料，較適合想評估模型表現、重現論文流程，或建立自家證明代理系統的團隊。

它要解決的核心問題，是形式化證明往往唔能夠靠一次生成成功，尤其 Lean 4 對語法、型別同邏輯正確性要求非常嚴格。OProver 的特別之處，在於把「找相似證明」、「接收編譯器錯誤訊息」同「多輪修補」由臨時技巧，變成訓練時已經學會的整體策略，這點比只在推理階段追加外掛模組更完整。

支援多輪修正，而唔係只生成一次證明
會利用已驗證證明作檢索參考，提升命中率
透過 Lean 4 伺服器做機械驗證，結果更可靠
提供 CPT、SFT、RL 等訓練流程，覆蓋研究到實作
附帶大型 OProofs 資料集，方便分析 pass@k 與修復軌跡

以公開資訊看，OProofs 規模相當大，包含 1.77M 個 Lean 陳述、6.86M 個經編譯器驗證的證明，亦保留失敗嘗試與後續修復過程，這對研究「模型點樣由錯變對」尤其有價值。論文亦提到它在 MiniF2F、ProverBench、PutnamBench 等基準有突出表現；不過這類成果仍主要面向形式化數學、定理證明研究者，同一般應用型開發者的距離會稍遠。

GitHub： https://github.com/multimodal-art-projection/OProver

Paper： https://arxiv.org/pdf/2605.17283

Categories: 開源, 模型

KVPO 點樣提升影片生成對齊

2026 年 5 月 20 日

KVPO 係一個針對影片生成訓練流程嘅研究型專案，焦點唔係單純「生成到片」，而係令模型喺逐格、逐段生成嘅過程中，更穩定咁貼近文字提示同預期內容。對一般讀者嚟講，可以理解成：佢想改善 AI 影片成日出現嘅「開頭啱、之後走樣」問題。

呢個方法特別之處，在於佢唔只睇最後條影片好唔好，而係會喺生成途中做多條候選路線探索，再用獎勵模型判斷邊條路線更值得學。README 提到佢結合咗類似 PPO 嘅強化學習更新，以及對生成軌跡嘅機率估計，目標係令自動回歸影片模型學得更準。

實際了解同試用呢個專案，會由查看論文、專案頁面同釋出權重開始，再按設定準備對應環境、模型權重同資料。由於文件列出咗 H200、CUDA 12.8、Wan2.1 backbone，以及 HPSv3、VideoReward 等元件，較適合已有 GPU 資源、熟悉深度學習訓練流程嘅讀者，而唔係即開即用型工具。

主要處理影片生成中內容偏離提示、時間一致性變差等問題
核心做法係先探索多個生成分支，再用獎勵分數引導學習
研究重點放喺自動回歸影片模型，而唔係一般圖片生成
文件顯示會配合 Wan2.1-T2V-1.3B 等 backbone 使用
仲會涉及 HPSv3、VideoReward 呢類評分或獎勵相關模型

整體而言，KVPO 比較適合關注影片生成訓練方法嘅研究者、工程師，或者想比較唔同對齊策略嘅團隊。對非技術用家，佢未必係直接拎嚟出片嘅方案；但作為觀察新一代影片模型點樣「學識跟指令」嘅方向，呢個專案幾有參考價值。

GitHub： https://github.com/Richard-Zhang-AI/KVPO

Paper： https://arxiv.org/pdf/2605.14278

Categories: 開源, 香港科技大學, 影像模型, 影像處理, 清華大學

一張平面圖變出 3D 房間？看懂 Code-as-Room

2026 年 5 月 20 日

Code-as-Room 想處理的核心問題很直接：只靠一張房間俯視圖，怎樣較有系統地重建出可用的 3D 室內場景。它不是單純輸出一張效果圖，而是進一步產生 Blender 可執行程式碼，連同幾何、材質和燈光一併描述，方向相當實際。

現時公開資訊顯示，這個框架以多模態大型模型作為核心，並採用分階段流程，先理解房內物件與相對位置，再把結果整理成結構化程式表示。這種做法的特別之處，在於把「看圖生成」和「可重現的 3D 腳本」接起來，對後續修改、除錯和重用都更有幫助。

實際使用層面上，現時程式碼尚未正式釋出，所以比較適合先把它當成研究方向觀察。已經使用 Blender、關注室內建模、自動生成內容，或者想研究 AI 代理如何拆解複雜空間任務的人，可以先看論文與示例頁面，理解它如何由影像分析一路走到場景合成。

由單張俯視圖推斷房間內物件與空間關係
輸出重點不是圖片，而是 Blender 可執行程式碼
採用多階段流程，處理幾何、材質與燈光
適合 3D 內容生成、室內設計研究與代理式 AI 工作流

從相關技術脈絡看，它屬於 MLLM、agentic framework、scene understanding、code synthesis 與 Blender-based 3D generation 的交界。若之後開源內容完整，這類方法有機會成為由 2D 圖像快速建立可編輯 3D 房間的一種新工具；不過在未正式釋出前，效果細節與部署門檻仍要保守看待。

GitHub： https://github.com/YxuanAr/Code-as-Room

Paper： https://arxiv.org/pdf/2605.18451

Categories: 開源, 上海人工智慧實驗室

Lance：一個模型包辦圖像與影片

2026 年 5 月 20 日

Lance 是 ByteDance 推出的 3B 級多模態模型，重點不只是「識圖」，而是把圖片與影片的理解、生成、編輯放在同一套框架內處理。對一般讀者來說，最易明白的價值是：同一個專案可應付多種視覺工作，不用為每個任務分開找不同模型。

Lance 可處理的任務包括文字生成圖片、文字生成影片、圖片編輯、影片編輯，以及由圖片或影片輸出文字說明。環境方面需要 Python 3.10+、CUDA 12.4+，推理亦要至少 40GB VRAM 的 GPU，較適合有工作站或伺服器資源的團隊先做測試，再按任務修改預設參數與樣本配置。

它較有意思的地方，在於用 3B active parameters 去覆蓋多種視覺任務，並強調由零開始訓練，加上分階段的多任務訓練方法。這代表它的設計方向不是只追單一指標，而是希望不同任務之間互相帶動，令圖片與影片能力更集中在同一模型內。

支援的任務範圍廣：t2i、t2v、image edit、video edit、x2t image、x2t video
模型規模屬 3B，但官方稱在多項圖片與影片基準上表現不俗
重點是統一框架，減少多模型切換的複雜度
推理硬件門檻不低，較適合研究、內容工具開發及企業試驗

合適視覺 AI 研究、內容製作流程整合、需要同時處理圖像與短片的原型系統。相關模型方向可留意文字轉圖片、文字轉影片、影像編輯、影片編輯，以及視覺轉文字這幾類；Lance 的特點正是把這些能力盡量收攏到同一個模型體系之中。

GitHub： https://github.com/bytedance/Lance

Paper： https://arxiv.org/pdf/2605.18678

Categories: 開源, 字節跳動, 影像模型, 影像處理

LongLive：長片段影片生成再快一步

2026 年 5 月 20 日

LongLive 係 NVIDIA NVLabs 針對長影片生成提出的基礎設施，核心目標唔係單純「整到片」，而係令模型喺處理長時間、多鏡頭內容時，冇咁易被記憶體同速度拖慢。由 1.0 強調即時互動式生成，到 2.0 加入 NVFP4 平行化設計，重點已經擴展到訓練、蒸餾同推理全流程。

實際使用時，較自然嘅路線係先睇示範頁同文件，了解佢點樣接收連續提示詞，再按需要選擇 BF16 或 NVFP4 模型版本。現有公開模型包括 LongLive-2.0-5B、LongLive-2.0-5B-NVFP4-S4，而較早期分支亦有 LongLive-1.3B，方便分別比較畫質、速度同硬件需求。

呢個專案最值得留意嘅地方，在於佢唔只優化生成結果，仲直接處理長影片常見樽頸，例如 KV cache 佔用、跨卡通訊、以及多鏡頭自回歸生成時嘅效率問題。資料顯示，2.0 版本支援多鏡頭或單鏡頭訓練、序列平行推理、非同步解碼，同時可用較低精度格式減少記憶體開銷；論文亦提到訓練與推理速度都有明顯提升，但實際表現仍要視乎 GPU 架構而定。

支援長影片、多鏡頭連續生成，方向比一般短片生成更明確
提供 BF16 同 NVFP4 版本，方便按硬件取捨
針對訓練與推理一齊優化，唔係只顧其中一端
包含序列平行、KV cache 量化、非同步解碼等工程設計
適合研究人員、影片生成開發者，同埋需要評估部署效率嘅團隊

整體來講，LongLive 比較似一個面向進階影片生成工作流嘅「引擎室升級」，特別適合關注長片段敘事、互動式生成，或者想研究多鏡頭影片模型點樣落地嘅人。對一般讀者而言，最容易理解嘅價值就係：佢嘗試用更慳資源、更快嘅方式，令 AI 生成長影片唔再只停留喺概念展示。

GitHub： https://github.com/NVlabs/LongLive

Paper： https://arxiv.org/pdf/2605.18739

Categories: 開源, NVIDIA, 影像模型

CM-EVS：用更少視角看完整個場景

2026 年 5 月 20 日

Repository image for Strange-animalss/CM-EVS

CM-EVS 係一個為 3D 場景整理全景 RGB、深度同姿態資料嘅流程工具，重點唔係不停輸出更多畫面，而係用較少但更有代表性嘅視角，盡量覆蓋完整場景。對需要建立訓練資料、檢查場景覆蓋度，或者整理室內空間視圖嘅工作，方向相當清晰。

實際使用時，較穩陣嘅做法係先由 Blender 室內場景路線開始，之後再按需要接 HM3D、一般 GLB 或 ScanNet++ PLY 這類來源。流程大致分成三步：先產生候選視角，再從中揀選衝突較低嘅視角組合，最後輸出已選畫面與相關記錄，方便重現結果同做後續核對。

呢個專案特別之處，在於佢唔單止計算「邊個視角睇到最多」，仲會考慮視角之間是否過分重疊，避免揀出一堆內容相似嘅畫面。對建立稀疏但有效嘅資料集尤其重要，因為畫面數量少啲，後續儲存、檢查同訓練成本通常都更易控制。

支援統一資料格式，涵蓋 ERP RGB、range-depth 同 pose
可處理多種來源，包括 Blender、HM3D/GLB、ScanNet++/PLY
會輸出候選視角、逐步紀錄同已選結果，方便重做與比對
核心模組拆分得較細，例如投影、深度與變形部分可獨立替換

適合對象包括做 3D 視覺、機械人感知、場景重建，或者要整理研究資料集嘅團隊。文中提到嘅相關資料來源與場景類型，主要有 Blender indoor、HM3D、generic GLB、ScanNet++，亦提及可延伸到戶外來源；不過從公開資訊睇，Blender 室內路線仍然係最建議先試嘅入口。

GitHub： https://github.com/Strange-animalss/CM-EVS

Paper： https://arxiv.org/pdf/2605.15597

Categories: 開源, 香港科技大學, 影像處理, 中國

Flash-GRPO：影片生成訓練再提速

2026 年 5 月 19 日

Flash-GRPO 針對的是影片生成模型訓練中一個很實際的難題：要令模型更貼近人類偏好或評分標準，傳統做法往往要走完整訓練軌跡，計算量高、時間長，對硬件要求亦相當重。這個專案提出單步式優化框架，重點是用較低運算預算，換取更有效率的對齊效果。

從公開資料來看，它主要面向影片擴散模型，並配合獎勵模型一同使用。實際動手時，需要先準備基礎模型 Wan2.1-1.3B，以及 README 提到的 HPSv3 獎勵模型，再按專案提供的訓練流程啟動；現階段較適合已熟悉 Python、分散式訓練和 GPU 環境的人直接試跑。

這個方法較有意思的地方，在於它不只是「少做步驟」，而是嘗試處理時間步之間訓練訊號不穩定的問題。README 提到兩個核心設計：一個是維持同一提示詞在時間上的一致性分組，另一個是修正不同時間步梯度尺度不一致的情況，目標是令訓練更穩定，也更容易比較模型表現。

主打影片擴散模型的對齊訓練，而非一般文字模型微調
強調單步式策略優化，方向上比完整軌跡訓練更省資源
已在 1.3B 到 14B 規模模型做實驗驗證
相關基礎組件，包括 Wan2.1-1.3B 與 HPSv3

整體來說，Flash-GRPO 比較適合做生成式 AI 研究、影片模型訓練優化，或想評估低成本對齊方案的團隊。對一般用家而言，它不是即裝即用的成品；但對需要在有限 GPU 預算下提升訓練效率的人，這個專案展示了一條相當值得關注的技術路線。

GitHub： https://github.com/Shredded-Pork/Flash-GRPO

Paper： https://arxiv.org/pdf/2605.15980

Categories: 開源, 影像模型, 中國, 清華大學

EffOPD：助訓練模型流程更精明

2026 年 5 月 19 日

Repository image for caiyuchen-ustc/EffOPD

EffOPD 是一個圍繞模型訓練流程改良的研究實作，重點不在做一個全新聊天產品，而是在訓練途中更有效率地挑選值得評估的候選參數。從儲存庫資訊可見，它建基於 verl 與 GOPD，並調整訓練器與工作流程相關檔案，屬於偏底層的優化工具。

實際使用時，做法是沿用原本 OPD 的訓練流程，再加入迭代測試相關設定，並準備一份 parquet 格式的輕量驗證資料。這種安排的意思很直接：模型訓練到某些檢查點時，系統會額外評估幾個外推候選，而不是每次都用完整驗證流程，從而加快判斷。

專案想解決的，是大模型強化學習或蒸餾訓練中，評估成本高、嘗試路線多的問題。它較特別的地方，在於把「外推搜尋」和「即時輕量驗證」結合，讓訓練期間可以更早篩走不理想方向；儲存庫亦提到可設定每次最多測試 5 個候選，反映它著重效率與可控性之間的平衡。

建基於 verl 與 GOPD，較適合已有相關訓練基礎的人
透過啟用迭代測試，在訓練中加入外推式候選搜尋
使用 parquet 驗證檔建立輕量驗證集，減少即時評估負擔
可調整每個檢查點評估的候選數量，預設實驗值為 5

適合主要作為研究實驗、訓練流程調校，以及想比較不同訓練決策成本的人。相關脈絡上，儲存庫明確提到 OPD、GOPD 和 EffOPD，而論文方向亦圍繞大型語言模型的強化學習動態與 on-policy distillation；對一般用家未必即插即用，但對做模型訓練研究的人有參考價值。

GitHub： https://github.com/caiyuchen-ustc/EffOPD

Paper： https://arxiv.org/pdf/2605.11739

Categories: 開源, 香港科技大學, 騰訊, 模型訓練

InsightTok：令生圖文字人臉更清晰

2026 年 5 月 19 日

生成圖片時，最常令人出戲的往往不是背景，而是招牌上的字、海報上的字句，或者人臉五官的細節。InsightTok 針對的正正是這兩個難位：它不是直接改整個生圖模型，而是先改善圖片被「拆解成代碼」的方式，讓後續生成時更易保留重要內容。

實際使用上，這類專案較適合已經在做文字生成圖片、研究離散視覺 tokenization，或使用自回歸圖像生成流程的開發者與研究者。重點在於把原有流程中的視覺 tokenizer 換成 InsightTok 這一類方案，後面的生成模型理論上毋須大改，對現有管線算是較容易接入。

它的特別之處，在於沒有只用一般重建目標，而是更有意識地照顧局部而且重要的內容，例如文字區域與人臉區域。根據儲存庫提供的說明，它在相同壓縮率下，能做到更好的文字與人臉重建，同時只用 16× downsampling 和 16,384 個條目的 codebook，額外訓練成本亦相對有限。

主要改善圖片中的文字可讀性與人臉細節還原
可兼容標準自回歸圖像生成流程，毋須連下游模型一併重寫
在相同壓縮條件下，重建效果主打更清晰、更忠於原圖
設計上延續 VQGAN 風格 tokenizer 思路，但加強重點區域 supervision
相關脈絡包括離散視覺 tokenizer、VQGAN 風格方法，以及文字生成圖片模型

整體來看，InsightTok 吸引之處不在花巧功能，而在於它抓到生圖最常被批評的痛點，再用相對務實的方法補強。對一般讀者來說，可以把它理解成一個「令 AI 更識得保住字同樣貌」的底層零件；對技術團隊而言，它較像是一個可直接提升畫面可用性的基礎組件。

GitHub： https://github.com/LeapLabTHU/InsightTok

Paper： https://arxiv.org/pdf/2605.14333

Categories: 開源, 微軟, 視覺模型, 視頻模型, 中國, 清華大學

Page 14 of 43

« Previous 1 … 12 13 14 15 16 … 43 Next »