ZEDA 點樣令 MoE 推理更慳力

Overview of Unified Post-Training Framework.

ZEDA 針對的是一個很實際的痛點:大型 MoE 模型雖然強,但部署時每次回應都要動用唔少計算資源,成本高、速度亦受影響。呢個專案的目標,係唔使由頭再訓練模型,而係在現有、已做完後訓練的 MoE 之上,再改造成更靈活的動態版本。

它的做法有點似「老師帶學生」:先用原本的 MoE 當固定老師,再訓練新的學生模型去學習輸出,同時加入一種零輸出的專家,讓部分較簡單的 token 可以略過不必要計算。根據論文與倉庫資訊,這種方法可減少超過一半 expert FLOPs,整體表現只屬輕微下跌,並帶來約 1.20 倍端到端推理加速。

ZEDA 不是通用開發框架;它是清華 C3I 團隊的一個研究專案,從公開論文摘要看,全名是 Zero-Expert Self-Distillation Adaptation,目標是把靜態 MoE 模型轉成更高效的動態 MoE 模型,以降低推理成本並提升速度。這個專案對應的 GitHub 倉庫就是 TsinghuaC3I/ZEDA,而論文頁面也明確指向該 repo。

實際動手時,流程大致分兩步:先做 SFT,利用老師模型產生的回應或已釋出的 rollout 結果訓練學生;之後再做 OPD,改為由學生自己生成,再由老師提供 token 級別目標去微調。倉庫亦提到可配合已公開的 prompts 與 rollout 資料使用,對想重現結果或套用到指定 MoE 的人會方便不少。

  • 核心價值:把已完成訓練的靜態 MoE,改成推理時更慳算力的動態 MoE
  • 方法亮點:加入零輸出專家,再用兩階段自蒸餾穩定轉換過程
  • 可選模型:Qwen3-30B-A3B、GLM-4.7-Flash
  • 適合場景:模型已定版,但上線後仍想再壓低推理成本
  • 資料配套:提供 prompts 集合,亦釋出部分 rollout 結果可直接利用

整體來看,ZEDA 最值得留意的地方,不是單純追求更高分,而是補上「模型已經訓練完,之後仲可以點樣再慳資源」這一步。對研究 MoE 部署、推理優化,或者手上已有大型後訓練模型的團隊,這個方向相當有參考價值;至於一般讀者,可以把它理解成一種用較少電腦功夫,換來差不多效果的改裝方案。

GitHub: https://github.com/TsinghuaC3I/ZEDA

Paper: https://arxiv.org/pdf/2605.18643

Categories: 開源, 中國, 清華大學, 上海人工智慧實驗室

一張平面圖變出 3D 房間?看懂 Code-as-Room

Code-as-Room teaser

Code-as-Room 想處理的核心問題很直接:只靠一張房間俯視圖,怎樣較有系統地重建出可用的 3D 室內場景。它不是單純輸出一張效果圖,而是進一步產生 Blender 可執行程式碼,連同幾何、材質和燈光一併描述,方向相當實際。

現時公開資訊顯示,這個框架以多模態大型模型作為核心,並採用分階段流程,先理解房內物件與相對位置,再把結果整理成結構化程式表示。這種做法的特別之處,在於把「看圖生成」和「可重現的 3D 腳本」接起來,對後續修改、除錯和重用都更有幫助。

實際使用層面上,現時程式碼尚未正式釋出,所以比較適合先把它當成研究方向觀察。已經使用 Blender、關注室內建模、自動生成內容,或者想研究 AI 代理如何拆解複雜空間任務的人,可以先看論文與示例頁面,理解它如何由影像分析一路走到場景合成。

  • 由單張俯視圖推斷房間內物件與空間關係
  • 輸出重點不是圖片,而是 Blender 可執行程式碼
  • 採用多階段流程,處理幾何、材質與燈光
  • 適合 3D 內容生成、室內設計研究與代理式 AI 工作流

從相關技術脈絡看,它屬於 MLLM、agentic framework、scene understanding、code synthesis 與 Blender-based 3D generation 的交界。若之後開源內容完整,這類方法有機會成為由 2D 圖像快速建立可編輯 3D 房間的一種新工具;不過在未正式釋出前,效果細節與部署門檻仍要保守看待。

GitHub: https://github.com/YxuanAr/Code-as-Room

Paper: https://arxiv.org/pdf/2605.18451

Categories: 開源, 上海人工智慧實驗室

CiteVQA

CiteVQA overview

做文件問答評測時,很多工具只睇最後答案啱唔啱,但現實上,尤其是合約、財務報告、醫療文件呢類長篇 PDF,真正重要的是「答案來自邊一頁、邊一段、邊個區塊」。CiteVQA 針對的正正是這個缺口:它不只要求系統回答問題,仲要指出支撐答案的文件位置,而且細到元素層級,例如頁碼同區域框選。對想評估文件 AI 是否可靠的人來講,這比單純比拼答題分數實用得多。

實際使用上,這個專案較適合作為評測基準,而唔係一般用家即開即用的聊天工具。研究團隊、產品開發者或企業內部做文件自動化測試時,可以先取得資料集,再用自己的多模態模型跑推論,之後交畀評估程式比對答案與引用位置是否同樣正確。資料涵蓋英文與中文文件,來自 711 份 PDF、共 1,897 條問題,平均每份文件超過 40 頁,亦分成單一文件問答,以及要在多份文件中找答案的情境,難度相當貼近真實工作流程。

這個專案最值得留意的地方,是它把「答對」與「引對證據」綁埋一齊計分。核心指標 SAA 只有在答案正確,而且引用區域同標準證據對得上時先會得分,能更直接揭示模型有冇出現「講得似乎合理,但引用錯地方」的情況。根據公開結果,即使是表現較強的模型,答案分數與這種嚴格分數之間仍有明顯差距,反映現時不少系統其實未真正做到可追溯。這一點對高風險場景尤其重要,因為用戶要的不只是結論,仲要查得到根據。

重點可簡單整理成以下幾點:
不只評分答案,亦檢查引用證據是否真係來自正確頁面與區域
文件夠長亦夠真實,涵蓋 7 個大類領域、30 個細分類,並支援中英文
場景設計多樣,包括單文件、多文件但只有一份正確來源,以及多份來源都可能成立
適合測試文件型多模態模型,特別係要處理 PDF 版面、圖文混合與跨頁搜尋的系統
可用來比較模型可靠度,而唔係只比較誰的答案最似正解

從模型觀察角度看,這個基準亦提供了不錯的參考名單。公開結果提到的相關模型包括 Gemini-3.1-Pro-Preview、Gemini-3-Flash-Preview、GPT-5.4、Gemini-2.5-Pro、Seed2.0-Pro、GPT-5.2、Qwen3.6-Plus、GLM-5V-Turbo、Qwen3-VL-235B-A22B、Gemma-4-31B、Kimi-K2.5、Qwen3.5-397B-A17B 等。由這些結果可見,封閉模型在整體表現上暫時較領先,但開源模型同樣能作為對照組,方便團隊用統一方式測試自家方案。對要建立文件審核、知識搜尋、報告核對、法規查證流程的人來說,CiteVQA 的價值不在於幫你直接產生答案,而在於幫你分辨:哪個模型,才真係值得信。

GitHub: https://github.com/opendatalab/CiteVQA

Paper: https://arxiv.org/pdf/2605.12882

Categories: 開源, Agentic, 中國, 上海人工智慧實驗室