LiteFrame 點樣令 AI 睇影片更多更快

Google DeepMind

而家不少影片大模型都可以答片段問題、做內容理解,但片一長,速度同成本就會急升。LiteFrame針對的正正唔係表面上的「睇少啲格」,而係指出每一格都交俾大型視覺編碼器處理,本身先係真正慢位。

這個專案提出一個較輕量的影片編碼骨幹,核心做法是用較大的教師模型,教一個更精簡的學生模型直接產生已壓縮、但仍保留時空資訊的表示。論文將這套訓練方式稱為 Compressed Token Distillation,另外亦配合 Language Model Adaptation,令後續語言模型更易接住使用這些視覺資訊。

對使用者而言,現階段較適合作為研究參考而非即裝即用工具,因為 README 已說明程式碼和權重尚未釋出。實際閱讀可以先由論文和項目頁入手,集中看它如何比較端到端延遲、可處理影格數,以及在多個影片理解基準上的準確度變化。

  • 重點不只是減少語言模型負擔,亦直接降低逐格視覺編碼成本
  • 主打長影片理解,在固定運算預算下處理更多 frames
  • 論文提到相對 InternVL3-8B,可降低端到端延遲並處理更多影格
  • 適合做影片問答、影片描述、時序推理相關研究參考
  • 文中脈絡亦關連到 Video LLM、MLLM、ViT、InternVL3-8B 等模型路線

整體來看,LiteFrame的價值在於把焦點由「事後刪 token」移前到「一開始就更有效率地抽特徵」。對關注長片分析、影片助手或多模態系統的人來說,這是一條幾實際的新方向,不過最終落地效果仍要等官方釋出程式碼與模型後,先可以更完整驗證。

GitHub: https://github.com/jjihwan/LiteFrame

Paper: https://arxiv.org/pdf/2605.17260

Categories: 開源, Google, 模型, 視覺模型

ZEDA 點樣令 MoE 推理更慳力

Overview of Unified Post-Training Framework.

ZEDA 針對的是一個很實際的痛點:大型 MoE 模型雖然強,但部署時每次回應都要動用唔少計算資源,成本高、速度亦受影響。呢個專案的目標,係唔使由頭再訓練模型,而係在現有、已做完後訓練的 MoE 之上,再改造成更靈活的動態版本。

它的做法有點似「老師帶學生」:先用原本的 MoE 當固定老師,再訓練新的學生模型去學習輸出,同時加入一種零輸出的專家,讓部分較簡單的 token 可以略過不必要計算。根據論文與倉庫資訊,這種方法可減少超過一半 expert FLOPs,整體表現只屬輕微下跌,並帶來約 1.20 倍端到端推理加速。

ZEDA 不是通用開發框架;它是清華 C3I 團隊的一個研究專案,從公開論文摘要看,全名是 Zero-Expert Self-Distillation Adaptation,目標是把靜態 MoE 模型轉成更高效的動態 MoE 模型,以降低推理成本並提升速度。這個專案對應的 GitHub 倉庫就是 TsinghuaC3I/ZEDA,而論文頁面也明確指向該 repo。

實際動手時,流程大致分兩步:先做 SFT,利用老師模型產生的回應或已釋出的 rollout 結果訓練學生;之後再做 OPD,改為由學生自己生成,再由老師提供 token 級別目標去微調。倉庫亦提到可配合已公開的 prompts 與 rollout 資料使用,對想重現結果或套用到指定 MoE 的人會方便不少。

  • 核心價值:把已完成訓練的靜態 MoE,改成推理時更慳算力的動態 MoE
  • 方法亮點:加入零輸出專家,再用兩階段自蒸餾穩定轉換過程
  • 可選模型:Qwen3-30B-A3B、GLM-4.7-Flash
  • 適合場景:模型已定版,但上線後仍想再壓低推理成本
  • 資料配套:提供 prompts 集合,亦釋出部分 rollout 結果可直接利用

整體來看,ZEDA 最值得留意的地方,不是單純追求更高分,而是補上「模型已經訓練完,之後仲可以點樣再慳資源」這一步。對研究 MoE 部署、推理優化,或者手上已有大型後訓練模型的團隊,這個方向相當有參考價值;至於一般讀者,可以把它理解成一種用較少電腦功夫,換來差不多效果的改裝方案。

GitHub: https://github.com/TsinghuaC3I/ZEDA

Paper: https://arxiv.org/pdf/2605.18643

Categories: 開源, 中國, 上海人工智慧實驗室, 清華大學

chi-bench:測試醫療 AI 代理真功夫

χ-Bench

chi-bench 係一個用來評估 AI 代理嘅基準環境,重點唔係問答,而係要模型喺模擬出嚟嘅美國醫療工作流程中,逐步完成整個個案。它覆蓋事前授權、保險方利用管理,以及群體照護管理三類長流程工作,目的是測試 AI 有冇能力處理多步驟、規則密集、而且涉及多角色協作嘅任務。

官方摘要提到它使用 20 個 healthcare apps、87 個 MCP tools,以及一份 1,290+ 文件的 managed-care operations handbook 作為任務依據。

實際使用時,研究者通常會先準備對應嘅 API 金鑰,再揀選代理框架同模型跑任務,之後由內建評審機制按每次結果評分。每個任務會提供臨床個案、模擬工作系統,以及大量操作手冊,AI 要透過工具呼叫同撰寫文件去推進流程,唔係單靠生成一段答案就算完成。

它最有意思嘅地方,在於把醫療行政流程入面最麻煩嘅部分具體化:規則多、文件多、系統多,而且中途可能要反覆互動。相比一般 benchmark 只量度單步推理,chi-bench 更接近現實世界,因為它會考驗模型點樣跨應用程式、跟住政策辦事,並保持長時間決策一致。

  • 涵蓋 3 大醫療流程場景,屬於端到端任務評估
  • 以約 20 個模擬醫療應用及大量文件作為操作環境
  • 支援多類代理與模型比較,包括 Claude、OpenAI、Gemini 及開源權重路線
  • 排行榜以 pass@1 為主,亦可保留多次試跑作額外分析

從現有資料睇,呢個基準對現時最強模型都相當困難,代表它有一定鑑別力,唔會輕易被高分掩蓋弱點。已知相關配置包括 Claude Code 配 Claude Opus、OpenAI/Codex 路線、Gemini CLI,以及經 OpenRouter 接入嘅 Hermes、OpenClaw、DeepAgents 等;至於具體表現會隨代理包裝方式同工具使用能力而有明顯差異。

對 AI 代理研究員、醫療流程自動化團隊,甚至想了解「模型識唔識真做事」嘅產品人員嚟講,chi-bench 都幾有參考價值。不過它聚焦美國醫療制度同受規管流程,閱讀結果時要留意場景限制,唔適宜直接當成所有行業嘅通用結論。

GitHub: https://github.com/actava-ai/chi-bench

Paper: https://arxiv.org/pdf/2605.16679

Categories: 開源, Medical醫學, 框架

OProver 點樣令 AI 更識寫數學證明

OProver framework overview

OProver 係一個圍繞 Lean 4 建立的形式化證明框架,重點唔係單次叫模型「寫答案」,而係讓系統一邊嘗試、一邊讀取已驗證證明,再根據編譯器回饋反覆修正。對非研究背景讀者來講,可以理解成 AI 做數學題時,不只交卷一次,而係會睇提示、改錯,再重新整理答案。

實際使用上,這個專案較適合已有 Lean 4 或機器學習環境的人:一類會用它做證明推理與驗證流程,另一類會直接研究訓練管線、資料建構同檢索庫管理。儲存庫同時提供模型與資料方向,包括 OProver-8BOProver-32B,以及 OProofs 語料,較適合想評估模型表現、重現論文流程,或建立自家證明代理系統的團隊。

它要解決的核心問題,是形式化證明往往唔能夠靠一次生成成功,尤其 Lean 4 對語法、型別同邏輯正確性要求非常嚴格。OProver 的特別之處,在於把「找相似證明」、「接收編譯器錯誤訊息」同「多輪修補」由臨時技巧,變成訓練時已經學會的整體策略,這點比只在推理階段追加外掛模組更完整。

  • 支援多輪修正,而唔係只生成一次證明
  • 會利用已驗證證明作檢索參考,提升命中率
  • 透過 Lean 4 伺服器做機械驗證,結果更可靠
  • 提供 CPT、SFT、RL 等訓練流程,覆蓋研究到實作
  • 附帶大型 OProofs 資料集,方便分析 pass@k 與修復軌跡

以公開資訊看,OProofs 規模相當大,包含 1.77M 個 Lean 陳述、6.86M 個經編譯器驗證的證明,亦保留失敗嘗試與後續修復過程,這對研究「模型點樣由錯變對」尤其有價值。論文亦提到它在 MiniF2F、ProverBench、PutnamBench 等基準有突出表現;不過這類成果仍主要面向形式化數學、定理證明研究者,同一般應用型開發者的距離會稍遠。

GitHub: https://github.com/multimodal-art-projection/OProver

Paper: https://arxiv.org/pdf/2605.17283

Categories: 開源, 模型

KVPO 點樣提升影片生成對齊

KVPO

KVPO 係一個針對影片生成訓練流程嘅研究型專案,焦點唔係單純「生成到片」,而係令模型喺逐格、逐段生成嘅過程中,更穩定咁貼近文字提示同預期內容。對一般讀者嚟講,可以理解成:佢想改善 AI 影片成日出現嘅「開頭啱、之後走樣」問題。

呢個方法特別之處,在於佢唔只睇最後條影片好唔好,而係會喺生成途中做多條候選路線探索,再用獎勵模型判斷邊條路線更值得學。README 提到佢結合咗類似 PPO 嘅強化學習更新,以及對生成軌跡嘅機率估計,目標係令自動回歸影片模型學得更準。

實際了解同試用呢個專案,會由查看論文、專案頁面同釋出權重開始,再按設定準備對應環境、模型權重同資料。由於文件列出咗 H200、CUDA 12.8、Wan2.1 backbone,以及 HPSv3、VideoReward 等元件,較適合已有 GPU 資源、熟悉深度學習訓練流程嘅讀者,而唔係即開即用型工具。

  • 主要處理影片生成中內容偏離提示、時間一致性變差等問題
  • 核心做法係先探索多個生成分支,再用獎勵分數引導學習
  • 研究重點放喺自動回歸影片模型,而唔係一般圖片生成
  • 文件顯示會配合 Wan2.1-T2V-1.3B 等 backbone 使用
  • 仲會涉及 HPSv3VideoReward 呢類評分或獎勵相關模型

整體而言,KVPO 比較適合關注影片生成訓練方法嘅研究者、工程師,或者想比較唔同對齊策略嘅團隊。對非技術用家,佢未必係直接拎嚟出片嘅方案;但作為觀察新一代影片模型點樣「學識跟指令」嘅方向,呢個專案幾有參考價值。

GitHub: https://github.com/Richard-Zhang-AI/KVPO

Paper: https://arxiv.org/pdf/2605.14278

Categories: 開源, 香港科技大學, 影像模型, 影像處理, 清華大學

一張平面圖變出 3D 房間?看懂 Code-as-Room

Code-as-Room teaser

Code-as-Room 想處理的核心問題很直接:只靠一張房間俯視圖,怎樣較有系統地重建出可用的 3D 室內場景。它不是單純輸出一張效果圖,而是進一步產生 Blender 可執行程式碼,連同幾何、材質和燈光一併描述,方向相當實際。

現時公開資訊顯示,這個框架以多模態大型模型作為核心,並採用分階段流程,先理解房內物件與相對位置,再把結果整理成結構化程式表示。這種做法的特別之處,在於把「看圖生成」和「可重現的 3D 腳本」接起來,對後續修改、除錯和重用都更有幫助。

實際使用層面上,現時程式碼尚未正式釋出,所以比較適合先把它當成研究方向觀察。已經使用 Blender、關注室內建模、自動生成內容,或者想研究 AI 代理如何拆解複雜空間任務的人,可以先看論文與示例頁面,理解它如何由影像分析一路走到場景合成。

  • 由單張俯視圖推斷房間內物件與空間關係
  • 輸出重點不是圖片,而是 Blender 可執行程式碼
  • 採用多階段流程,處理幾何、材質與燈光
  • 適合 3D 內容生成、室內設計研究與代理式 AI 工作流

從相關技術脈絡看,它屬於 MLLM、agentic framework、scene understanding、code synthesis 與 Blender-based 3D generation 的交界。若之後開源內容完整,這類方法有機會成為由 2D 圖像快速建立可編輯 3D 房間的一種新工具;不過在未正式釋出前,效果細節與部署門檻仍要保守看待。

GitHub: https://github.com/YxuanAr/Code-as-Room

Paper: https://arxiv.org/pdf/2605.18451

Categories: 開源, 上海人工智慧實驗室

AI for Auto-Research: 一站看清 AI 自動科研版圖 survey+指南

teaser paper

awesome-ai-auto-research 不是一般教你寫程式的工具庫,而是一份面向科研流程的整理清單。它配合同名綜述文章,將 AI 參與研究工作的方式,按由構思到發表與傳播的不同階段串連起來,方便讀者一次過看清全貌。

使用時可以先按研究工作所在位置去看分類:例如找論文、整理文獻、安排實驗、檢查程式是否可重現,甚至延伸到寫作、評審回應和成果展示。這種按流程瀏覽的方法,對初次接觸「AI 幫手做研究」的人特別友善,因為不用先熟悉所有模型名稱,已可由任務入手。

它值得留意的地方,是不只列出生成內容的工具,還把品質評估、重現性與協作型系統放在同一張地圖上。換句話說,這個專案關心的不只是「寫得快」,而是研究是否找得準、做得穩、驗得清。

  • 以完整研究生命週期整理資料,較易按需要查找
  • 涵蓋文獻搜尋、綜合、實驗執行與程式驗證等範圍
  • 包含單一模型知識生成多代理協作生成方向
  • 也觸及檢索與綜合品質評估、程式正確性與可重現性

適合的讀者包括研究生、學術支援人員、對 AI 科研工具有興趣的工程師,以及想了解市場與技術走向的人。相關方向可留意大型語言模型、檢索增強系統、多代理系統、自動文獻回顧、實驗編排工具,以及用來評估摘要與程式可靠性的框架;不過這個儲存庫本身較像導航地圖,重點在幫你快速定位值得追看的論文與主題。

GitHub: https://github.com/worldbench/awesome-ai-auto-research

Paper: https://arxiv.org/pdf/2605.18661

Categories: 框架

Lance:一個模型包辦圖像與影片

Lance logo

Lance 是 ByteDance 推出的 3B 級多模態模型,重點不只是「識圖」,而是把圖片與影片的理解、生成、編輯放在同一套框架內處理。對一般讀者來說,最易明白的價值是:同一個專案可應付多種視覺工作,不用為每個任務分開找不同模型。

Lance 可處理的任務包括文字生成圖片、文字生成影片、圖片編輯、影片編輯,以及由圖片或影片輸出文字說明。環境方面需要 Python 3.10+、CUDA 12.4+,推理亦要至少 40GB VRAM 的 GPU,較適合有工作站或伺服器資源的團隊先做測試,再按任務修改預設參數與樣本配置。

它較有意思的地方,在於用 3B active parameters 去覆蓋多種視覺任務,並強調由零開始訓練,加上分階段的多任務訓練方法。這代表它的設計方向不是只追單一指標,而是希望不同任務之間互相帶動,令圖片與影片能力更集中在同一模型內。

  • 支援的任務範圍廣:t2i、t2v、image edit、video edit、x2t image、x2t video
  • 模型規模屬 3B,但官方稱在多項圖片與影片基準上表現不俗
  • 重點是統一框架,減少多模型切換的複雜度
  • 推理硬件門檻不低,較適合研究、內容工具開發及企業試驗

合適視覺 AI 研究、內容製作流程整合、需要同時處理圖像與短片的原型系統。相關模型方向可留意文字轉圖片、文字轉影片、影像編輯、影片編輯,以及視覺轉文字這幾類;Lance 的特點正是把這些能力盡量收攏到同一個模型體系之中。

GitHub: https://github.com/bytedance/Lance

Paper: https://arxiv.org/pdf/2605.18678

Categories: 開源, 字節跳動, 影像模型, 影像處理

LongLive:長片段影片生成再快一步

LongLive2.0 logo

LongLive 係 NVIDIA NVLabs 針對長影片生成提出的基礎設施,核心目標唔係單純「整到片」,而係令模型喺處理長時間、多鏡頭內容時,冇咁易被記憶體同速度拖慢。由 1.0 強調即時互動式生成,到 2.0 加入 NVFP4 平行化設計,重點已經擴展到訓練、蒸餾同推理全流程。

實際使用時,較自然嘅路線係先睇示範頁同文件,了解佢點樣接收連續提示詞,再按需要選擇 BF16 或 NVFP4 模型版本。現有公開模型包括 LongLive-2.0-5BLongLive-2.0-5B-NVFP4-S4,而較早期分支亦有 LongLive-1.3B,方便分別比較畫質、速度同硬件需求。

呢個專案最值得留意嘅地方,在於佢唔只優化生成結果,仲直接處理長影片常見樽頸,例如 KV cache 佔用、跨卡通訊、以及多鏡頭自回歸生成時嘅效率問題。資料顯示,2.0 版本支援多鏡頭或單鏡頭訓練、序列平行推理、非同步解碼,同時可用較低精度格式減少記憶體開銷;論文亦提到訓練與推理速度都有明顯提升,但實際表現仍要視乎 GPU 架構而定。

  • 支援長影片、多鏡頭連續生成,方向比一般短片生成更明確
  • 提供 BF16NVFP4 版本,方便按硬件取捨
  • 針對訓練與推理一齊優化,唔係只顧其中一端
  • 包含序列平行、KV cache 量化、非同步解碼等工程設計
  • 適合研究人員、影片生成開發者,同埋需要評估部署效率嘅團隊

整體來講,LongLive 比較似一個面向進階影片生成工作流嘅「引擎室升級」,特別適合關注長片段敘事、互動式生成,或者想研究多鏡頭影片模型點樣落地嘅人。對一般讀者而言,最容易理解嘅價值就係:佢嘗試用更慳資源、更快嘅方式,令 AI 生成長影片唔再只停留喺概念展示。

GitHub: https://github.com/NVlabs/LongLive

Paper: https://arxiv.org/pdf/2605.18739

Categories: 開源, NVIDIA, 影像模型

SkillsVote:幫 AI 代理揀啱技能

pipeline

近年愈來愈多 AI 代理會靠「技能」完成寫程式、研究整理或流程自動化,但技能數量一多,就唔再係人手揀幾個清單咁簡單。SkillsVote 針對嘅,正正係大型技能庫管理:先由公開 GitHub 收集到超過 168 萬份 SKILL.md,當中約 79 萬份通過格式驗證,再進一步處理點樣推薦、判斷成效同持續整理。

實際使用上,呢個專案比較似一套治理層,而唔只係單一模型或插件。公開版本已經提供技能分析與前處理、實驗重現腳本,以及兩條整合路線:一條連接託管服務做雲端推薦,另一條係本地版 skills-vote-local,支援私有環境用代理式搜尋或向量搜尋去搵合適技能。

它較特別之處,在於唔係單靠關鍵字配對,而係把技能當成可持續管理嘅資產。簡單講,系統會先分析技能需要咩執行環境、依賴項同質素,再喺任務開始前做即時推薦;完成後再根據執行軌跡、使用情況同驗證訊號,較審慎咁判斷某項技能有冇真正幫到手。

  • 已整理大規模技能庫,適合唔想由零開始收集技能嘅團隊
  • 提供雲端版同本地版整合,方便公開或私有部署場景
  • 重點唔止推薦,仲包括品質分析與後續更新治理
  • 較適合 coding agent、research agent、workflow agent 相關應用
  • 文中涉及的模型與評測包括 GPT-5.2GPT-5.4 miniTerminal-Bench 2.0SWE-Bench Pro

對開發團隊而言,較自然嘅做法係先用本地或託管整合,把現有技能庫接入,再觀察系統推介結果同任務軌跡。現有資料亦顯示,它把重點放喺「唔更新模型本身,都可透過外部技能庫改善代理表現」;至於本地歸因與技能演化功能,儲存庫顯示仍在補完中,所以部署前可先視作一個已具雛形、但仍持續擴展嘅技能治理方案。

GitHub: https://github.com/MemTensor/skills-vote

Paper: https://arxiv.org/pdf/2605.18401

Categories: Agentic, 影像處理, Skill 技能

Page 1 of 80
1 2 3 80