ARM:把生圖與修圖收進同一模型

Institute of Trustworthy Embodied AI logo

ARM 是一個 AutoRegressive Large Multimodal Model(ARM)類型的多模態模型,把圖像轉成離散 visual tokens,再以同一套 next-token prediction 處理理解、text-to-image 和指令式編輯,目標是把三種能力收進單一流程。

它的核心新意,是用 shared visual token space 連接看圖、生成與修圖,再以純 autoregressive multimodal modeling 處理交錯的文字與圖像 tokens。對一般讀者來說,可理解成「把圖片也變成語言模型可續寫的內容」。

• 7B 規模,重點在統一表示
• reinforcement learning(RL)結合 preference optimization
• WISE overall 由 0.50 升至 0.56
• GEdit-Bench-EN overall 由 5.75 升至 6.68

現階段較適合先讀論文和 benchmark。儲存庫節錄未見完整安裝、推理或權重說明,因此目前看來更像研究項目,不一定適合立即部署。

如果你關注 Large Multimodal Models(LMMs)、image editing,或想比較 unified autoregressive models,這個項目有參考價值。可對照的相關模型路線,包括 unified autoregressive models 與主流 image generation systems;論文亦提到它在 GenEval、DPG、WISE 具競爭力。

GitHub: https://github.com/wdrink/ARM

Paper: https://arxiv.org/pdf/2606.11188

Categories: 開源, 字節跳動, 影像處理, 模型, 框架

SCAIL-2 把動畫角色控制再推前一步

Teaser

SCAIL-2 是一個用於 End-to-End Character Animation 的開源模型,重點是把驅動影片的視覺資訊直接送入模型,減少依賴 skeleton、mask 這類中介表示。它要處理的問題很明確:傳統角色動畫控制在複雜動作、多角色互動、跨角色替換時,容易因中介資訊過少或含糊而失真。

這項目在於把多種角色動畫子任務合併成同一套流程,並以 Unified Motion Transfer Interface、in-context mask conditioning 與 mode-specific RoPE 作統一控制。根據公開說明,模型還利用 MotionPair-60K 這類合成動作配對資料訓練,並支援 cross-identity replacement、multi-character animation,甚至 animal-driving 與 mesh-based control 這些 zero-shot 能力。

可調參數包括 denoising steps、flow-matching scheduler shift、classifier-free guidance scale、solver,以及是否啟用 offload model;這些設定會影響生成速度、顆粒感與顯示資源負擔,較適合已有 GPU 環境、想比較不同動畫控制效果的人。

  • 用模型來把驅動動作轉到指定角色身上
  • 不再把 skeleton map 當核心依據,目標是減少資訊流失
  • 已列出相關模型:SCAIL-Preview、Wan-Animate、MoCha、SAM3D-Body
  • 可處理多角色、角色替換、跨身份動畫等場景
  • 推論可調整 steps、guide scale、solver 等參數

如果你是做 AI 影片、虛擬角色內容、動畫研究,或者正留意角色動作遷移技術,SCAIL-2 有一定參考價值。至於效能表現,項目明確表示它在多項任務上優於既有 state-of-the-art approaches。

GitHub: https://github.com/zai-org/SCAIL-2

項目: https://teal024.github.io/SCAIL-2/

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Bernini:影片生成與編輯的新路線

Bernini

Bernini 是一個影片生成與編輯框架,核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來,處理一般影片擴散模型常見的內容漂移、指令跟從不穩定,以及長片段規劃鬆散等問題。從定位看,它不是單純再堆大模型,而是先做語意規劃,再交由生成器落實畫面。

這個項目的關鍵想法,在於「Latent Semantic Planning」:先在潛在空間安排語意,再做 video diffusion。對非研究背景讀者來說,可以理解為先寫分鏡草稿,再逐格畫面化,這比直接由文字一步到位生成影片,更有機會保持故事連貫和編輯意圖一致。

如果想試,較合理的切入點是影片編輯任務,例如風格轉換、字幕或水印移除、局部修改,再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階,建議準備 CUDA 12.4、Python 3.11.2,以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3;若有 H100、H800、H200 可配合 FlashAttention-3,其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊,評分來自其自建 arena,以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值,但暫時主要反映編輯場景;若你關心更複雜的人物生成,官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本,面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion
  • 核心組成是 MLLM-based semantic planner + DiT-based renderer
  • 已公開 Bernini-R 權重,包含 1.3B 版本
  • 適合研究影片生成、影片編輯流程,或想比較規劃式生成方法的人
  • 硬件門檻偏高,Multi-GPU sequence parallel 亦需要 Open-VeOmni
  • 相關模型可先留意 Bernini-R-1.3B-Diffusers,以及文中提到的 14B 變體

整體來看,Bernini 最有價值的地方不是「再一個影片模型」,而是把規劃與渲染拆開處理,令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目,它未必合適;但如果你重視研究方向、編輯質素與系統設計,這個項目相當值得細看。

GitHub: https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

Lip Forcing:把唇形同步推進即時串流

Hero image preview

Lip Forcing 是一個針對 video-to-video(V2V)lip synchronization 的研究項目,重點是把 diffusion 模型原本昂貴的推理流程,大幅壓縮到適合即時串流使用。它希望在保留人物身份、頭部姿勢與背景一致性的同時,令口型更準確貼合目標音訊。

現有 diffusion-based 唇形同步方法畫質和聲畫對齊表現不錯,但通常要看完整段影片、再經過很多次 denoising steps,速度和延遲都難以配合直播翻譯、virtual avatars、interactive agents 這類場景。Lip Forcing 改用 autoregressive diffusion,把影片分段逐塊生成,並把 50-step teacher 壓縮成 two-step streaming student,減少計算負擔。

對 lip-sync 任務,本身不是單純套用通用加速技巧。作者指出 CFG 會在 reference fidelity 與 synchronization 之間出現取捨,並據此設計出 Sync-Window DMD、two-step inference schedule,以及以 SyncNet 為基礎的 reward,目標是在少步數下仍維持可用的唇形同步效果。

兩個 student 模型都由 14B teacher 蒸餾而來。1.3B student 可達 31 FPS,速度比同規模 bidirectional model 快 17.6 倍;14B student 則比 teacher 快 39.8 倍,並維持相近的 reference fidelity。兩個版本的 time-to-first-frame 都低於 1 毫秒,顯示它特別適合低延遲串流情境。

  • 支援即時串流,最高可達 31 FPS
  • 每個 chunk 只需 two denoising steps,毋須 inference-time CFG
  • 採用 autoregressive diffusion,降低全序列注意力帶來的成本
  • 針對 lip synchronization 設計蒸餾方法,不是一般加速改裝
  • 適合 live translation、virtual avatars、interactive agents 等場景

如果你關注的是即時嘴型同步、低延遲影片生成,或想了解 few-step autoregressive diffusion 如何落地到影音任務,這個項目相當有參考價值。文中可確認引用與比較的技術脈絡包括 Computer-use agents、CUAs、LoRA、OSWorld 以外的影音生成方向;就本頁內容可明確列出的模型,主要是 14B audio-conditioned bidirectional video diffusion teacher、1.3B student、14B student,以及 SyncNet。

Paper: https://arxiv.org/pdf/2606.11180

Categories: 開源, 模型, 語音

Data2Story:把數據變成可查證故事

Data2Story turns a dataset into a reproducible multimodal story

Data2Story 是一個 agent skill 類型的項目,核心目標是把原始資料整理成可查證的多模態故事,處理的不只是「寫得像文章」,而是連圖片、敘事與證據對應都放進同一流程。從儲存庫描述看,它較接近給 AI 代理協作的工作流,而不是單一模型。

它的用法算是明確:先準備資料集,再叫 Claude Code、Codex 或其他代理依照 skills/SKILL.md 執行整個 Data2Story pipeline。完成後會產出 index.html 文章頁,以及 viewer.html 證據檢視頁,適合先用官方網站展示的案例感受效果,再決定是否放進自己的資料敘事流程。

這個項目較有新意的地方,在於它把 detective、analyst、editor、designer、programmer、auditor、inspector 這些角色拆開處理,像一個小型編輯部協作。另一個關鍵是「verifiable」不是口號,viewer.html 強調每句內容可追溯來源,對新聞、研究整理或企業報告這類重視可信度的場景更有價值。

  • 支援 Claude Code、Codex 及其他 coding agent
  • 可把資料轉成多模態故事,而非只輸出文字
  • 會產生獨立版本項目資料夾,方便保留不同結果
  • 提供 evidence viewer,讓句子對應資料來源

如果你是資料記者、研究人員、內容團隊,或者想把表格與資料故事化,這個項目有不錯的參考價值。至於效能與量化評測,儲存庫首頁未見具體指標;現階段較適合先看網站範例與論文,再判斷它在你的資料規模、敘事要求與媒體生成品質上是否合用。相關模型與服務層面,項目明確提到可配合 Claude Code、Codex、Cursor、Gemini CLI,媒體生成預設經 OpenRouter 處理。

GitHub: https://github.com/QinghongLin/data2story-skill

Paper: https://arxiv.org/pdf/2606.11176

Categories: 開源, Agentic, AI productions, 框架

Agents’ Last Exam 評測框架:當 AI 代理考專業試

logo

這個開源項目是一套AI 代理人評測基準,專門用來量度 Computer-use agents(CUAs)在長時間、跨步驟的真實工作流程中表現如何。它的設計目標是讓業界能用同一把尺,去比較 Claude Code、Codex、Openclaw 等不同代理人在真實場景下的能力差距,而不再停留在簡單的問答測試。

ALE 與坊間常見的排行榜最大分別,在於它把任務對齊到美國 O*NET / SOC 2018 職業分類,涵蓋 55 個非實體行業,例如動畫、工程製造、建築設計與神經影像分析等。基準的題目並非由研究員憑空設計,而是由 300 多位業界專家收集並驗證,因此每一條任務都貼近真實工作場景,而且配有隱藏參考答案與確定性評分機制,杜絕模型「走旁門左道」蒙混過關。

在技術架構上,評測框架由三部分組成:代理執行環境(harness) 負責驅動底層基礎模型;虛擬沙箱(sandbox) 模擬真實作業系統環境;任務單元(task) 則以可執行方式描述一項專業工作。目前公開的 150 條任務屬於 1,500 題以上語料庫的子集,整個項目正在朝 5,000 題目標推進。評測時,框架會在雲端建立沙箱、讓代理人完成任務,再以確定性評分器評分,過程全自動化。

測試前需要先在 Google Cloud 完成一次性設定(約 10 分鐘,現有 $300 美元免費額度足以應付),之後即可在自家模型上執行 hello-world 任務以熟悉流程,進一步換成正式任務。這個項目適合 AI 代理人開發者、企業採購團隊、學術研究者,以及任何想用客觀分數比較不同 CUA 表現的人。

  • 代理評測基準:專為 Computer-use agents 設計的真實工作流程測試。
  • 行業覆蓋廣:對齊 O*NET / SOC 2018,涵蓋 55 個行業,公開 150 條任務。
  • 結果可驗證:採用隱藏參考答案與確定性評分器,公平且可重現。
  • 雲端沙箱環境:在 Google Cloud 內建立虛擬機重現真實作業流程。
  • 社群共創:由柏克萊 RDI 與 300 多位業界專家共同維護。

GitHub: https://github.com/rdi-berkeley/agents-last-exam

項目: https://agents-last-exam.org/

Categories: 開源, Agentic, 框架

Gemma 4 12B (QAT 量化感知訓練)

Gemma 4 12B 這波某程度上算是在回應那個「手機級模型和大模型之間,會補一個中階模型」的傳聞。不過真正讓人眼睛一亮的,還是 QAT (Quantization Aware Training,量化感知訓練)真的做上來了。再加上現在也支援 MTP,Gemma 4 這代在本地模型的能力和效能上,整體都往前推了不少。總算看到除了 Qwen 之外,其他實驗室開始打出像樣的競爭了;最近的 local AI,真的很像一直都是 Qwen 在 carry。

Google Just Found a Loophole in AI Hardware Limitations
Categories: 模型

LWS:聽寫說三通道:語音模型也能即時寫出程式碼?

Listen-Write-Speak tri-channel legend

一般語音大型語言模型只能說出口頭回應,許多文字擅長的工作(例如編寫程式、條列分析、逐步推理)在即時對話中往往被犧牲。Listen-Write-Speak(LWS)正是針對這個瓶頸而設計,它讓單一自回歸大型語言模型同時處理三個通道:持續聆聽使用者音訊、即時生成可見的文字、並行輸出語音回應,三者共享同一個因果注意力脈絡。

這是模型、框架,還是什麼? LWS 是一個完整的語音模型項目,包含推理服務、Triplex/LWS runtime、前端展示以及測試,並非單純的網頁展示殼層。它建基於 OpenBMB 的 MiniCPM-o-4_5,再透過 Token Schema 機制在不改動模型架構的前提下,把文字輸出提升為第一公民的通道。

創新之處在於打破了「文字只是隱藏中間狀態」的慣例:寫入螢幕的內容不再只是語音的草稿,而是可被檢視、可被複製、可被審核的正式輸出。這對於需要邊說邊整理思緒的場景特別有幫助,例如教學、編程輔助、會議摘要。

性能與評估方面,項目在 VoiceBench AlpacaEval 達到 4.72 分,書寫與語音一致性為 92.6%,並在 Full-Duplex-Bench 與多語言 URO-Bench 都有穩定表現,顯示三通道並行並未犧牲即時反應。

適合的對象包括研究語音介面的開發者、需要可審核對話紀錄的團隊,以及對全雙工(full-duplex)互動有興趣的 AI 工程師。如想測試,可透過 ModelScope 下載基座模型 OpenBMB/MiniCPM-o-4_5 與 LWS 資產後運行推理服務與前端展示。

重點摘要

  • 三通道並行:聆聽、可見書寫、語音輸出共享一個因果注意力脈絡
  • 文字優先:寫入內容是第一公民輸出,不再是隱藏草稿
  • 無需改架構:透過 Token Schema 在標準自回歸 LLM 上實現
  • 完整開源 runtime:包含推理服務、runtime 與前端,非單純展示
  • 多項基準驗證:在 Full-Duplex-Bench、VoiceBench、URO-Bench 均有報告數據

GitHub: https://github.com/zly-idleness/lws_demo

項目: https://royalzhang.com/project/lws-page/

Categories: 開源, 編程, 語音

OmniCap-IF:讓影片描述模型聽懂你的格式要求

OmniCap-IF evaluation framework

現時不少多模態模型可以為影片自動生成字幕或描述,但當用戶要求「用 Markdown 表格整理時間點」或「特別提及背景音樂」等具體指示時,模型往往只輸出一般化文字。OmniCap-IF 正正針對這個落差,研究模型能否在理解畫面與聲音之餘,亦嚴格跟隨用戶指定的結構、風格、時間、視覺、音訊與音視覺等多重限制。

這個項目由南京大學 NJU-LINK 團隊與快手 Kling 團隊合作推出,包含三部分:用作評估的 OmniCap-IF Benchmark、用作訓練的 OmniCap-IF-54K 數據集,以及以此微調出來的 OmniCaptioner-IF 模型系列。基準涵蓋 480 段影片共 1,920 條樣本,橫跨 50 種約束類型,平均片長約 54.6 秒,並以清單式評分機制同時檢查格式與內容。

對研發人員而言,最直接的做法是透過 Hugging Face 下載預訓練模型(提供 3B 與 7B 兩個版本),再以 Python 載入影片並輸入帶有格式要求的指令。模型會根據指令產生相應的影片描述,研究者便可與基準結果比較,判斷自家系統在指令遵從度上的強弱。

這個項目的創新之處在於雙軌評分機制:一方面驗證輸出是否符合結構規定(例如段落、表格、時間戳),另一方面把內容拆成視覺、音訊與音視覺三個維度逐一核對,並加入時間定位。這種「分項打分」比單純的整體相似度更能診斷模型失誤的位置。配套的 54K 訓練集亦採用了「內容與格式分離生成」的策略,令模型在複雜格式下仍能保持內容準確。

適合從事影片理解、字幕生成、內容審核或需要可控 AI 輸出的團隊。

重點摘要:

  • OmniCap-IF Benchmark:1,920 條樣本、50 種約束的影片描述指令遵從評估基準。
  • OmniCap-IF-54K:54,000 條影片—指令—回應三元組的訓練數據集。
  • OmniCaptioner-IF:3B 與 7B 兩款模型,可從 Hugging Face 直接下載。
  • 雙軌評分機制:分開檢查結構格式與視覺/音訊/音視覺內容。
  • 時間定位能力:把時間戳準確度納入評分,支援需要時序分析的應用。

GitHub: https://github.com/NJU-LINK/omnicap-if

項目: https://nju-link.github.io/OmniCap-IF/

Categories: 開源, 視覺模型, 框架

AHA-WAM:讓機械人決策一致的世界動作模型

PDF

機械人學習操作技能時,往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上,導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM(Asynchronous Horizon-Adaptive World-Action Modeling)項目,就是要把兩者拆開來處理。

核心架構:雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer(DiT)分支:低頻的 video DiT 負責長程的視覺世界規劃,並利用滾動式 K/V 記憶體儲存可重用的上下文;高頻的 action DiT 則接收本體感覺訊號,向 video DiT 查詢所需上下文後,即時產生短時閉環動作區塊。兩者各司其職,避免互相拖累。

兩項關鍵訓練與推論機制

  • Horizon-Adaptive Offset Training(水平自適應偏移訓練):讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
  • Observation-Guided Video-Context Routing(觀察引導的視覺上下文路由):根據最新觀察調整快取的規劃上下文,無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中,AHA-WAM 達到 92.80% 平均成功率,且無需任何機械人數據預訓練;在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面,閉環頻率達 24.17Hz;經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz,相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略,以及追求高頻閉環控制的開發團隊;其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目: https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 上海人工智慧實驗室, 百度

Page 1 of 91
1 2 3 91