InterleaveThinker 多步生成變得可控

logo

InterleaveThinker 是一個多代理生成流程工具,目標是替現有圖像生成器加入 interleaved generation 能力,即按步輸出文字與圖片交錯的內容。它想處理的,不是單張圖夠不夠精美,而是多個步驟之間是否連貫、是否跟指令一致。

這個項目的核心做法,是把工作拆成 planner agent 與 critic agent。前者先安排圖文序列和每一步任務,後者再檢查生成結果、有偏差就修正指令再生成,做法比單次提示更像一個會反覆校對的流程。

如果你想試它,方向很明確:先接上它已支援的生成器,再用多步任務測試,例如故事場景連續變化、視覺教學、摺衫步驟、角色互動或 embodied manipulation。儲存庫已列出多個可配合的模型端口,包括 Qwen-Image、Qwen-Image Lightning、FLUX.1-Krea-dev、Qwen-Image-Edit Lightning、FLUX.1-Kontext-dev Edit 與 FLUX.1-Fill-dev Fill。

公開資料顯示,它在 interleaved generation benchmark 的表現可與 Nano Banana 及 GPT-5 接近;在推理導向基準也有明顯提升,例如 WISE 由 0.47 升至 0.73,RISE 由 13.3 升至 28.9(4-step FLUX.2-klein)。這些數字反映它的價值主要在「多步一致性與修正能力」,不是單靠底層模型硬撐。

  • 重點不在訓練全新生成器,而是增強現有 image generator
  • 以 planner agent + critic agent 處理多步圖文任務
  • 適合 visual narratives、guidance、embodied manipulation、long-horizon sub-task annotation
  • 已公開相關模型:InterleaveThinker-Planner-8B、Critic-SFT-8B、InterleaveThinker-Critic-8B
  • 另有訓練資料集:Interleave-Planner-SFT-80k、Interleave-Critic-SFT-112k、Interleave-Critic-RL-13k

對研究圖文代理、工作流編排,或者想把現有出圖模型拉進多步任務的人,這個項目很有參考價值。若你只想單次生成一張圖,它未必是最直接的選擇;但若你要的是連續幾步都講得通、畫面不走樣,InterleaveThinker 的定位相當清楚。

GitHub: https://github.com/zhengdian1/InterleaveThinker

項目:https://zhengdian1.github.io/InterleaveThinker-proj/

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

WeaveBench:測試 CUA 真本事的基準

Click to watch: an agent managing a RabbitMQ dead-letter-queue topology end-to-end

WeaveBench 是一個 benchmark 基準項目,聚焦測試 Computer-use agents(CUAs)在真實桌面環境中,能否把 GUI 點擊、shell 指令與程式碼編修串成同一條工作流程。它處理的不是單一步驟準確率,而是長流程、多介面協作這類更接近日常工作的問題。

這個項目的判分方式比常見的「有沒有生成某個檔案」嚴格得多。它使用 trajectory-aware Agent-as-Judge,會閱讀 chat trace、交付物,並按條款提供證據;論文亦指出,只看最終結果會高估代理表現,這點對研究 CUAs 的人很有參考價值。

如果想先了解它怎樣運作,可以先看離線 demo,直接觀察 score.json、judge model 回應和逐項證據,再決定是否下載完整資料集與 qcow2 執行環境。完整流程需要 Linux、KVM、Docker 及相當多記憶體與磁碟空間,較適合研究團隊、模型評測人員,或正在建構代理系統的工程師。

  • 114 個長流程任務,涵蓋 8 個工作領域
  • 每個任務都要求 GUI 與 CLI/code 交替操作
  • 最佳公開結果為 41.2% PassRate,顯示難度仍然很高
  • 提供 OSWorld hybrid-scoring experiment,可對照不同評分與執行框架
  • 資料集、runtime 與 qcow2 已放在 🤗 wanlilll/WeaveBench

相關模型與組合方面,公開結果包括 Claude Opus 4.7 + Claude Code、Claude Opus 4.7 + OpenClaw、GPT-5.5 + Codex CLI、GPT-5.5 + OpenClaw、GPT-5.4 + OpenClaw,以及 Gemini 3.1 Pro + OpenClaw。若你關心代理是否真的懂得跨介面完成工作,而不是只會在單一測試集刷分,這個項目很有研究價值。

GitHub: https://github.com/weavebench/WeaveBench

項目: https://weavebench.github.io/

Categories: 開源, 微軟, 框架, 清華大學

MoVerse 把單張相變成可遊走 3D 世界

MoVerse

MoVerse 是一個偏研究型的方法項目,目標是把一張 narrow-field-of-view image 轉成可導航的 3D 世界,並輸出可互動影片。它想解決的問題,是單張相片通常只得一個視角,但很多生成系統一移動鏡頭就容易穿崩、閃爍,或者空間結構不連貫。

這個項目的核心做法分成三段:先由單張圖生成 360° ERP panorama,再建立 Panoramic 3D Gaussian Scaffold,最後用 Autoregressive Video Refinement 按指定鏡頭路徑補成寫實影片。把「世界建構」同「觀察畫面生成」分開,的確比直接由單張圖硬推整段漫遊影片更有條理,也較容易維持時間連續性。

如果你想了解它表現如何,現階段最合適是先看 Project Page 的示範影片、360 度瀏覽內容與 3D Gaussian scaffold 視覺化。原因很簡單:GitHub 頁面已說明程式碼與 pretrained models 仍在 corporate compliance and security review,中短期內較像一個可追蹤的研究項目,而不是即刻下載就能本地測試的工具。

從公開資料看,MoVerse 有幾個重點值得留意:
– 只需單張 NFOV image 作輸入
– 支援 user-controlled camera trajectories,自由漫遊場景
– 官方稱可在單張 RTX 4090 上做到 8 FPS
– 場景涵蓋室內、室外,以及較風格化畫面如 anime landscapes
– 相關方向可留意 PanoWorld 等世界模型研究

它較適合關注 Computer Vision、3D generation、video world modeling 的研究者與內容技術團隊參考,也適合想評估單圖建場景能力的人。若你要的是即裝即用生產工具,這個項目暫時未到那一步;但如果你在看新一代由 2D 走向可漫遊 3D 的生成路線,MoVerse 的方法、效能數字與分段式架構,都有相當高的參考價值。

GitHub: https://github.com/Orange-3DV-Team/MoVerse

項目: https://orange-3dv-team.github.io/MoVerse/

Categories: 開源, 世界模型

ARM:把生圖與修圖收進同一模型

Institute of Trustworthy Embodied AI logo

ARM 是一個 AutoRegressive Large Multimodal Model(ARM)類型的多模態模型,把圖像轉成離散 visual tokens,再以同一套 next-token prediction 處理理解、text-to-image 和指令式編輯,目標是把三種能力收進單一流程。

它的核心新意,是用 shared visual token space 連接看圖、生成與修圖,再以純 autoregressive multimodal modeling 處理交錯的文字與圖像 tokens。對一般讀者來說,可理解成「把圖片也變成語言模型可續寫的內容」。

• 7B 規模,重點在統一表示
• reinforcement learning(RL)結合 preference optimization
• WISE overall 由 0.50 升至 0.56
• GEdit-Bench-EN overall 由 5.75 升至 6.68

現階段較適合先讀論文和 benchmark。儲存庫節錄未見完整安裝、推理或權重說明,因此目前看來更像研究項目,不一定適合立即部署。

如果你關注 Large Multimodal Models(LMMs)、image editing,或想比較 unified autoregressive models,這個項目有參考價值。可對照的相關模型路線,包括 unified autoregressive models 與主流 image generation systems;論文亦提到它在 GenEval、DPG、WISE 具競爭力。

GitHub: https://github.com/wdrink/ARM

Paper: https://arxiv.org/pdf/2606.11188

Categories: 開源, 字節跳動, 影像處理, 模型, 框架

SCAIL-2 把動畫角色控制再推前一步

Teaser

SCAIL-2 是一個用於 End-to-End Character Animation 的開源模型,重點是把驅動影片的視覺資訊直接送入模型,減少依賴 skeleton、mask 這類中介表示。它要處理的問題很明確:傳統角色動畫控制在複雜動作、多角色互動、跨角色替換時,容易因中介資訊過少或含糊而失真。

這項目在於把多種角色動畫子任務合併成同一套流程,並以 Unified Motion Transfer Interface、in-context mask conditioning 與 mode-specific RoPE 作統一控制。根據公開說明,模型還利用 MotionPair-60K 這類合成動作配對資料訓練,並支援 cross-identity replacement、multi-character animation,甚至 animal-driving 與 mesh-based control 這些 zero-shot 能力。

可調參數包括 denoising steps、flow-matching scheduler shift、classifier-free guidance scale、solver,以及是否啟用 offload model;這些設定會影響生成速度、顆粒感與顯示資源負擔,較適合已有 GPU 環境、想比較不同動畫控制效果的人。

  • 用模型來把驅動動作轉到指定角色身上
  • 不再把 skeleton map 當核心依據,目標是減少資訊流失
  • 已列出相關模型:SCAIL-Preview、Wan-Animate、MoCha、SAM3D-Body
  • 可處理多角色、角色替換、跨身份動畫等場景
  • 推論可調整 steps、guide scale、solver 等參數

如果你是做 AI 影片、虛擬角色內容、動畫研究,或者正留意角色動作遷移技術,SCAIL-2 有一定參考價值。至於效能表現,項目明確表示它在多項任務上優於既有 state-of-the-art approaches。

GitHub: https://github.com/zai-org/SCAIL-2

項目: https://teal024.github.io/SCAIL-2/

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Bernini:影片生成與編輯的新路線

Bernini

Bernini 是一個影片生成與編輯框架,核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來,處理一般影片擴散模型常見的內容漂移、指令跟從不穩定,以及長片段規劃鬆散等問題。從定位看,它不是單純再堆大模型,而是先做語意規劃,再交由生成器落實畫面。

這個項目的關鍵想法,在於「Latent Semantic Planning」:先在潛在空間安排語意,再做 video diffusion。對非研究背景讀者來說,可以理解為先寫分鏡草稿,再逐格畫面化,這比直接由文字一步到位生成影片,更有機會保持故事連貫和編輯意圖一致。

如果想試,較合理的切入點是影片編輯任務,例如風格轉換、字幕或水印移除、局部修改,再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階,建議準備 CUDA 12.4、Python 3.11.2,以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3;若有 H100、H800、H200 可配合 FlashAttention-3,其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊,評分來自其自建 arena,以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值,但暫時主要反映編輯場景;若你關心更複雜的人物生成,官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本,面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion
  • 核心組成是 MLLM-based semantic planner + DiT-based renderer
  • 已公開 Bernini-R 權重,包含 1.3B 版本
  • 適合研究影片生成、影片編輯流程,或想比較規劃式生成方法的人
  • 硬件門檻偏高,Multi-GPU sequence parallel 亦需要 Open-VeOmni
  • 相關模型可先留意 Bernini-R-1.3B-Diffusers,以及文中提到的 14B 變體

整體來看,Bernini 最有價值的地方不是「再一個影片模型」,而是把規劃與渲染拆開處理,令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目,它未必合適;但如果你重視研究方向、編輯質素與系統設計,這個項目相當值得細看。

GitHub: https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

Lip Forcing:把唇形同步推進即時串流

Hero image preview

Lip Forcing 是一個針對 video-to-video(V2V)lip synchronization 的研究項目,重點是把 diffusion 模型原本昂貴的推理流程,大幅壓縮到適合即時串流使用。它希望在保留人物身份、頭部姿勢與背景一致性的同時,令口型更準確貼合目標音訊。

現有 diffusion-based 唇形同步方法畫質和聲畫對齊表現不錯,但通常要看完整段影片、再經過很多次 denoising steps,速度和延遲都難以配合直播翻譯、virtual avatars、interactive agents 這類場景。Lip Forcing 改用 autoregressive diffusion,把影片分段逐塊生成,並把 50-step teacher 壓縮成 two-step streaming student,減少計算負擔。

對 lip-sync 任務,本身不是單純套用通用加速技巧。作者指出 CFG 會在 reference fidelity 與 synchronization 之間出現取捨,並據此設計出 Sync-Window DMD、two-step inference schedule,以及以 SyncNet 為基礎的 reward,目標是在少步數下仍維持可用的唇形同步效果。

兩個 student 模型都由 14B teacher 蒸餾而來。1.3B student 可達 31 FPS,速度比同規模 bidirectional model 快 17.6 倍;14B student 則比 teacher 快 39.8 倍,並維持相近的 reference fidelity。兩個版本的 time-to-first-frame 都低於 1 毫秒,顯示它特別適合低延遲串流情境。

  • 支援即時串流,最高可達 31 FPS
  • 每個 chunk 只需 two denoising steps,毋須 inference-time CFG
  • 採用 autoregressive diffusion,降低全序列注意力帶來的成本
  • 針對 lip synchronization 設計蒸餾方法,不是一般加速改裝
  • 適合 live translation、virtual avatars、interactive agents 等場景

如果你關注的是即時嘴型同步、低延遲影片生成,或想了解 few-step autoregressive diffusion 如何落地到影音任務,這個項目相當有參考價值。文中可確認引用與比較的技術脈絡包括 Computer-use agents、CUAs、LoRA、OSWorld 以外的影音生成方向;就本頁內容可明確列出的模型,主要是 14B audio-conditioned bidirectional video diffusion teacher、1.3B student、14B student,以及 SyncNet。

Paper: https://arxiv.org/pdf/2606.11180

Categories: 開源, 模型, 語音

Data2Story:把數據變成可查證故事

Data2Story turns a dataset into a reproducible multimodal story

Data2Story 是一個 agent skill 類型的項目,核心目標是把原始資料整理成可查證的多模態故事,處理的不只是「寫得像文章」,而是連圖片、敘事與證據對應都放進同一流程。從儲存庫描述看,它較接近給 AI 代理協作的工作流,而不是單一模型。

它的用法算是明確:先準備資料集,再叫 Claude Code、Codex 或其他代理依照 skills/SKILL.md 執行整個 Data2Story pipeline。完成後會產出 index.html 文章頁,以及 viewer.html 證據檢視頁,適合先用官方網站展示的案例感受效果,再決定是否放進自己的資料敘事流程。

這個項目較有新意的地方,在於它把 detective、analyst、editor、designer、programmer、auditor、inspector 這些角色拆開處理,像一個小型編輯部協作。另一個關鍵是「verifiable」不是口號,viewer.html 強調每句內容可追溯來源,對新聞、研究整理或企業報告這類重視可信度的場景更有價值。

  • 支援 Claude Code、Codex 及其他 coding agent
  • 可把資料轉成多模態故事,而非只輸出文字
  • 會產生獨立版本項目資料夾,方便保留不同結果
  • 提供 evidence viewer,讓句子對應資料來源

如果你是資料記者、研究人員、內容團隊,或者想把表格與資料故事化,這個項目有不錯的參考價值。至於效能與量化評測,儲存庫首頁未見具體指標;現階段較適合先看網站範例與論文,再判斷它在你的資料規模、敘事要求與媒體生成品質上是否合用。相關模型與服務層面,項目明確提到可配合 Claude Code、Codex、Cursor、Gemini CLI,媒體生成預設經 OpenRouter 處理。

GitHub: https://github.com/QinghongLin/data2story-skill

Paper: https://arxiv.org/pdf/2606.11176

Categories: 開源, Agentic, AI productions, 框架

Agents’ Last Exam 評測框架:當 AI 代理考專業試

logo

這個開源項目是一套AI 代理人評測基準,專門用來量度 Computer-use agents(CUAs)在長時間、跨步驟的真實工作流程中表現如何。它的設計目標是讓業界能用同一把尺,去比較 Claude Code、Codex、Openclaw 等不同代理人在真實場景下的能力差距,而不再停留在簡單的問答測試。

ALE 與坊間常見的排行榜最大分別,在於它把任務對齊到美國 O*NET / SOC 2018 職業分類,涵蓋 55 個非實體行業,例如動畫、工程製造、建築設計與神經影像分析等。基準的題目並非由研究員憑空設計,而是由 300 多位業界專家收集並驗證,因此每一條任務都貼近真實工作場景,而且配有隱藏參考答案與確定性評分機制,杜絕模型「走旁門左道」蒙混過關。

在技術架構上,評測框架由三部分組成:代理執行環境(harness) 負責驅動底層基礎模型;虛擬沙箱(sandbox) 模擬真實作業系統環境;任務單元(task) 則以可執行方式描述一項專業工作。目前公開的 150 條任務屬於 1,500 題以上語料庫的子集,整個項目正在朝 5,000 題目標推進。評測時,框架會在雲端建立沙箱、讓代理人完成任務,再以確定性評分器評分,過程全自動化。

測試前需要先在 Google Cloud 完成一次性設定(約 10 分鐘,現有 $300 美元免費額度足以應付),之後即可在自家模型上執行 hello-world 任務以熟悉流程,進一步換成正式任務。這個項目適合 AI 代理人開發者、企業採購團隊、學術研究者,以及任何想用客觀分數比較不同 CUA 表現的人。

  • 代理評測基準:專為 Computer-use agents 設計的真實工作流程測試。
  • 行業覆蓋廣:對齊 O*NET / SOC 2018,涵蓋 55 個行業,公開 150 條任務。
  • 結果可驗證:採用隱藏參考答案與確定性評分器,公平且可重現。
  • 雲端沙箱環境:在 Google Cloud 內建立虛擬機重現真實作業流程。
  • 社群共創:由柏克萊 RDI 與 300 多位業界專家共同維護。

GitHub: https://github.com/rdi-berkeley/agents-last-exam

項目: https://agents-last-exam.org/

Categories: 開源, Agentic, 框架

Gemma 4 12B (QAT 量化感知訓練)

Gemma 4 12B 這波某程度上算是在回應那個「手機級模型和大模型之間,會補一個中階模型」的傳聞。不過真正讓人眼睛一亮的,還是 QAT (Quantization Aware Training,量化感知訓練)真的做上來了。再加上現在也支援 MTP,Gemma 4 這代在本地模型的能力和效能上,整體都往前推了不少。總算看到除了 Qwen 之外,其他實驗室開始打出像樣的競爭了;最近的 local AI,真的很像一直都是 Qwen 在 carry。

Google Just Found a Loophole in AI Hardware Limitations
Categories: 模型

Page 1 of 92
1 2 3 92