視頻模型 – Page 4

Wan Streamer：即時生成影音互動模型

2026 年 6 月 26 日

Wan Streamer v0.1 是一款由阿里巴巴（通義萬相/Wan 團隊）開發的原生流式端到端基礎模型，專為即時、低延遲、全雙工的音視頻互動而設計。它把語言、音訊、影像同時作為輸入與輸出，全部整合在單一 Transformer 之中，並以 block-causal attention 協調增量式生成。

現有即時互動系統普遍存在的延遲與不同步難題。純語音方案雖然回應快，但沒有可見的影像輸出；音視頻方案則多由 ASR、語言模型、TTS、動畫模組拼接而成，每個邊界都會疊加延遲，而且很少有系統公開端到端時延數字。Wan Streamer 把整個流程重新設計為可流式架構，包括因果編解碼器、block-causal attention、低延遲多模態 token 排程，在 25 fps 下最短流式單元可達 160 毫秒。

與常見做法的最大差異在於「端到端」與「同步影音輸出」。模型側延遲約 200 毫秒，加入 350 毫秒雙向網絡延遲後，總互動延遲約 550 毫秒，可支援亞秒級全雙工通訊。同時輸出語音與影片內容，而非分別由不同模組拼接，這是它最值得留意的特點。模型覆蓋聽、看、思考、說話、生成影像回應五種能力，適用於需要即時數字人、互動助理、虛擬陪伴等低延遲場景。

重點摘要：

由阿里 Wan/通義萬相團隊研發，定位為即時互動基礎模型
單一 Transformer 同時處理語音、影像、文字輸入與輸出
模型側延遲約 200 毫秒，總互動延遲約 550 毫秒
支援 25 fps 串流，最短流式單元 160 毫秒
與拼接式方案相比，延遲更低且影音輸出真正同步

項目主頁： https://wan-streamer.com/

Categories: 阿里巴巴, Agentic, 多模態模型, 模型, 數字人, 視頻模型, 語音

FLAT：單次生成可即時互動的 3D 場景

2026 年 6 月 26 日

Architecture overview of FLAT from latent video features to triangle-splat scene geometry

FLAT（Feedforward Latent Triangle Splatting）是一個由 Google Research、牛津大學 Visual Geometry Group 與慕尼黑工業大學共同開發的 3D 場景生成項目，主打從影片擴散模型的潛在表示中，單次前向解碼出幾何準確的三角形面片場景。

開發團隊方面，FLAT 由 Orest Kupyn、Goutam Bhat、Philipp Henzler、Fabian Manhardt、Christian Rupprecht 與 Federico Tombari 等研究員共同發表，核心作者來自 Google Research，並與牛津大學 Visual Geometry Group 及慕尼黑工業大學合作完成。

與常見做法相比，FLAT 跳過了「先生成再優化」的兩階段流程，直接從壓縮的影片擴散潛在特徵預測三角形面片，而非 3D 高斯體素。這項差異讓輸出結果在幾何精度上更貼近真實表面，同時保留視覺品質，並能直接用簡單的三角形渲染器顯示。

重點摘要：

直接三角形解碼：單次前向從影片擴散潛在特徵預測三角形面片，省去後續優化步驟。
幾何專屬訓練設計：採用以視線為中心的三角形參數化與 product window 渲染函數，穩定三角形回歸的梯度流。
輕量精修流程：經過簡單的測試階段精修，將三角形集合轉為完全不透明表示，適用於標準渲染與物理引擎。
跨裝置即時瀏覽：輸出場景可用簡單三角形渲染器即時探索，在觸控裝置上支援拖曳與 WASD 移動操作。
物理互動支援：精修後的資產可整合到遊戲引擎風格的物理交互流程中。

使用方法方面，FLAT 已在 HuggingFace 上發布模型權重，並提供網頁互動示範。讀者可透過 HuggingFace 頁面取得模型，或在官方項目網站（flat-splat.github.io）直接體驗瀏覽器內的互動 Demo，拖曳畫面或使用 WASD 鍵即可在場景中移動視角。

FLAT 適合需要快速生成可匯出 3D 資產的研究人員、開發者及遊戲或圖形相關工作者，尤其在需要幾何準確性與物理交互的場景中表現突出。

項目主頁： https://flat-splat.github.io/

Categories: 開源, Google, 3D, 模型, 視覺模型, 視頻模型

DataClaw0 想把雜亂多模態資料變成可訓練資產

2026 年 6 月 25 日

這是一個面向多模態資料整理的研究原型兼框架，核心是用 Agentic Data Tailoring 把原始串流資料重組成有結構、可驗證、可直接用於訓練的 supervision。它要解決的不是「再做一次標註」，而是長影片、GUI traces、embodied trajectories 與 editing sequences 太雜亂、資訊密度不均，令人和模型都難以有效吸收。

現有做法多數依賴 passive annotation paradigms，用 heuristic rules 或 general VLMs 被動加標籤；作者認為這類方式成本高、內容單調，亦抓不到原始資料入面的 procedural logic。DataClaw0 改用「Bottom-up Factual Anchors → Top-down Semantic Synthesis」兩段式流程，先抽取較確定的 factual anchors，再按意圖生成結構化語意，重點在於它不是只描述內容，而是按 downstream objective 重寫資料。

模型層面，項目提出 DataClaw-9B，並以 Supervised Fine-Tuning（SFT）加 rule-driven Group Relative Policy Optimization（GRPO）做對齊；部署上分成 unified Omni model 的 DataClaw-O，以及分領域 Experts 的 DataClaw-E。這種取向的取捨很明顯：Omni 較方便統一處理多域資料，Experts 則較可能在特定場景保留更細緻的領域表達。

現階段先看論文與案例再判斷是否值得追蹤，因為 code、model weights、dataset 和 DataClaw-val benchmark 仍未正式釋出。已公開資訊顯示，它的評測不只看生成是否通順，還會檢查 JSON validity，以及 schema-aware 的 Field、Semantic、Sequence 指標，並再用 video generation、real-world VQA、GUI navigation 的下游 post-training 效果驗證資料整理是否真的有用。

項目類型：研究原型／資料整理框架，重點是把原始多模態串流轉成意圖對齊的訓練資料
主要差異：不是被動標註，而是主動 refinement，並保留 schema-conformant、verifiable 輸出
相關模型：DataClaw-9B、DataClaw-O、DataClaw-E，訓練結合 SFT 與 rule-driven GRPO
適合情境：做多模態 post-training、GUI agents、VQA、影片或 embodied 資料整理的團隊

如果你關心的是建立資料引擎，而不只是找一個模型做推理，DataClaw0 比一般 VLM 標註流程更有方向性。限制也很直接：目前公開內容以論文與項目頁案例為主，能否重現效果、部署成本多高、不同領域泛化有多穩，仍要等正式釋出的資料與基準再作判斷。

GitHub： https://github.com/vancyland/DataClaw0

項目主頁： https://czjdsg.github.io/MakeAnyData/#cases

Paper： https://arxiv.org/pdf/2606.21337

Categories: 開源, Qwen, Gemini, Agentic, Video, 工具, IDE, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 框架, Dataset 數據集

PermaVid 令影片修改後仍然連貫

2026 年 6 月 22 日

很多影片生成方法處理編輯任務時，會把過往畫面當成單一記憶來源；一旦做了 style、season、weather 或 time 這類修改，舊記憶就可能變成過時參考，之後生成的鏡頭容易出現人物變樣、場景走位錯亂，或者視角切換後對不上。PermaVid 提出的方向，是把「外觀語意」同「幾何結構」分開保存，避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架，核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下，仍保持內容連貫。它使用 disentangled context memory：RGB context memory 負責記錄 semantic appearance，depth context memory 則保留 geometry-only structure，再配合 edit-aware memory update and retrieval，把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比，PermaVid 的取捨很清楚：系統更複雜，也要同時處理 RGB 與 depth 兩種脈絡，但換來的是編輯之後的長期一致性。從儲存庫資訊看，項目亦提供 dataset、paper 及 demo，並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型，顯示它不是輕量玩具，而是偏研究型、多模組組合的完整流程。

支援相機移動控制，例如 direction-frames-speed 這類格式
編輯類型涵蓋 style、season、weather、time 等全局變化
重點不只是生成單段片，而是修改之後仍維持後續片段一致
需要較完整環境配置，包含 PyTorch、CUDA 與額外訓練／推理依賴

如果你是做 instruction-based video editing、reference video generation，或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性，這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods，但公開資訊未列出完整量化分數；較穩妥的理解，是它的亮點在方法設計與 benchmark 表現方向，而不是即裝即用的消費級工具。

GitHub： https://github.com/YS-IMTech/PermaVid

項目主頁： https://ys-imtech.github.io/projects/PermaVid/

Paper： https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, 庫, 影像處理, 視覺模型, 視頻模型, 框架, Dataset 數據集

MolmoMotion 把語言變成 3D 動作預測

2026 年 6 月 21 日

現有做法多數偏向追蹤已經發生的移動，或者只在 2D 畫面估計下一步位置；作者認為這種 retrospective 範式難以支援機械人規劃與可控影片生成，所以提出 MolmoMotion、MolmoMotion-1M 同 PointMotionBench，把問題改成「根據語言指令預測 3D 點位未來軌跡」。這不是單純看影片理解內容，而是要模型根據短段 RGB 歷史、2D query points、初始 3D 位置，以及文字動作描述，預測之後約 2 秒的 3D movement。

MolmoMotion 本身屬於模型，更準確地說是 4B vision-language model，處理的是物件上指定點會怎樣移動的預測問題。儲存庫目前公開的是 autoregressive (AR) variant，並提供訓練資料、評測集、已釋出模型，以及由 pretrain 到 long-horizon finetune 的兩階段流程，較適合研究團隊直接重現結果或改成自家任務。

和同類方法相比，這個項目的取向很鮮明：它不是先做一般影片理解，再另外接 motion head，而是把 language-guided 3D point trajectory forecasting 當成核心任務。代價是輸入要求較多，你要有 query points 同初始 3D 資訊；回報則是輸出更貼近規劃用途，特別適合要預測「物件將會點樣郁」而不是只想分類場景的人。

可預測最長約 2 秒未來軌跡，文件提到 15 fps、F=30 或 F=32 的設定
評測指標列出 ADE、FDE、PWT，焦點放在軌跡準確度而非只看畫面相似度
配套包含 MolmoMotion-1M 訓練資料集與 PointMotionBench 評測基準
作者指出學到的 motion prior 可轉移到 robotics planning 與 motion-guided video generation

部署與測試的理解方式相當直接：先下載模型、資料集或 benchmark，再按儲存庫提供的 evaluation 與 training 流程執行；若不打算重訓，較合理是先拿已釋出模型跑 PointMotionBench 或自家樣本，看看語言指令改變時，3D 點位預測是否穩定。現有資訊未見完整效能數字摘錄，但官方明確聲稱表現明顯優於既有 forecasting 方法；較保守的判斷是，它最適合 embodied AI、robotics、可控影片生成研究者，以及需要把語言意圖轉成未來運動假設的團隊。

相關模型與資源包括：MolmoMotion、其 autoregressive (AR) variant、MolmoMotion-1M、PointMotionBench；底層 backbone 初始化與從零訓練入口亦有提供。

GitHub： https://github.com/allenai/molmo-motion

項目主頁： https://allenai.org/blog/molmo-motion

Categories: 開源, Video, 3D, AI productions, IDE, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 視頻模型, Robotic, Dataset 數據集

LooseControlVideo 用 3D 方框指揮 AI 影片動作

2026 年 6 月 21 日

LooseControlVideo（LCV）是一個針對影片生成與編輯的框架，核心做法是用稀疏、帶方向的 3D boxes 來安排物件移動、旋轉、遮擋關係，以及鏡頭運動。它想解決的，是多物件場景中「位置安排」與「時間變化」經常纏在一起，令文字轉影片很難精準控制。

常見控制方法多數依賴 dense depth maps、optical flow 或 3D point tracks，雖然細緻，但要逐格準備條件，製作成本高。LCV 改用人手較易繪製的 3D boxes，讓使用者先定出高層次 blocking，再交由生成模型補足自然的動態、互動與遮擋，控制感和自由度之間取得較好平衡。

技術上，項目以 Wan 2.2 backbone 為基礎微調，並配合 DNOCS 這種編碼方式，表示 3D 尺寸、方向及按深度排序的遮擋資訊。頁面亦提到它支援局部修訂，例如只調整跳躍軌跡，或加入新的互動，而不必大幅破壞整體場景。

重點可先看這幾項：
– 可控制軌跡、旋轉、遮擋、鏡頭運動與局部編輯
– 輸入形式是稀疏 oriented 3D boxes，較易手動建立
– 適合多物件場景與需要導演式安排動作的影片生成
– 在 nuScenes、HO-3D、BEHAVE 上，優於 2D-box 與 flow-based baselines
– 指標上約有 1.2 至 3 倍 Trajectory Error 改善、2 倍 Rigid Motion Consistency 改善，以及 1.5 至 2 倍 Occlusion Accuracy 提升

這類方法特別適合想精準安排角色走位、物件互動，或需要補拍式修改片段的人。現有資料主要展示項目頁與結果示例，若讀者想接觸這個項目，較可行的做法是先觀察它如何用少量 3D boxes 改動單一動作，再比較與傳統 layout-conditioned models 在遮擋與旋轉控制上的差別。

項目： https://shariqfarooq123.github.io/LooseControlVideo/

Categories: Video, 3D, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Holo-World 把天氣與鏡頭控制放進影片生成

2026 年 6 月 21 日

Repository image for XiangchenYin/Holo-World

Holo-World 是一個Video World Model項目，目標不是單純把靜態圖片變成短片，而是由單張首幀出發，按照指定的鏡頭路徑、物件動態與天氣指令生成影片，盡量保留原本場景結構。對一般讀者來說，可把它理解成「你先給一個世界起點，再要求系統改變拍攝方式與天氣，但不要連場景骨架都改走」。

它和常見影片編輯做法的分別，在於不少方法要先有來源影片，甚至依賴已經包含未來結構的重建場景；Holo-World 則強調 first-frame-anchored source-to-state 設定，只由一張圖開始。這種取向更靈活，但難度也高，因為模型要自己補出後續畫面，同時維持鏡頭控制、物件位置和天氣效果不互相打架。

這個項目核心包含 HoloStateData、Unified Scene Adapter 與 Scene-Weather Decomposed CFG。前者是為相機、物件、天氣建立統一監督樣本的資料集；後兩者則把「場景保持」與「天氣轉換」分開處理，目的是減少下雨、下雪、起霧時把整個場景細節一併沖散的情況。論文與項目頁提到，量化與視覺結果都顯示它在 weather-state generation 上優於 video-to-video weather editing baselines，但目前倉庫內容仍偏研究展示，未見完整安裝與推理流程，較適合先當作研究方向理解。

可由單張圖片出發，而非必須先提供完整來源影片
同時控制 camera、object、weather，比單一條件生成更完整
重點取捨在於維持場景結構一致，同時讓天氣效果夠明顯
較適合研究 world model、可控影片生成、合成場景模擬的團隊

如果你關心自動駕駛模擬、生成式影片控制，或想研究世界模型如何把幾種控制訊號整合，這個項目很有參考價值。相關模型與組件可留意 Holo-World 本身，以及資料集 HoloStateData；從現有資料判斷，它現階段更像研究型模型與方法展示，未必是即裝即用的生產工具。

GitHub： https://github.com/XiangchenYin/Holo-World

項目： https://xiangchenyin.github.io/Holo-World/

Categories: 開源, Video, Image, 工具, 庫, 模型, 視覺模型, 視頻模型, 世界模型, 中國

Memento：把長片段角色一致性補回來

2026 年 6 月 17 日

Memento 是一個影片生成框架，重點解決長篇、多鏡頭故事影片中角色外觀容易前後不一致的問題。傳統做法多半只顧下一段鏡頭看起來合理，Memento 則把「能否從記憶重建角色」當成身份是否被保留的檢查方式。

它的做法是把全局故事描述、每個 shot 的文字提示，連同歷史記憶一起送入生成流程，逐鏡頭自回歸地產生影片。使用時可準備對應格式的 JSON 故事腳本，再配合提供的權重與基礎模型做推理；項目也支援訓練與輸出完整影片。

GitHub： https://github.com/ernie-research/Memento

項目： https://ernie-research.github.io/Memento/

Categories: 開源, Agentic, Video, 庫, 模型, 模型訓練, 視頻模型, 框架, 百度

JoyAI-VL-Interaction 把影像助手變主動

2026 年 6 月 17 日

現時多數視覺語言模型仍然沿用 turn-based 問答範式：用戶問一句，模型答一句；就算放進視像通話或直播介面，底層仍是被動回應。JoyAI-VL-Interaction 直接挑戰這個做法，改成持續觀看、按秒判斷要沉默、回應，還是把難題交給背景模型處理，目標是把 VLM 從「被問先答」推向即時互動。

這是一個多模態模型加可部署系統項目，想解決的不是普通問答，而是「畫面中的關鍵一刻不會等人發問」這個問題。技術報告提到它是 8B vision-first 模型，支援 real-time video-language interaction，並配合 time-aligned interaction data、training recipe 與完整系統，重點放在時間感、主動觸發與持續在線。

如果你想理解它是否適合自己，最容易的測試場景是把 webcam、直播畫面或監控串流接入，觀察它會否在有事件時主動開口，而不是每次都等指令。這種模式較適合直播助理、居家提醒、遠端看護、商務示範，甚至要一邊看影像一邊調用 API 或 agent 的流程。

核心改動是由問答式互動，轉向 watch-and-do 式互動
模型每秒自行決定沉默、回應或 delegation
系統可接駁 ASR、TTS、memory、API 與其他 agent
報告稱可長時間處理連續影片，延遲維持在 sub-second
人工評分比較中，對 Doubao 與 Gemini 的質量與時機掌握都有明顯優勢

創新位不只在模型本身，也在整個開放堆疊一起釋出：模型、數據、訓練方法與部署系統放在同一個項目脈絡，方便研究者與開發者沿原路線延伸。相關模型與組件包括背景大模型、API、agent，以及文中對比的 Doubao、Gemini；若完整開源內容如期提供，這個項目會對即時多模態互動研究有相當高參考價值。

GitHub： https://github.com/jd-opensource/JoyAI-VL-Interaction

項目：https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/

Categories: 開源, 字節跳動, Gemini, OpenAI, 文字轉語音, Agentic, API, Video, Image, 工具, AI productions, IDE, 多模態模型, 模型, 模型訓練, 視頻模型, 語音

MiniMax Hub：本機優先的多模態創作工作站

2026 年 6 月 17 日

MiniMax Hub 是一個 Multimodal Creative Agent，定位像 AI 創作工作站，不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程，讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載，輸入簡報、文字想法，或直接加入本機素材後，主代理會先理解創作目標，再做 Smart task decomposition，之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型，亦會在關鍵節點收到確認，避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格，之後可重複套用；如果需要，也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說，這類流程重用能力相當實用。

本機優先設計，頁面明確指出 local files stay on your machine
單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
支援資產管理與 batch generation，可一次產出多個版本
代理會自動分解任務，並在關鍵步驟要求人工確認
可把工作流程沉澱成 Skills，逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作，而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果，因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單，只提到會自動匹配最合適模型。

項目： https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

Page 4 of 12

« Previous 1 2 3 4 5 6 … 12 Next »