視頻模型 – Page 3

NVIDIA 用單一影片模型兼顧連貫與速度

2026 年 7 月 8 日

做影片生成時，最常見的卡位係：Bidirectional diffusion 生成得穩，前後鏡頭更一致，但速度慢；Autoregressive 方式可以逐段輸出，較適合串流，不過長片段容易失去連貫。Flex-Forcing 針對的正正係呢個兩難，屬於影片模型方向，目標係用同一個 Video Diffusion Model 橫跨兩種生成模式。

它的做法不是把兩套系統硬拼在一起，而是用一個較靈活的 chunking 機制，同時沿時間軸同 denoising steps 去切分。咁樣模型可以在 chunk 之間做 bidirectional 的全局規劃，又能在 chunk 之內用 autoregressive 方式逐步生成，兼顧整體一致性同推理效率。網頁用一句話概括得很清楚：one model, two generation regimes。

對內容創作、長影片生成同需要邊生成邊輸出的工作流來說，呢種設計幾有吸引力。它不是單純追求最快，亦不是只追求最完整的全局建模，而係嘗試將「先看全局」同「逐段出片」放入同一套推理框架，減少以往要為不同場景分開選模型的麻煩。

統一 Bidirectional 與 Autoregressive 兩種影片生成路線
以 temporal axis 配合 denoising steps 的 chunking 作核心設計
chunk 之間強調全局規劃，chunk 之內保留串流生成能力
目標是改善長距離一致性、速度與 exposure bias 之間的取捨

現有資料顯示，Flex-Forcing 的核心價值在於統一訓練與推理框架，而不是只做單一生成模式的微調優化。公開內容暫時未完整列出具體評測細節，但方向已很明確：希望用一個模型覆蓋更多影片生成場景，特別適合重視長片段敘事連貫，同時又需要較靈活輸出節奏的項目。

項目主頁 · Paper

Categories: NVIDIA, Video, 模型訓練, 視頻模型, 框架

AlayaWorld 想做可玩式長時影片世界

2026 年 7 月 8 日

一段生成影片能否變成可探索空間，關鍵唔係畫面靚唔靚，而係鏡頭轉向、路徑改變、甚至中途加入新事件之後，個世界仲認唔認得自己。AlayaWorld屬於world model 研究項目，目標係處理長時間影片生成入面最麻煩的幾件事：互動控制、記憶一致性，同埋長序列愈滾愈走樣的問題。

而家不少影片生成做法偏向一次過出片，畫面可以吸引，但未必承受到持續探索；鏡頭一郁、提示一改，前後場景就容易斷裂。AlayaWorld明確反對呢種偏靜態範式，改用 interactive autoregressive world model 路線，把 3D cache、frame-history embedding，同 chunk-level prompt switching 組合起來，嘗試同時保住空間記憶、時間連續性，同中途插入事件的能力。

它最有辨識度的地方有幾個：一方面用 rendered 3D cache 配合輕量 AdaLN camera modulation，令 6-DoF 鏡頭控制更貼地；另一方面又用壓縮後的歷史影格表示，幫手維持 revisited places 的辨識度。為咗減少長時間 rollout 累積錯誤，團隊亦加入 drifted histories 訓練同 error bank，把已出現的瑕疵重新注入記憶與目標，避免失真一路放大。

支援 real-time camera control，同時可在片段邊界切換 prompt
以 3D cache 加 frame-history embedding 處理空間與時間記憶
透過 few-step DMD distillation 爭取即時生成效率
官方展示指向 720p、24 FPS、60s+ long-horizon、15B parameters
目前公開的是 technical report、示範頁與影片，code 與 weights 尚未釋出

現階段較適合把它理解成研究原型，而唔係可立即部署的開源工具。想測試的人，暫時只能先睇 demo 同 technical report，重點觀察鏡頭移動、風格切換、事件插入後的連貫度；等 inference code 同 pretrained weights 釋出後，先有條件判斷佢喺內容製作、互動敘事、遊戲原型或世界模型研究工作流入面，究竟可以走到幾實用。

項目主頁 · GitHub · Paper

Categories: 開源, 3D, 視頻模型, 世界模型, Dataset 數據集

MV-Forcing 讓長時多視角影片更一致

2026 年 7 月 8 日

想像同一個人物動作，要由三個鏡頭角度一路接住生成，畫面不但要連戲，視角之間的位置關係都要講得通。MV-Forcing 屬於多視角影片生成框架，處理的正是長時段 dynamic scenes 在不同 viewpoint 下容易失真、跳位、前後不一致的問題。

它的取向，不是只顧單一視角拉長影片，也不是只做短片式多視角同步，而是把 temporal autoregression 同 view-wise autoregression 放入同一個 diffusion model。中間再加上一個 4D geometric prior 作橋樑：先從已生成的 source view 重建 3D 結構，再渲染出下一個 target view 的幾何先驗，最後交由模型細化成高質影片。

另一個關鍵在訓練方式。MV-Forcing 用 joint denoising，令兩個 view slots 訓練時都可由雜訊起步，避免模型只依賴固定 teacher temporal window，從而支援更長的生成。它亦加入 Distribution Matching Distillation 與 Spatio-Temporal Self-Forcing，盡量縮窄訓練與推理之間的 exposure bias，讓時間與視角兩條自回歸鏈接得更穩。

能同時處理長影片與多視角一致性，而唔係二選一
以 3D reconstruction 連接相鄰視角，補上幾何關係
支援 arbitrary lengths 與 viewpoint counts，彈性較高
用單一 few-step student model 完成生成，推理路徑較集中

現有資料提到，它已在 synthetic 與 real-world data 做大量實驗，重點成果是能生成幾何一致的多視角動態影片。不過公開內容暫時較像研究展示，Code 仍標示 coming soon；對內容創作、視覺敘事、虛擬攝影機規劃有興趣的人，會較容易看出這個項目的價值。

項目主頁 · Paper

Categories: Video, 3D, 模型訓練, 視頻模型, 框架

InternVLA-A1.5：機械人策略一體化新路線

2026 年 7 月 8 日

機械人操作最麻煩的地方，往往不是單純辨認畫面，而是要同時理解指令、估計接下來會發生什麼，再穩定地做出連續動作。InternVLA-A1.5屬於開源框架兼機械人政策模型，焦點放在把 vision-language understanding、latent visual foresight 與 action generation 合併，減少多模組串接帶來的延遲與協調成本。

它的取向很清楚：不少做法會把感知、未來預測、控制分開訓練或分開部署，InternVLA-A1.5則把 foresight 放進同一條政策路徑，在訓練期間借助凍結的 WAN2.2-5B video generation model 提供未來動態監督，但推理時丟棄 video branch，只保留動作預測。這個設計的好處是保住「先想一步」的能力，同時避免部署到真實機械人時推理太重。

模型骨幹建基於 Qwen3.5-2B VLM，透過 shared full-attention layers 接上一個輕量 unified action expert，並保留 modality-specific Gated DeltaNet processing；動作輸出則用 flow matching 預測 continuous action chunks。README 亦提到它可用於部署、數據收集和評估真實機器人上訓練有素的操作策略，但公開資訊較集中在模型與 benchmark，具體安裝流程與真機部署步驟未見完整展開。

舊路線常把理解、預測、控制拆開，這個項目改為單一 policy 統一處理
訓練用 WAN2.2-5B 學未來動態，推理時移除相關分支，換取較實際延遲
已在 LeRobot V2.1 dataset 微調，亦結合大規模機械人與多模態資料
基準成績突出：RoboTwin 2.0 為 93.2，LIBERO 為 98.9，LIBERO-Plus 為 84.8
可取得的相關模型包括 InternVLA-A1.5-base、InternVLA-A1.5-RoboTwin、InternVLA-A1.5-Libero

從定位來看，它較適合想把研究原型推近真機驗證的團隊，尤其是同時重視語言理解、視覺泛化與操作成功率的人。現階段最值得留意的，不只是分數高，而是它示範了一種更接近完整機械人工作流的整合方式；限制則是公開說明仍偏研究導向，真正落地前仍需自行補足部署細節與硬件整合資訊。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Video, 多模態模型, 視覺模型, 視頻模型, Robotic, Dataset 數據集, 上海人工智慧實驗室, VLA

Google Flow Storyboard 教學

2026 年 7 月 7 日

Google Flow Storyboard: Full Video From Script (100% FREE)

Categories: Google, Video, 多模態模型, 影像處理, 教學, 視覺模型, 視頻模型

LiveEdit：串流影片編輯走向即時化

2026 年 7 月 5 日

LiveEdit 是一個 diffusion-based streaming video editing 系統，屬於影片編輯模型與方法項目。它的核心任務是根據來源影片加上文字指令，逐段完成 causal chunk-by-chunk editing，並盡量保留背景與沒有修改的區域。

這個項目不是追求離線影片慢慢算到最靚，而是針對接近即時的串流編輯。它建基於 Wan2.1 和 Self-Forcing codebase，並用 three-stage distillation，把雙向編輯 teacher 的能力轉移到串流 student，再配合 AR-oriented Mask Cache 減少重複運算，換來較低延遲。

部署與測試資訊算是完整，提供 inference scripts、training code、checkpoint instructions，也講明建議在 Linux 配合 NVIDIA GPUs 執行；單 GPU 可做 inference，多 GPU torchrun 主要用於訓練。輸入方式是準備一個 JSON，填入 source video 路徑和 instruction，然後配合已釋出的權重與 Wan2.1 base model 進行推理。

有一個相當關鍵的參考值：項目頁列出 12.66 FPS，並表示透過 4-step distilled diffusion generation 達成 real-time streaming inference。這個成績對互動式影片編輯很重要，不過公開資訊未見更完整的硬件條件、顯存需求或不同解析度下的比較，因此判斷效能時仍要保留一點。

重點不是一般文字生片，而是保留原片內容的串流影片編輯
主要技術包括 three-stage distillation、Causal DiT、AR-oriented Mask Cache
已公開 inference 與 training 程式碼，也提供 Hugging Face checkpoint 指引
已知較適合 Linux、NVIDIA GPU 環境，研究團隊或影像生成工程師較易受益
相關模型與基礎包括 Wan2.1-T2V-1.3B、bidirectional editing teacher、streaming student

整體來看，LiveEdit 的價值在於把 streaming video editing 做得更接近可互動系統，而不只是展示級效果。它較適合研究即時影片編輯、互動內容製作、直播視覺處理或需要低延遲生成的團隊；一般用家若想直接在圖形介面一鍵開用，現有資料未提供管理後台整合、免手動設定流程，仍然比較像面向研究與開發者的項目。

項目主頁 · GitHub · 模型

Categories: 開源, 香港科技大學, NVIDIA, Video, Linux, 模型, 視覺模型, 視頻模型, 蘋果, 框架

PhysisForcing 提升機械人世界模擬可靠性

2026 年 6 月 29 日

這是一個用於機械人操作的世界模擬訓練框架，名為 PhysisForcing。它主要解決影片生成模型在模擬抓取、推動與物件互動時，常出現動作軌跡不連續、物件變形和互動不合物理規律的問題。

PhysisForcing 的做法不是單靠生成更像真的畫面，而是把訓練重點放在與物理相關的區域，並同時加入像素層與語意層兩種約束。像素層的 trajectory alignment loss 會用參考點軌跡監督 DiT features，語意層的 relational alignment loss 則利用凍結的影片理解編碼器，對齊區域之間的互動關係，令機械臂與物件之間的時空關聯更穩定。

和一般通用影片生成模型，或只針對機械人資料做微調的方法相比，這個框架更集中處理「物理合理性」而非單純畫面觀感。它可套用在標準 diffusion video backbones 之上，已展示於 Wan2.2-I2V-A14B 與 Cosmos3-Nano 這兩個基礎模型。

核心重點是分層物理對齊：同時改善運動一致性與互動關係一致性
適合用於 embodied world simulation、robotic manipulation 與下游動作規劃
在 R-Bench、PAI-Bench、EZS-Bench 都較強基線有提升
R-Bench 上，Wan2.2-I2V-A14B 提升 +22.3%，Cosmos3-Nano 提升 +9.2%
納入 WorldArena action-planner protocol 後，closed-loop success rate 由 16.0% 升至 24.0%

這項工作對需要用影片模型做機械人訓練、模擬驗證或策略學習的人較有參考價值，因為它不只改善生成片段的外觀，亦提升作為 world model 的可用性。現有資料顯示，物理對齊後的影片表徵亦能帶動下游 policy success，說明這類方法不只是視覺修飾，而是直接影響機械人操作結果。

項目主頁 · Paper

Categories: 開源, NVIDIA, Video, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, 北京大學, 框架

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, LTX, 清華大學, 框架

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

Page 3 of 12

« Previous 1 2 3 4 5 … 12 Next »