視頻模型 – InferNews

用 Hermes Agent 自動跑 ComfyUI 影片流程

2026 年 8 月 2 日

由文字指令直接帶動整條 AI 內容製作流程，正是這段教學最吸引人的地方。影片示範 Hermes Agent 在 Windows 電腦上接手 ComfyUI 操作，把影像、語音與影片生成串成一套可執行工作流，減少人手逐步點擊介面的時間。

這類做法處理的，是多工具協作時常見的斷層：模型會生成內容，但流程仍要靠人逐格設定、切換節點、整理輸出。Hermes Agent 扮演的角色更接近可執行指令的 Agent，讓使用者用自然語言描述需求，再由它推動 ComfyUI 與相關模型完成步驟。

影片標題提到的 Krea 2、LTX 2.3、Qwen 與 Fish Audio，反映這條工作流並不只限於單一模型，而是把視覺、影片與音訊能力接在一起。重點不在單一模型參數，而在於怎樣把不同項目整合成可重複使用的自動化流程。

Hermes Agent 可在 Windows 環境控制 ComfyUI
工作流涵蓋影像、音訊與影片生成
輸入形式以簡單文字指令為主
涉及 Krea 2、LTX 2.3、Qwen、Fish Audio 等模型或服務

對內容創作者、想整理 AI 製作流程的人，這類教學特別有參考價值。它未必代表所有步驟都能完全免調整，但已清楚展示 Agentic 工作流如何把 ComfyUI 由節點工具，進一步變成可自動執行的製作中樞。

項目主頁

Categories: Qwen, Google, ComfyUI, Agentic, Video, Audio, AI productions, 安全, 教學, 視覺模型, 視頻模型, LTX

VideoCoCo 先用代碼演物理再出片

2026 年 8 月 1 日

一段影片要做到「似真」並不只靠畫面細緻，動作因果同物理變化站唔站得住腳更關鍵。VideoCoCo屬於視頻生成管線，處理的正是這個問題：先用 code as a chain-of-thought 寫出物理草稿，再把中性白模影片轉成寫實結果，減少模型直接由像素猜測運動時常見的失真。

VideoCoCo 不是一步生成最終影片，而是先由 code agent 產生 Blender 可執行模擬，輸出灰白、近似 clay render 的 proxy video，讓形狀、透明度、變形、遮擋與運動先承載物理意義，之後再檢查這段草稿是否符合 physical plan，最後才用編輯指令把 proxy restyle 成 photorealistic video。這種雙階段流程換來較強的可控性，但也代表整體鏈路比單段式生成更長，對中間草稿品質有依賴。

目前 GitHub 已放出五個 Agent Skills、batch inference 腳本、對上游 OmniWeaving 的 patch，以及 Hugging Face 上的 tuned transformer；另有 8 組 hand-checked 的 video-to-video triplets 可用來理解資料格式與輸入輸出關係。README 停在 Inference 章節開頭，未見完整安裝與執行細節，所以現階段較適合把它視為可檢查流程設計與推理組件的研究型項目，而不是即裝即用的成品。

先做物理草稿，再做寫實化，把運動因果同畫面風格拆開處理
以 Blender 可執行代碼承載 process-level CoT，重點不在文字解釋，而在可驗證的模擬結果
toy dataset 只有 8 個案例，涵蓋 buoyancy、melting、surface tension、boiling 等現象，較像格式樣本
已提供 tuned transformer、inference 腳本與 OmniWeaving patch，但公開資訊未足以完整重建部署流程

受益最大的會是研究 Agentic video generation、多步驟 controllable generation，或者想把物理先驗帶入視頻模型工作流的團隊。現有資料未見完整量化指標或大規模評測結果，優勢主要來自方法設計與中介表示的可檢查性；想判斷生成穩定度與泛化能力，仍要等更完整實驗或自行測試。

項目主頁 · GitHub

Categories: 開源, Agentic, Video, 視頻模型, Dataset 數據集, Skill 技能

NVIDIA FastGen 平行解碼的加速擴散生成訓練

2026 年 7 月 31 日

由 NVIDIA 團隊主導，Weili Nie、Julius Berner、Chao Liu 與 Arash Vahdat 是署名作者，核心貢獻者亦包括 Weili Nie、Julius Berner、Chao Liu。這個項目放在 NVlabs 名下，定位很明確：它不是單一生成模型，而是用 PyTorch 建成的訓練框架，集中處理 diffusion models 的加速與蒸餾，讓影像與影片生成可以用較少步數完成推理，同時保留大規模訓練能力。

與一般只提供某一種加速技巧的研究代碼不同，FastGen 把 consistency models、distribution matching distillation、self-forcing、KD 等方法放進同一套結構，並且覆蓋 T2I、I2V、V2V 多種任務。這種設計的價值，在於研究團隊可以在相近配置與資料流程下比較不同蒸餾路線，而不是每試一種方法就重砌整套訓練管線。

基本理解方式：代碼庫包含 datasets、methods、networks、trainer 與 scripts，顯然以訓練、推理、評測三部分分開整理；環境方面建議用 Docker，也保留 conda 安裝路線，並支援 W&B 記錄。不過公開資訊未有列出完整 quick start 細節、現成模型清單或基準成績，現階段較像面向研究與工程團隊的基礎框架，而不是開箱即用的消費級生成工具。

Prompt:
4 NFE PDD on Wan2.1 14B: A joyful child, 
with a big smile and arms spread wide, 
swings energetically on a rusty old swing set in a sunlit backyard. The swing set, with peeling paint and creaking chains, 
contrasts against the vibrant green grass and blooming flowers surrounding it. 

The child's laughter echoes as they swing higher and higher, 
their feet barely touching the ground at the bottom of each arc.
 
The scene is captured from a low angle, 
emphasizing the height of the swings, 
with the sun casting a warm glow over everything.
Medium shot focusing on the child and the swing set.

屬於框架型項目，處理的是 diffusion models 如何更快生成，而不只是再訓練一個新模型
支援 ≥10B 參數的大規模訓練，較適合有多卡資源的團隊
任務涵蓋 T2I、I2V、V2V，對跨模態生成研究較有吸引力
方法層同時納入 consistency models、distribution matching distillation、self-forcing 等路線，方便做橫向比較

配合 NVIDIA 研究頁面的 FastGen-PDD 脈絡來看，這個項目也像是承載後續加速生成方法的底座，尤其面向 image 和 video generation 的 parallel decoding distillation。對想建立自家快速生成訓練流程、測試不同蒸餾策略，或者需要把大型 diffusion 項目整理成可維護代碼庫的團隊，FastGen 的參考價值高；但想直接下載即用、立刻看到完整評測結論的人，現有公開資料仍然偏少。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Video, Image, Python, txt2img, 視頻模型, 語音

MiniMax H3 頂級高清影片生成

2026 年 7 月 31 日

做影片內容時，最麻煩往往不只是「生成一段片」，而係點樣令角色、鏡頭起承轉合同參考素材保持一致。MiniMax H3 屬於多模態影片模型，處理的正正係呢類控制力需求：除咗 Text-to-Video，亦支援以首幀、尾幀、參考圖片、參考影片同音訊去引導生成結果。

對內容團隊、短片創作者同需要自動化出片流程的開發者而言，呢個項目的吸引力在於輸入方式夠彈性。你可以由一段 prompt 起步，也可以加入第一張或最後一張畫面去約束開場與收尾；當需要保留人物、動作、鏡頭風格、聲線或剪接節奏，則可改用 Reference Generation。

MiniMax Just Dropped a "Seedance Killer" with a Twist

Watch this video on YouTube

支援 Text-to-Video、First/Last-Frame Image-to-Video、Reference Generation
統一理解 text、image、video、audio，多種素材可混合輸入
輸出最高為 2K，片長 4 至 15 秒，只接受整數秒
參考輸入上限包括最多 9 張圖片、3 段影片、3 段音訊，混合檔案總數上限 12

規格上，MiniMax H3 支援常見長闊比，圖片、影片與音訊都有清晰的格式及大小限制，例如影片可用 H.264/AVC、H.265/HEVC，圖片可用 JPG、PNG、WEBP，音訊則支援 WAV、MP3。音訊不能單獨提交，必須配合圖片或影片一齊使用；而較大的素材更建議用 URL 方式傳入，避免 API request body 超出 64 MB。

現有資料集中在能力範圍、輸入限制同 API 使用方向，能夠幫你快速判斷適唔適合接入工作流。

項目主頁

Categories: API, Video, MCP, Image, Audio, 多模態模型, 視頻模型, 語音, MiniMax

Wonder：Adobe 把影片變成可探索世界

2026 年 7 月 31 日

由一張圖片或一段影片出發，Wonder會建立一個可以邊走邊看的互動式 Video World Model，處理的是「鏡頭一直移動，但場景仍要連貫」這個難題。你向前推、左右轉，甚至回到之前看過的位置，畫面都要盡量保持幾何、外觀同動態一致，而唔係每一格重新幻想一次。

呢個項目吸引的地方，在於它兼顧了互動感同穩定性。官方資料指出，Wonder支援 image-to-video 同 video-conditioned generation，提供 6-DoF camera control，並以接近固定延遲維持最長一分鐘的探索；對想做可遊走場景、遊戲世界原型、動畫預覽，或者互動式視覺敘事的人來講，呢種體驗比單次生成短片更有用。

為咗令鏡頭控制唔只停留喺抽象指令，Wonder把相機平移與旋轉轉成可對齊畫面的密集視覺證據，再配合 3D scaffold 同 environment map 去建立可導航空間。它亦保留完整歷史的 KV caches，再用 sparse attention 抽取相關記憶，令系統可以在不明顯拖慢回應下，維持較長距離的一致性。

支援 I2V+V2V multimodality，可由圖片或影片開始生成互動世界
提供 6-DoF camera control，重點是可探索而唔係只看固定鏡頭片段
以 sparse attention 配合完整歷史記憶，改善長時段連貫性
官方展示為 16 FPS rollout，頁面上的 32 FPS 影片屬線性插幀後處理

訓練部分用了 Mixture-of-Students 設計，並以 GAN Control Regularization 處理蒸餾時的 camera drift，目標是同時保住控制能力同長期一致性。現階段公開資訊以示範與技術報告為主，Code 同 HuggingFace 尚未釋出；不過單看定位，Wonder已經清楚指向一類更接近「可互動世界」而唔係「一次性影片生成」的世界模型方向。

項目主頁

Categories: 開源, Video, Image, 3D, 模型訓練, 視頻模型, 世界模型

Sol-Attn：免訓練稀疏注意力影片生成加速達 2.1 倍

2026 年 7 月 30 日

影片生成模型愈來愈強，但推理速度依然是開發者和創作團隊最常卡住的地方。NVIDIA Research 提出的 Sol-Attn，正正針對這個矛盾：它把「訓練用嘅成本」同「推理時嘅效率」分開處理，讓預訓練模型無須重新訓練就可以直接加速。

Sol-Attn 屬於免訓練（training-free）嘅稀疏注意力機制，做法是動態計算一個 query 相關嘅閾值，即場篩走低貢獻嘅注意力區塊，同時把未選中嘅分數重用做近似補償，整個過程喺一次 online-softmax 內完成。換句話講，它毋須事先計好一張路由表，亦唔會直接丟棄被跳過嘅區塊，因此能保留長尾分佈對最終畫面嘅影響。

喺 Wan 2.1、Hunyuan 1.5、LTX 2.3、Bernini 等多個主流模型上，Sol-Attn 都做到約 2 倍嘅速度提升，同時畫質幾乎唔受影響。若配合 Sol-Engine 中其他加速技巧，仲可以推到 5 倍嘅端到端加速。對於要跑長影片、做後製編輯，或者本地有限顯示卡環境嘅使用者來說，呢個幅度算係幾實用嘅改進。

對比以往「離線先揀一次、再丟棄」嘅做法，Sol-Attn 最大嘅差異在於即場判斷同重用機制。讀者如果本身就喺度搵方法縮短生成等待時間，又唔想額外花資源微調模型，呢套方案值得留意。

項目主頁 · GitHub

Categories: NVIDIA, Video, Image, 模型訓練, 視頻模型, LTX

CrossView 用 3D 數值控制鏡頭：LTX-Video 跨視角生成

2026 年 7 月 28 日

想將一段現成影片改成另一個鏡頭角度，又唔想主體變樣或空間關係散掉，這正是此模型處理的問題。它明確基於 Lightricks/LTX-2.3，屬於 LTX-Video 2.3 22B 的 IC-LoRA 微調，重點不是純文字改鏡頭，而是用輸入影片加相機偏移數值，重建同一場景的新視角。

頁面提供的做法幾清楚：模型同時接收兩段參考影片，一段是由 CrossViewWarp ComfyUI node 產生的 depth-warp 影片，用來保留幾何結構；另一段是原始影片，用來維持主體 identity。這種雙參考分工，反映它優先解決「換角度後仍要似原片」的取捨，比單靠 prompt 描述鏡頭更穩定。

它與同作者的 CrossView Prompt LoRA 差異亦很直接：後者由文字提示選鏡頭角度，這個版本改為輸入 azimuth / elevation / distance 等數值，所以鏡頭控制更精確。頁面亦提到可以在 3D orbit picker 加 keyframes，逐幀插值相機姿態，代表不只可做固定新視角，也可做繞拍式 camera move。

基礎模型已標明為 Lightricks/LTX-2.3，授權為 Apache-2.0。
主要檔案是 LTX2.3-22B_IC-LoRA-CrossView-Warp_v0.9_18000.safetensors。
依賴 ComfyUI-CrossViewWarp 與 Depth Anything V2 節點提供 depth 輸入。
示例包含固定視角偏移與 keyframed 軌道鏡頭，並說明輸出來自真實影片而非合成訓練片段。

這個項目目前仍是 PoC，它較偏向 ComfyUI 工作流驗證，而不是通用本地大語言模型部署。

模型

Categories: 開源, ComfyUI, Video, 3D, AI productions, 視覺模型, 視頻模型, LTX

Self Gradient Forcing 補長影片一致性缺口

2026 年 7 月 26 日

生成影片拉長到幾分鐘之後，角色樣貌、鏡頭方位同場景佈局愈來愈唔穩，往往不是畫質問題，而是模型早段寫入的歷史記憶愈來愈幫不到後面幀。Self Gradient Forcing（SGF）屬於訓練方法項目，核心是替自回歸影片擴散模型補回一段原本缺失的 context-gradient path，處理 long-video extrapolation 時常見的 identity drift、scene break 同 temporal instability。

作者點名現有做法多建基於 Self Forcing：模型用自己 rollout 出來的歷史作訓練，的確能減少 exposure bias，但 historical key-value cache 在後續生成裡只是 frozen rollout state，未能讓未來幀的損失回頭教早前的記憶應該怎樣寫得更有用。SGF 的做法是 bounded two-pass replay，第一輪先照推理方式無梯度 rollout，第二輪只重建抽樣步驟所需的 context-gradient，避開完整長序列反向傳播的成本，同時保住 causal memory 的可訓練性。

項目現時已放出訓練碼、推理碼同 checkpoint，底層接到 Wan2.1-T2V-1.3B 與 Wan2.1-T2V-14B，亦依賴 Causal-Forcing 的初始化權重。配置分成 framewise 同 chunkwise 兩路，預設推理可生成 963 個 latent frames，解碼後約 240 秒、16 fps，環境足夠時會用 8 GPUs，否則退回單卡串行生成；這個門檻說明它較接近研究與算力密集型內容生產流程，而不是輕量即開即用工具。

針對 Self Forcing 的 historical context-gradient gap，而不是單純調參延長影片
用 bounded two-pass replay 補監督，取捨在於訓練更複雜，但比全序列回傳梯度更可控
同時提供 framewise 與 chunkwise 設定，方便比較不同長片生成路線
依賴 Wan 基座模型與 Causal-Forcing 初始化，部署前要先備好對應權重

就已公開描述來看，SGF 的價值不在另起一套全新生成架構，而是在保留 native autoregressive training objective 的前提下，修正自生成記憶無法被未來損失有效監督的缺口。對研究 long-horizon video generation、需要單一 prompt 與 seed 維持數分鐘敘事一致性的團隊，這個項目有相當清晰的參考價值。

項目主頁 · GitHub · Paper

Categories: 開源, Video, 模型訓練, 視頻模型

MobileWan 把 5B 影片生成壓進手機

2026 年 7 月 19 日

手機影片生成常見的痛點，不是能不能出片，而是畫質、動作連貫性與記憶體限制往往只能三選二。MobileWan屬於模型推理工具加輕量化模型方案，核心是在保留Wan2.2-5B基礎能力的前提下，讓單一提示詞影片生成更接近流動裝置可承受的範圍。

目前只支援 Snapdragon®
8 Gen. 5 NPU：不走細模型路線，而是把 Wan2.2-5B 改寫成更節省記憶體的推理形式。項目公開的是 inference-only sampler，會先做 hybrid-attention surgery，再套用已封裝的 self-attention head-pruning 計劃，之後才載入 MobileWan transformer 權重；換句話說，重點不是訓練流程，而是怎樣把既有大模型壓到可部署狀態。

資料顯示，MobileWan 以 recurrent distillation、causal linear attention 同記憶體優化解碼去支撐流動裝置生成，官方亦給出 5 秒、480×832、16 FPS、端到端約 20 秒延遲，以及 VBench 83.79 的成績。這些數字反映它追求的是「手機可跑，同時畫質不要跌得太明顯」，而不是只用極低參數換取能執行便算。

支援單一提示詞影片生成，重點放在推理與部署而非訓練
基於 Wan2.2-5B，透過 hybrid-attention surgery 與 head pruning 減低負擔
可選 scheduler，包括 flow euler、unipcm 或 pipeline 預設方案
生成流程提供 seed、略過既有輸出、較高品質 MP4 輸出等控制項目

這個項目的參考價值高；但它目前聚焦單一提示詞輸出，亦未見完整訓練鏈公開，適合拿來驗證推理路線，未必等同即插即用的產品方案。

項目主頁 · GitHub · 模型

Categories: 開源, Video, 視頻模型

KeyFrame-Compass：關鍵幀尺度評測

2026 年 7 月 17 日

KeyFrame-Compass benchmark domains and examples

KeyFrame-Compass 是一個用來評測 keyframe-conditioned video generation 的基準項目，重點在於檢查模型能否同時跟住文字提示同一組按順序排列的 keyframes 生成影片。對做影片生成的人來說，這類測試最有價值的地方，是它不只看成片好不好看，還會追問畫面有沒有真係按要求出現、順序有沒有走樣。

這個項目把評測拆成兩層：一層看 keyframe execution，包括關鍵畫面存在、視覺還原、時間順序、定位、持續性同回應唯一性；另一層看 overall video quality，會用 evidence-grounded MLLM（Multimodal Large Language Model, MLLM）判斷，加上專門的感知模型去量度視覺質素、時間連貫性、指令遵從同音訊表現。這種分法比單純比對整體分數更清楚，因為它能分辨出模型係「畫得靚」定「跟得準」。

官方提供 386 個案例，涵蓋三個應用領域，亦分有 multi-shot 同 one-take 片段，配合四種 keyframe 密度。安裝上需要 Linux、Conda 或 Mamba、NVIDIA GPU，同埋可用的 VLM API；倉庫亦提供 envs、assets 同 all 三種設定模式，方便只建環境、只拉資產，或者一次過做完整驗證。

把影片生成的「跟畫面」同「成片質感」分開量度，結果較容易解讀
支援不同 keyframe 密度，較適合比較模型對控制力的穩定度
適合做影片生成模型、研究原型或產品 demo 的質量驗證
需要 GPU 同外部 VLM API，部署門檻唔算低
相關模型類別可歸到 Video、視覺模型、多模態模型、模型、工具

GitHub

Categories: 開源, Gemini, NVIDIA, API, Video, 工具, Linux, 多模態模型, 模型, 視覺模型, 視頻模型

Page 1 of 12

1 2 3 … 12 Next »