Video

Montara 本地優先影片工作台

2026 年 8 月 2 日

做影片流程最麻煩，往往唔係生成一段畫面，而係素材、剪接決定、旁白、輸出格式同後續修改散落喺唔同工具。

Montara 就係朝住呢個痛點而來：一個本地優先嘅開源影片製作工具／框架，用 Timeline IR 做唯一時間軸來源，將規劃、編輯、渲染同交接串返埋。

它吸引嘅地方，在於先處理「冇雲端都要交到片」呢個現實限制。就算零 API keys，仍可經 FFmpeg 走本地 fallback 輸出可觀看 MP4，連字幕卡、語音路徑同部分媒體都預留咗本地方案；有裝 Remotion 就做 native smoke，冇裝亦會退回 FFmpeg，呢種設計比起只展示理想雲端流程嘅項目踏實得多。

同類做法常見係綁死某個生成服務或者某款剪片介面，Montara 反而把 provider 放成可插拔層，會建立 request、做 redaction、支援 dry-run 同 live-audit，但付費雲端呼叫要明確開啟。代價亦好清楚：它而家最成熟嘅係時間軸驗證、編輯操作、渲染路徑、editor bridge 匯入匯出，同埋真實 MP4 渲染與 post-render QA；README 亦講明長片規模仍屬 roadmap，唔係所有電影級工作流都已全面驗證。

Timeline IR 把場景計劃、剪接決定、匯入 editor cut 同生成素材收斂成一份 JSON
本地路線完整，FFmpeg 係通用底線，部分 video/image/speech/music 有 fallback
可匯出 EDL、OTIO、FCPXML，方便轉去 Premiere、Resolve、Final Cut 繼續做
provider 機制重視審計與可驗證性，適合要保留流程紀錄嘅團隊較受惠嘅會係想把 AI 生成同傳統後期接埋嘅內容團隊、要保留本地控制權嘅創作者，或者打算讓 agent 參與影片流水線嘅開發者。

Montara 已經唔止係 demo 級拼裝，因為它把「可編輯來源」、「真實渲染結果」同「可交畀剪輯軟件接手」放埋同一條線；不過想追求高度成熟嘅長篇製作，仍要留意目前覆蓋範圍主要集中喺已測試嘅 renderer 同橋接能力。

GitHub

Categories: 開源, Agentic, API, Video, 影像處理, 框架, LTX

用 Hermes Agent 自動跑 ComfyUI 影片流程

2026 年 8 月 2 日

由文字指令直接帶動整條 AI 內容製作流程，正是這段教學最吸引人的地方。影片示範 Hermes Agent 在 Windows 電腦上接手 ComfyUI 操作，把影像、語音與影片生成串成一套可執行工作流，減少人手逐步點擊介面的時間。

這類做法處理的，是多工具協作時常見的斷層：模型會生成內容，但流程仍要靠人逐格設定、切換節點、整理輸出。Hermes Agent 扮演的角色更接近可執行指令的 Agent，讓使用者用自然語言描述需求，再由它推動 ComfyUI 與相關模型完成步驟。

影片標題提到的 Krea 2、LTX 2.3、Qwen 與 Fish Audio，反映這條工作流並不只限於單一模型，而是把視覺、影片與音訊能力接在一起。重點不在單一模型參數，而在於怎樣把不同項目整合成可重複使用的自動化流程。

Hermes Agent 可在 Windows 環境控制 ComfyUI
工作流涵蓋影像、音訊與影片生成
輸入形式以簡單文字指令為主
涉及 Krea 2、LTX 2.3、Qwen、Fish Audio 等模型或服務

對內容創作者、想整理 AI 製作流程的人，這類教學特別有參考價值。它未必代表所有步驟都能完全免調整，但已清楚展示 Agentic 工作流如何把 ComfyUI 由節點工具，進一步變成可自動執行的製作中樞。

項目主頁

Categories: Qwen, Google, ComfyUI, Agentic, Video, Audio, AI productions, 安全, 教學, 視覺模型, 視頻模型, LTX

VideoCoCo 先用代碼演物理再出片

2026 年 8 月 1 日

一段影片要做到「似真」並不只靠畫面細緻，動作因果同物理變化站唔站得住腳更關鍵。VideoCoCo屬於視頻生成管線，處理的正是這個問題：先用 code as a chain-of-thought 寫出物理草稿，再把中性白模影片轉成寫實結果，減少模型直接由像素猜測運動時常見的失真。

VideoCoCo 不是一步生成最終影片，而是先由 code agent 產生 Blender 可執行模擬，輸出灰白、近似 clay render 的 proxy video，讓形狀、透明度、變形、遮擋與運動先承載物理意義，之後再檢查這段草稿是否符合 physical plan，最後才用編輯指令把 proxy restyle 成 photorealistic video。這種雙階段流程換來較強的可控性，但也代表整體鏈路比單段式生成更長，對中間草稿品質有依賴。

目前 GitHub 已放出五個 Agent Skills、batch inference 腳本、對上游 OmniWeaving 的 patch，以及 Hugging Face 上的 tuned transformer；另有 8 組 hand-checked 的 video-to-video triplets 可用來理解資料格式與輸入輸出關係。README 停在 Inference 章節開頭，未見完整安裝與執行細節，所以現階段較適合把它視為可檢查流程設計與推理組件的研究型項目，而不是即裝即用的成品。

先做物理草稿，再做寫實化，把運動因果同畫面風格拆開處理
以 Blender 可執行代碼承載 process-level CoT，重點不在文字解釋，而在可驗證的模擬結果
toy dataset 只有 8 個案例，涵蓋 buoyancy、melting、surface tension、boiling 等現象，較像格式樣本
已提供 tuned transformer、inference 腳本與 OmniWeaving patch，但公開資訊未足以完整重建部署流程

受益最大的會是研究 Agentic video generation、多步驟 controllable generation，或者想把物理先驗帶入視頻模型工作流的團隊。現有資料未見完整量化指標或大規模評測結果，優勢主要來自方法設計與中介表示的可檢查性；想判斷生成穩定度與泛化能力，仍要等更完整實驗或自行測試。

項目主頁 · GitHub

Categories: 開源, Agentic, Video, 視頻模型, Dataset 數據集, Skill 技能

ACE-Data-0：以人為中心的環境式採集構建具身數據引擎

2026 年 8 月 1 日

家居環境入面嘅長時間活動，一直係具身 AI 最難補足嘅數據缺口。ACE-Data-0 聚焦嘅唔係幾秒鐘嘅單一步驟，而係一段完整家務流程點樣一路影響視角、身體動作、物件狀態、接觸訊號同聲音，令模型可以學到「同一件事點樣隨時間演變」。

項目背後用 Ambient Capture Engine（ACE），將真實住宅場景變成同步錄製系統，並且同時覆蓋 table-scale 同 room-scale 兩個尺度。重點唔止係拍到第一身畫面或者外部鏡頭，而係將 ego view、exo views、body motion、hand articulation、object state、audio 同 touch 對齊到同一時間線，整理成可訓練、可標註嘅 embodied AI 數據。

相比只提供單一視角影片、實驗室動作捕捉，或者只得短片段互動記錄嘅常見做法，ACE-Data-0 更著重完整性同連續性。它以 household goal 為單位記錄活動，參與者自然完成任務，過程可以跨房間、牽涉多個物件，亦會保留場景由初始狀態、中途改變到任務完成嘅完整軌跡，較適合研究長程規劃、狀態追蹤同記憶能力。

用同步多模態方式記錄真實家居活動，而唔係只截取短動作片段
同一事件內對齊視角、身體、手部、物件、聲音同接觸訊號
以目標導向活動收集數據，保留跨步驟、跨房間嘅連續變化
適合具身 agents、機械人感知與操作、長時序決策相關研究

現有資料清楚交代咗項目定位、捕捉方式同數據價值，亦提到已釋出技術報告同 Hugging Face dataset。適合先將它理解為一個面向具身 AI 數據收集嘅基礎設施項目，而唔係即時上手型工具。

項目主頁

Categories: Agentic, Video, Audio, Robotic, Dataset 數據集

RefCaptioner：參考圖綁定對應影片字幕

2026 年 8 月 1 日

RefCaptioner grounds local caption phrases to relevant reference images while rejecting distractors.

做影片描述時，最易出錯唔係句子寫得唔夠長，而係講到某個人、物件或角度時，無法交代文字究竟對應邊張參考圖。RefCaptioner屬於影片字幕生成模型項目，集中處理 multi-reference image-grounded video captioning：一邊保留細節與事實準確度，一邊將局部描述同候選參考圖明確綁定。

RefCaptioner 不只是把所有參考圖塞入輸出，而係會挑選真正有用的圖，將對應片語加上 <Image_N> 標籤，遇到同一主體的不同視角又會做分組，影片根本無出現的內容就直接略過。呢種設計減少錯配同誤導，比起只追求流暢字幕，更著重可核對性。

技術上，RefCaptioner用兩段式 post-training。先以 capability-preserving SFT 學會 grounded caption 格式，同時盡量保留一般 captioning 能力；之後再用 Hierarchical Coverage-Discounted GRPO（HCD-GRPO）同時優化 factual-caption 分支與 multi-reference grounding 分支，並加入 deterministic guards，避免產生格式錯誤或指向不存在圖片的標籤。

提供官方 inference pipeline、SFT 資料準備、HCD-GRPO 訓練同 MRVBench evaluation pipeline
已公開論文與模型權重，亦有 Data Format、Training、Evaluation 文件可跟進
環境分成主環境與 GRPO 專用 veRL/vLLM 環境，代表訓練流程較完整但配置亦較講究
適合做影片理解、資料標註、多鏡頭人物敘述同需要檢查圖文對應的研究團隊

部署與測試：推理、SFT、評估共用主環境，GRPO 另設一套環境，並且要對指定 veRL 版本套用 patch，反映佢較偏研究型工作流，而唔係下載即用的小工具。效能數字在提供的內容未見完整展開，但既然已附 MRVBench evaluation pipeline，至少表示作者有把「字幕寫得對」同「圖文對得準」分開檢驗，較適合重視可解釋輸出的團隊採用。

GitHub · 模型

Categories: 開源, Agentic, Video, Image, 影像模型, 模型, 模型訓練

PhiZero 用物理語言先推演再生成影片

2026 年 8 月 1 日

生成影片最難處理的，往往唔係畫面清唔清，而係物件點移動、碰撞同延續。PhiZero 屬於世界模型（World Model），焦點放在「先理解世界狀態點轉變，再生成畫面」，用較細緻的 physical language 去表達變化，減少直接由像素預測帶來的不穩定感。

它想解決的問題很明確：自然語言太粗略，難以完整描述複雜物理過程；純視覺生成又未必能穩定保留因果同動作連貫性。PhiZero 於是從大量無標註影片學出一套 compact discrete representation，先把相鄰影片狀態之間的轉變編碼成 physical language，再交由模型根據首幀畫面同文字動作意圖，預測之後的狀態序列，最後渲染成影片。

它採用 reason-then-render 流程。前段由 Physical Language Tokenizer 抽取相鄰 latent video states 的有序特徵，配合 FSQ 離散化成 physical language；後段由以 Qwen3-VL-4B 初始化的 autoregressive VLM 負責推演，再用訓練好的 diffusion decoder 輸出影片。這種拆法的價值，在於同一套 transition representation 可以重用在 physically realistic generation、action-conditioned simulation、interactive rollouts 同 zero-shot transfer，而唔係只限單一生成任務。

先推演世界轉變，再生成影片，重點放在因果與動作連續性
physical language 來自無標註 in-the-wild videos，自監督學習轉變結構
以 Qwen3-VL-4B 作為 reasoner 基礎，並擴充 25K atomic symbols 詞彙
同一表示方式可支援生成、模擬、互動 rollout 同 transfer

現有資料顯示，PhiZero 的訓練資料同時結合真實與模擬影片，並經過逐步篩選，令模型由廣泛視覺經驗收斂到較多動態互動片段。官方頁面已展示 demos，但程式碼仍標示為即將推出，所以現階段較適合把它看成一個值得關注的世界模型方向：它不是單靠更大影片模型硬推結果，而是嘗試先建立可推理、可重用的物理語言介面。

項目主頁 · Paper

Categories: Qwen, Video, 視覺模型, 世界模型

NVIDIA FastGen 平行解碼的加速擴散生成訓練

2026 年 7 月 31 日

由 NVIDIA 團隊主導，Weili Nie、Julius Berner、Chao Liu 與 Arash Vahdat 是署名作者，核心貢獻者亦包括 Weili Nie、Julius Berner、Chao Liu。這個項目放在 NVlabs 名下，定位很明確：它不是單一生成模型，而是用 PyTorch 建成的訓練框架，集中處理 diffusion models 的加速與蒸餾，讓影像與影片生成可以用較少步數完成推理，同時保留大規模訓練能力。

與一般只提供某一種加速技巧的研究代碼不同，FastGen 把 consistency models、distribution matching distillation、self-forcing、KD 等方法放進同一套結構，並且覆蓋 T2I、I2V、V2V 多種任務。這種設計的價值，在於研究團隊可以在相近配置與資料流程下比較不同蒸餾路線，而不是每試一種方法就重砌整套訓練管線。

基本理解方式：代碼庫包含 datasets、methods、networks、trainer 與 scripts，顯然以訓練、推理、評測三部分分開整理；環境方面建議用 Docker，也保留 conda 安裝路線，並支援 W&B 記錄。不過公開資訊未有列出完整 quick start 細節、現成模型清單或基準成績，現階段較像面向研究與工程團隊的基礎框架，而不是開箱即用的消費級生成工具。

Prompt:
4 NFE PDD on Wan2.1 14B: A joyful child, 
with a big smile and arms spread wide, 
swings energetically on a rusty old swing set in a sunlit backyard. The swing set, with peeling paint and creaking chains, 
contrasts against the vibrant green grass and blooming flowers surrounding it. 

The child's laughter echoes as they swing higher and higher, 
their feet barely touching the ground at the bottom of each arc.
 
The scene is captured from a low angle, 
emphasizing the height of the swings, 
with the sun casting a warm glow over everything.
Medium shot focusing on the child and the swing set.

屬於框架型項目，處理的是 diffusion models 如何更快生成，而不只是再訓練一個新模型
支援 ≥10B 參數的大規模訓練，較適合有多卡資源的團隊
任務涵蓋 T2I、I2V、V2V，對跨模態生成研究較有吸引力
方法層同時納入 consistency models、distribution matching distillation、self-forcing 等路線，方便做橫向比較

配合 NVIDIA 研究頁面的 FastGen-PDD 脈絡來看，這個項目也像是承載後續加速生成方法的底座，尤其面向 image 和 video generation 的 parallel decoding distillation。對想建立自家快速生成訓練流程、測試不同蒸餾策略，或者需要把大型 diffusion 項目整理成可維護代碼庫的團隊，FastGen 的參考價值高；但想直接下載即用、立刻看到完整評測結論的人，現有公開資料仍然偏少。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Video, Image, Python, txt2img, 視頻模型, 語音

ID-V2V：先拍片後改風格的影像研究

2026 年 7 月 31 日

開發團隊來自 Netflix 與 Eyeline Labs。這個研究項目瞄準影像製作中最棘手的一段流程：想改影片風格、場景氣氛甚至補做光線，但又不想犧牲演員的表情、眼神、口型同步和肢體動作；ID-V2V 屬於 video-to-video 生成框架，處理的正是這種「保留身份與表演、再把風格傳播到整段影片」的問題。

現有做法常把影片重繪理解成一般風格轉換或逐格生成，作者認為這種範式很難同時守住 facial likeness 與細微 performance。ID-V2V 的切入點是把 identity preservation 重新表述成 video relighting，再把 edited keyframe 帶來的風格變化交給 controlled video synthesis 處理，並結合 relit facial regions、facial normal maps、edited keyframes 與 depth sequences，將身份約束與整體畫面變化拆開處理。

這個取向的價值很直接：你先拍好 source video，再準備一張 stylized keyframe，系統便嘗試把光線、場景與風格延展到整段片，同時盡量守住人物。原始資料亦提到 imperfect keyframe 的情況，即使首張風格幀和原片姿勢未必完全對齊，模型仍會在之後的幀數重新貼近 source video 的身份與表演，這點比只追求單幀好看更貼近製作流程。

提供兩個模型變體：idv2v 以及加入 normal-depth 訊號的版本
preprocess → generate 的推理流程與輸入輸出結構
環境集中在單一 uv 環境，另需下載多個 checkpoints，預設資源需求相當高
已測試於 8× A100-80GB，代表它較接近研究與製作級部署，不是輕量玩具
項目定位寫得很清楚，只供 demonstration and inspiration purposes

部署與測試資訊算完整，提供環境設定、checkpoint 下載、推理流程和多種案例，但門檻不低：需要 Python 3.10、torch 2.6+cu118、SAM3 權限，以及連同 Wan2.1 相關元件在內的大量模型檔案。性能方面，項目與首頁都表示在 preserving facial likeness 與 fine-grained facial performance 上明顯優於既有方法，並支援 single-subject 與 multi-subject 場景。

項目主頁 · GitHub · Paper

Categories: 開源, Video, Python, 影像處理, Dataset 數據集

Gemini Robotics 2 想令機械人動作更完整

2026 年 7 月 31 日

CSJxggUnu5m5TfompiXP2z7YLThhUvDn2 kBueCZv6HCEWWefUt WLzM6wxnTV1sTGqBbvmXDnOTB12W18NDr2NgFVXvHKCiTtjfXpyzuOYPJZXlg=w1440

機械人最難處理的，往往不是單一步驟，而是由看見環境、理解指令，到整個身體協調完成動作的連續過程。Gemini Robotics 2 聚焦的正是這個落差，嘗試把 whole body intelligence 帶入機械人，讓系統不只會辨識和規劃，還能更自然地連動身體控制。

Google DeepMind 把它放在 Gemini Robotics 這條 physical AI 路線之下，定位清楚偏向機械人操作與互動。相比只處理螢幕、語言或單一機械臂任務的做法，這個方向更重視整體行為是否連貫，包括感知、推理、用工具與跟環境互動能否接上同一套能力。

對研究機械人、embodied AI 同 VLA 工作流的人來說，這類項目最有參考價值的地方，在於它瞄準真實場景中的協調問題，而不是只展示單點能力。文章提供的內容仍屬簡介層面，未見完整評測細節、量化指標或部署條件，所以現階段較適合當成技術方向觀察，而不是直接當作可落地規格。

把機械人的感知、推理與身體動作放到同一條能力鏈
核心關注點是 whole body intelligence，而不只是語言或視覺理解
屬於 Gemini Robotics 系列，延伸 Google DeepMind 的 physical AI 佈局
現有公開資訊偏介紹性，性能與限制仍有待更多技術資料補充

整體來看，Gemini Robotics 2 反映出機械人模型正在由「識唔識做判斷」走向「能唔能夠完整做完一個動作」。對需要長步驟操作、工具使用與環境互動的場景，這種整合式能力會比單一模組升級更值得留意。

項目主頁

Categories: Google, Gemini, NanoBanana, Agentic, Video, Audio, 安全, Robotic, 世界模型, VLA, Skill 技能

MiniMax H3 頂級高清影片生成

2026 年 7 月 31 日

做影片內容時，最麻煩往往不只是「生成一段片」，而係點樣令角色、鏡頭起承轉合同參考素材保持一致。MiniMax H3 屬於多模態影片模型，處理的正正係呢類控制力需求：除咗 Text-to-Video，亦支援以首幀、尾幀、參考圖片、參考影片同音訊去引導生成結果。

對內容團隊、短片創作者同需要自動化出片流程的開發者而言，呢個項目的吸引力在於輸入方式夠彈性。你可以由一段 prompt 起步，也可以加入第一張或最後一張畫面去約束開場與收尾；當需要保留人物、動作、鏡頭風格、聲線或剪接節奏，則可改用 Reference Generation。

MiniMax Just Dropped a "Seedance Killer" with a Twist

Watch this video on YouTube

支援 Text-to-Video、First/Last-Frame Image-to-Video、Reference Generation
統一理解 text、image、video、audio，多種素材可混合輸入
輸出最高為 2K，片長 4 至 15 秒，只接受整數秒
參考輸入上限包括最多 9 張圖片、3 段影片、3 段音訊，混合檔案總數上限 12

規格上，MiniMax H3 支援常見長闊比，圖片、影片與音訊都有清晰的格式及大小限制，例如影片可用 H.264/AVC、H.265/HEVC，圖片可用 JPG、PNG、WEBP，音訊則支援 WAV、MP3。音訊不能單獨提交，必須配合圖片或影片一齊使用；而較大的素材更建議用 URL 方式傳入，避免 API request body 超出 64 MB。

現有資料集中在能力範圍、輸入限制同 API 使用方向，能夠幫你快速判斷適唔適合接入工作流。

項目主頁

Categories: API, Video, MCP, Image, Audio, 多模態模型, 視頻模型, 語音, MiniMax

Page 1 of 12

1 2 3 … 12 Next »