視頻模型 – Page 5

DreamX-World：可互動世界模型

2026 年 6 月 16 日

現時不少影片生成模型偏向做短片段合成，畫面可以靚，但一旦要控制鏡頭移動、返回之前看過的位置，或者在同一場景加入事件，往往會出現場景斷裂、風格飄移、前後不一致。DreamX-World 針對的正是這種固定範式的限制，把重點由「生成一段片」改成「維持一個可互動世界」。

這個項目屬於世界模型兼影片生成模型，目標是處理 interactive world simulation，讓文字或圖像驅動的影片不只會動，還能按事件提示改變場景。技術報告提到它支援 camera navigation、重訪已觀察區域，以及 compositional events，亦即多個事件可串連成多步世界變化，這比一般一次性生成更接近遊戲或模擬系統。

DreamX-World

Watch this video on YouTube

它的做法有幾個較鮮明的改動：先用 Unreal Engine 數據、gameplay footage 與 real-world videos 建立資料引擎，再加入 camera estimation 與嚴格過濾；之後用 E-PRoPE、causal forcing、DMD-style distillation、long-rollout training、Memory-Conditioned Scene Persistence 等方法，處理長時段生成常見的記憶斷層與色調漂移。報告亦指出，DreamX-World 1.0 在 5-second basic evaluation 拿到 84.76 overall score、73.75 camera-control score，整體分數高於 HY-WorldPlay 1.5 與 LingBot-World。

如果你想試這個項目，較合理的切入點是先看 DreamX-World-5B-Cam，因為它已公開模型與推理程式，主打 5 秒影片生成；想看長時段能力，就留意 Long-horizon DreamX-World-5B。它較適合研究 world model、互動影片、遊戲 AI 內容生成，或者想比較 autoregressive 與 bidirectional 路線差異的人。

Dreamx World 1.0

Watch this video on YouTube

已公開相關模型包括 DreamX-World-5B-Cam 與 DreamX-World-5B
5B-Cam 偏向短片與鏡頭控制，5B 則支援較長時段生成
核心賣點是場景持續性、鏡頭控制與事件組合，不只追求單段畫質
報告提到最高可達 16FPS（八張 RTX5090），反映它有考慮推理效率

整體來看，DreamX-World 的價值不在於再做一個普通 text/image-to-video 模型，而是把「可回看、可操作、可改變」放進同一個生成系統。現階段公開內容仍以模型與技術報告為主，但方法論已相當清楚，對世界模型這條路有明確野心。

GitHub： https://github.com/AMAP-ML/DreamX-World

Paper： https://arxiv.org/pdf/2606.16993

Categories: 開源, Video, Image, AI productions, 模型, 模型訓練, 視頻模型, 世界模型, 清華大學

iMaC：把機械臂動作變成可預測影像

2026 年 6 月 16 日

現時不少 action-conditioned video models 會把未來動作壓成 compact vectors，再經 learned conditioning modules 交給模型處理；作者認為這種做法要模型自行猜測細微空間後果，遇到 real manipulation 時，幾厘米差距已足以改變接觸、物件移動與任務成敗。iMaC 屬於世界模型與影片生成模型，核心是把 future joint actions 轉成 image-like controls，減少「動作有輸入，但空間關係表達不足」的問題。

這個項目的方法相當具體：先利用 robot URDF 與 forward kinematics，渲染 future robot-observation control videos，也就是 motion images；之後再加入 depth 作為輔助訊號，配合 3D pointclouds 建立 two-stream geometry controls，也就是 contact images。舊範式主要靠抽象向量條件化，iMaC 則把「未來機械臂會出現在哪裡、如何接近場景」直接變成可見控制，這是它最清晰的技術分野。

GitHub 儲存庫提供 training、preprocessing 與 inference code，覆蓋 RND-mix stage-one、stage-two，以及 WorldArena 三條流程。想試這個項目的人，會先由資料前處理、depth 與 3D condition 建立開始，再跑 validation inference 看生成影片是否跟動作一致；若本身做 robotic policy evaluation，還可以接到 WorldArena 或 online RND evaluation 場景。

把 actions 轉成 motion images 與 contact images，空間條件更明確
用 depth encoding 和 3D pointclouds 強化 robot-scene 幾何理解
加入 training-time rollout strategy，目標是支援更長時序生成並減少 exposure bias
儲存庫同時涵蓋訓練、前處理、推論，不只是論文展示模型
相關組件包括 Wan transformer variants、Diffusion inference pipelines、RobotWin 2.0、WorldArena

性能方面，論文指出它在八個長時序真實機械人操作任務中，world-model success estimates 與真實 policy performance 呈強正相關。這個結果的價值不在於取代真機測試，而是在正式落機前，先用生成式 world model 篩選 policy checkpoints；對研究 embodied evaluation、robotics 與世界模型的人來說，iMaC 屬於相當值得跟進的一個方向。

GitHub： https://github.com/imac-wm/iMac

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, Stable Diffusion, Video, Image, 3D, AI productions, Mac, Vibe Coding, Win, 庫, 模型, 模型訓練, 編程, 視頻模型, Robotic, 世界模型, 清華大學

RhymeFlow：加快影片生成的新路線

2026 年 6 月 16 日

Repository image for Simon-Dcs/RhymeFlow

現時不少影片生成加速方法，主要仍沿用標準 diffusion pipeline：每一幀都要在所有 diffusion timesteps 完整做一次 dense denoising，再配合 sparse attention 或 KV-caching 減少單步計算。RhymeFlow 指出，這種固定範式忽略了相鄰影格內容與動作高度相關，令自然影片裡大量中間步驟其實屬於重複運算。

這是一個免訓練的影片生成加速框架，核心目標是替 DiT（Diffusion Transformers）影片模型減少推理延遲與運算成本。它將不同影格的 denoising trajectory 拆開處理：先找出主導語意變化的 keyframes，讓 keyframes 保持逐步去噪，非 keyframes 則逐步跳過部分步驟，再用 latent trajectory projection 補回時間一致性。

這個做法的創新，不在於單純把 attention 再稀疏化，而是直接挑戰「所有影格都要同步、密集去噪」的舊假設。論文描述，RhymeFlow 在現有 DiT-based video generation models 上，能同時取得更高 inference speed 與更好 visual quality；不過 GitHub 目前公開重點放在 Wan 2.1 adaptation，HunyuanVideo adaptation 仍在準備中。

如果你想試，較合理的切入點是把它當成 Wan 2.1 的加速實驗框架，比較 dense、svg、sap、rhyme、rhyme_sap 幾種方法輸出時間與畫面差異。環境要求偏高，文件列出 CUDA 12.4 / 12.8 與 PyTorch 2.5.1 / 2.6.0，亦牽涉 FlashInfer、flash-attn 和自訂 kernels，較適合已有 GPU 與 PyTorch 經驗的人。

項目類型：training-free 影片生成加速框架，處理 DiT 影片模型推理太慢的問題
方法重點：keyframes 做 dense denoising，非 keyframes 跳步處理，再用 latent trajectory projection 維持時序一致
可比較方法：dense、svg、sap、rhyme、rhyme_sap
相關模型：Wan 2.1 已有 adaptation，HunyuanVideo adaptation 尚未完整釋出
適合場景：研究影片生成推理優化、比較不同加速策略、測試速度與畫質取捨

整體來看，RhymeFlow 的價值很明確：它不是改模型權重，也不是重新訓練，而是重排 denoising flow scheduling，從流程層面節省計算。對研究者與進階開發者而言，這類思路比單純堆硬件更有參考價值；對一般創作者來說，現階段門檻仍在部署與 GPU 環境。

GitHub： https://github.com/Simon-Dcs/RhymeFlow

Paper： https://arxiv.org/pdf/2606.06309

Categories: 開源, 騰訊, NVIDIA, Video, Content Creator, AI productions, Python, 模型訓練, 深度學習, 視頻模型, 清華大學, 框架

MBench 專看長影片世界模型記憶力

2026 年 6 月 16 日

現時不少長影片評測，仍偏向單幀畫質或短距離 prompt following；畫面一旦切走、角色離鏡，很多模型便容易在回到同一情境時「失憶」。MBench 這個benchmark正是針對這個盲點而設，聚焦 long-video world models 的 memory capability，檢查模型能否在時間拉長後維持一致的世界狀態。

作者把問題拆成三個互相獨立但又彼此關連的方向：Entity Consistency、Environment Consistency、Causal Consistency。這種設計比籠統地給一個總分更有分析價值，因為你能看清模型究竟是忘記角色外觀、搞亂場景空間，還是未能延續畫面外仍在發生的物理過程；同時它再分成 MBench-A 與 MBench-T，分別對應 action-conditioned world models 與 text-segment-conditioned 長影片續寫模型。

如果你本身有影片生成或世界模型項目，這個儲存庫的用途很明確：先準備模型輸出，再用 mbench 這套 contract-driven、plugin-based CLI 跑完整評測流程。儲存庫已提供 12 個官方 metric implementation，亦整合 VLM trigger judge，代表它不只是論文概念，而是一套可落地比較不同模型表現的評測工具鏈。

項目類型：這是一個 benchmark／評測工具鏈，用來量度長影片世界模型是否具備穩定記憶與時序一致性。
創新位置：不是只看畫面質素，而是把「長時間記住世界」正式定義成三條 capability axes。
適合場景：長影片生成、world model 研究、模型比較、內部驗證新版本退步與否。
可讀性高：MBench-A 與 MBench-T 將不同條件設定分開，較容易知道模型失分原因。

從評論角度看，MBench 的價值在於它批評了舊有固定範式：只獎勵 single-frame quality 或 short-horizon prompt following，卻未有檢驗跨鏡頭、跨時間的持續記憶。若你關心的模型包括各類 long-video world models、action-conditioned world models，以及 text continuation 類影片模型，這個項目很值得納入測試流程；不過目前提供的資料以 benchmark 與評測框架為主，是否能全面代表所有真實創作場景，仍要配合你自己的生成任務一併觀察。

GitHub： https://github.com/study-overflow/MBench

Paper： https://arxiv.org/pdf/2606.00793

Categories: 開源, Video, 工具, Win, 庫, 模型, 視頻模型, 世界模型, 清華大學, 框架

SCAIL-2 把動畫角色控制再推前一步

2026 年 6 月 11 日

SCAIL-2 是一個用於 End-to-End Character Animation 的開源模型，重點是把驅動影片的視覺資訊直接送入模型，減少依賴 skeleton、mask 這類中介表示。它要處理的問題很明確：傳統角色動畫控制在複雜動作、多角色互動、跨角色替換時，容易因中介資訊過少或含糊而失真。

這項目在於把多種角色動畫子任務合併成同一套流程，並以 Unified Motion Transfer Interface、in-context mask conditioning 與 mode-specific RoPE 作統一控制。根據公開說明，模型還利用 MotionPair-60K 這類合成動作配對資料訓練，並支援 cross-identity replacement、multi-character animation，甚至 animal-driving 與 mesh-based control 這些 zero-shot 能力。

可調參數包括 denoising steps、flow-matching scheduler shift、classifier-free guidance scale、solver，以及是否啟用 offload model；這些設定會影響生成速度、顆粒感與顯示資源負擔，較適合已有 GPU 環境、想比較不同動畫控制效果的人。

用模型來把驅動動作轉到指定角色身上
不再把 skeleton map 當核心依據，目標是減少資訊流失
已列出相關模型：SCAIL-Preview、Wan-Animate、MoCha、SAM3D-Body
可處理多角色、角色替換、跨身份動畫等場景
推論可調整 steps、guide scale、solver 等參數

如果你是做 AI 影片、虛擬角色內容、動畫研究，或者正留意角色動作遷移技術，SCAIL-2 有一定參考價值。至於效能表現，項目明確表示它在多項任務上優於既有 state-of-the-art approaches。

GitHub： https://github.com/zai-org/SCAIL-2

項目： https://teal024.github.io/SCAIL-2/

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Bernini：影片生成與編輯的新路線

2026 年 6 月 10 日

Bernini 是一個影片生成與編輯框架，核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來，處理一般影片擴散模型常見的內容漂移、指令跟從不穩定，以及長片段規劃鬆散等問題。從定位看，它不是單純再堆大模型，而是先做語意規劃，再交由生成器落實畫面。

這個項目的關鍵想法，在於「Latent Semantic Planning」：先在潛在空間安排語意，再做 video diffusion。對非研究背景讀者來說，可以理解為先寫分鏡草稿，再逐格畫面化，這比直接由文字一步到位生成影片，更有機會保持故事連貫和編輯意圖一致。

如果想試，較合理的切入點是影片編輯任務，例如風格轉換、字幕或水印移除、局部修改，再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階，建議準備 CUDA 12.4、Python 3.11.2，以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3；若有 H100、H800、H200 可配合 FlashAttention-3，其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊，評分來自其自建 arena，以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值，但暫時主要反映編輯場景；若你關心更複雜的人物生成，官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本，面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion

Watch this video on YouTube

核心組成是 MLLM-based semantic planner + DiT-based renderer
已公開 Bernini-R 權重，包含 1.3B 版本
適合研究影片生成、影片編輯流程，或想比較規劃式生成方法的人
硬件門檻偏高，Multi-GPU sequence parallel 亦需要 Open-VeOmni
相關模型可先留意 Bernini-R-1.3B-Diffusers，以及文中提到的 14B 變體

整體來看，Bernini 最有價值的地方不是「再一個影片模型」，而是把規劃與渲染拆開處理，令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目，它未必合適；但如果你重視研究方向、編輯質素與系統設計，這個項目相當值得細看。

GitHub： https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

AHA-WAM：讓機械人決策一致的世界動作模型

2026 年 6 月 10 日

機械人學習操作技能時，往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上，導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM（Asynchronous Horizon-Adaptive World-Action Modeling）項目，就是要把兩者拆開來處理。

核心架構：雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer（DiT）分支：低頻的 video DiT 負責長程的視覺世界規劃，並利用滾動式 K/V 記憶體儲存可重用的上下文；高頻的 action DiT 則接收本體感覺訊號，向 video DiT 查詢所需上下文後，即時產生短時閉環動作區塊。兩者各司其職，避免互相拖累。

兩項關鍵訓練與推論機制

Horizon-Adaptive Offset Training（水平自適應偏移訓練）：讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
Observation-Guided Video-Context Routing（觀察引導的視覺上下文路由）：根據最新觀察調整快取的規劃上下文，無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中，AHA-WAM 達到 92.80% 平均成功率，且無需任何機械人數據預訓練；在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面，閉環頻率達 24.17Hz；經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz，相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略，以及追求高頻閉環控制的開發團隊；其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目： https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 百度, 上海人工智慧實驗室

SwiftVR：低清、模糊影片實時修復

2026 年 6 月 10 日

把低清、模糊的影片即時變成清楚版本，一直是擴散式（diffusion-based）影片修復（VR, Video Restoration）模型的痛點：畫質漂亮，卻慢得跑不動。SwiftVR 是一個以單步生成（one-step generative）路線設計的串流修復框架，主打把高解析度延遲壓到可即時播放的範圍，同時保持擴散模型的視覺品質。

為何能跑得這麼快？ 項目作者從兩個瓶頸下手。第一是空間注意力在高解析度下的二次方成本：SwiftVR 引入 MFSWA（Mask-free shifted-window self-attention），把每個空間窗口預先重排成稠密張量，讓每次注意力呼叫都走標準的 SDPA（Scaled Dot-Product Attention）路徑，省掉遮罩、循環位移、稀疏 kernel，吞吐量比全注意力教師模型提升約 1.62×。第二個瓶頸是傳統 3D VAE 解碼太笨重：他們改用一個輕量級的 ReAE（Restoration-aware Autoencoder），與 DiT（Diffusion Transformer）聯合在像素空間微調，讓分塊解碼不再卡住流水線。

數字上多誇張？ 同一個權重檔，在單張 H100 上，QHD（2560×1440）24 幀約 31 FPS、4K（3840×2160）約 14 FPS，而所有比較的擴散式 VR baseline 在 4K 都 OOM（Out-of-Memory，記憶體溢位）。換到消費級的單張 RTX 5090，1080p 可達約 26 FPS，達到即時串流門檻，且全程不需重寫 kernel 或重新訓練。所有推理走預設 PyTorch SDPA 與 bfloat16。

誰適合關注？ 需要為直播、視訊會議、老片修復平台做即時前處理的研究員與工程師；對 DiT、串流推理、邊緣部署有興趣的開發者；以及想找一個 open-source 起點、把生成式 VR 推上消費硬體的團隊。

與同類相比的相對位置： 對照組 DOVE、SeedVR2-3B、FlashVSR-Tiny 在 QHD 下分別約 0.85、1.39、9.61 FPS，SwiftVR 約 31.32 FPS，速度差距明顯。論文亦宣稱在無參考感知品質指標上具競爭力，但具體分數請以原論文表格為準。

重點摘要：

單步生成路線：放棄多步擴散，以一步生成換取低延遲。
MFSWA 注意力：把窗口預聚集成稠密張量，繞過稀疏 kernel。
ReAE 解碼器：取代 3D VAE，解放分塊解碼的瓶頸。
因果分塊串流：無滾動 KV、快取即可限制時間軸成本。
消費級硬體可達即時：RTX 5090 1080p 約 26 FPS，H100 一路到 4K。

GitHub： https://github.com/H-oliday/SwiftVR

項目： https://h-oliday.github.io/SwiftVR/

Categories: 開源, 影像處理, 模型, 視頻模型

StreamChar：長時間角色聲畫生成新路線

2026 年 6 月 7 日

StreamChar 是一個研究展示項目，聚焦 Long-Horizon Streaming Character Audio-Video Generation，也就是長時間、串流式的角色音訊與影片生成。從頁面可見，它的核心組合包括 Decoupled LLM orchestration、joint audio–video DiT denoising backbone、Sink-Chunk Memory，以及 Online Rollout Distillation。

這個項目要處理的重點，是角色聲畫內容在較長輸出過程中的連續性與穩定度。一般生成流程一旦拉長，容易出現內容斷裂、角色狀態不一致，或音訊與畫面節奏不同步；StreamChar 看來就是針對這類長序列生成問題而設計。

使用這個項目時，現階段較像觀看研究成果與示範，而不是直接提供完整產品化操作流程。頁面提供 Paper (arXiv) 與示範影片，適合先從 demo 觀察輸出效果，再配合論文理解整體方法與系統拆分方式。

它的技術方向幾個重點相當清楚：把 LLM 的 orchestration 與底層聲畫生成解耦、以 Streaming DiT Backbone 負責連續生成，並加入 Sink-Chunk Memory 支援長時間上下文。Online Rollout Distillation 則顯示團隊有針對串流生成過程做效率或穩定性上的訓練安排，但頁面摘要未提供更完整數字。

聚焦 Long-Horizon Streaming Character Audio-Video Generation
結合 Decoupled LLM orchestration 與 joint audio–video DiT denoising
以 Sink-Chunk Memory 處理長序列上下文
提供研究示範影片，輸出為 native resolution
適合關注角色生成、串流生成與多模態研究的人

如果你是做生成式 AI、虛擬角色、數碼人或影片合成相關項目，這個項目有參考價值。至於性能和評估，頁面目前只見方法名稱、論文入口與 demo，未見明確基準分數；較穩妥的做法，是把它視為一條值得追蹤的研究路線，再到論文中查看完整實驗細節。

項目： https://humanaigc.github.io/StreamChar_page/

Categories: 阿里巴巴, 影像處理, 視頻模型

LoomVideo：阿里巴巴 5B 模型挑戰統一影片生成

2026 年 6 月 6 日

LoomVideo 由北京大學與阿里巴巴聯合發布，主打「統一多模態輸入的影片生成與編輯」，把文字、影片、圖片等多種輸入整合到同一個模型。傳統的統一影片模型動輒超過 13B 參數，且為了加入來源影片條件，往往要把所有 token 接在一起，導致序列長度翻倍、self-attention 成本暴增四倍。LoomVideo 的核心定位，就是用更小、更快的設計，達到同等甚至更好的效果。

這個項目基於 MLLM（多模態大語言模型）加 DiT（Diffusion Transformer）的組合，並提出三個關鍵設計：Deepstack Injection 從 MLLM 每一層抽取特徵，再透過 cross-attention 注入對應的 DiT 層；Scale-and-Add Conditioning 把乾淨的來源影片潛在變數按時間步長縮放後直接加到雜訊目標上，免去 token 拼接的額外負擔；Negative Temporal RoPE 為參考圖片指定負的時間索引，讓多圖片條件可以無縫整合。

LoomVideo 目前支援四種任務：文生影片、純文字指令編輯、影片加圖片加文字的指令編輯，以及多張參考圖的條件生成，全部由同一個 5B 模型處理。論文報告在多項基準上取得領先或具競爭力的表現，並宣稱比同級模型快至少 5.41 倍。對於電子商務與時尚場景的影片生成，論文也展示了針對性的優勢。

這個項目適合關注影片生成效率的研究者、影像創作工具開發者，以及需要快速生成短影片內容的團隊。目前模型權重已公開在 Hugging Face 的 MSALab/LoomVideo，程式碼亦同步釋出，有興趣的讀者可以直接到 GitHub 與 Hugging Face 取得資源並測試。

重點摘要：

5B 參數的統一影片生成與編輯模型，定位比 13B+ 同類更輕量。
以 MLLM + DiT 架構為基礎，並提出 Deepstack Injection、Scale-and-Add Conditioning 與 Negative Temporal RoPE 三大設計。
支援文生影片、文字指令編輯、影片加圖片文字編輯，以及多圖片條件生成四種任務。
論文聲稱比同級模型快至少 5.41 倍，並在電商與時尚場景表現突出。
模型與程式碼已公開，方便研究者與開發者快速試用與改進。

GitHub： https://github.com/MSALab-PKU/LoomVideo

項目： https://msalab-pku.github.io/projects/LoomVideo/index.html

Categories: 開源, 阿里巴巴, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 北京大學

Page 5 of 12

« Previous 1 … 3 4 5 6 7 … 12 Next »