視頻模型 – Infer News

InteractAvatar 互動數字人

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻，同時保持音畫同步（lip‑sync + co‑speech gestures）。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同，我們的模型可以從靜態參考圖像中感知環境，並產生複雜的、文本引導的與物體的交互，同時保持高保真度的唇部同步。

雙流 Diffusion Transformer（DiT）架構：一個分支做「感知與互動規劃」（Perception and Interaction Module, PIM），負責理解圖片裡的物體位置與關係，並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」（Audio‑Interaction Aware Generation Module, AIM），把動作與語音融合成高品質視頻。

Categories: 騰訊, 影像模型, 影像處理, 數字人, 視頻模型, 開源

LongVie 2 – 可控超長影片生成

可控的超長影片生成是一項基礎但具有挑戰性的任務，因為現有的方法雖然對短片段有效，但由於時間不一致和視覺品質下降等問題而難以擴展。

LongVie 2 的核心設計可確保時間一致性：
1）統一雜訊初始化策略，在各個片段之間保持一致的生成；
2）全域控制訊號歸一化，可在整個視訊的控制空間中強制對齊。為了減輕視覺品質下降，LongVie 2 採用密集（例如深度圖）和稀疏（例如關鍵點）控制訊號，並輔以一種退化感知訓練策略，可以自適應地平衡模態貢獻以保持視覺品質。

LongVie 2 : Multimodal Controllable Ultra-Long Video World Model

Watch this video on YouTube

Categories: NVIDIA, 多模態模型, 影像模型, 模型, 視頻模型, 開源

DreamActor-M2 基於時空上下文動畫

DreamActor-M2 是一個通用的角色圖像動畫框架，它將運動條件化重新定義為時空上下文學習任務。我們的設計利用了視訊基礎模型固有的生成先驗訊息，同時實現了從原始視訊直接進行無姿態、端到端運動遷移的關鍵演進。這種範式消除了明確姿態估計的需求，使得
DreamActor-M2 能夠在各種複雜場景中實現卓越的泛化能力和高保真度的結果。

Categories: 字節跳動, 影像模型, 影像處理, 視頻模型, 開源

LingBot-world 高保真世界模型

LingBot-World 是一個專為交互式世界模型設計的開源框架。其核心 LingBot-World-Base 致力於提供高保真模擬與精准控制、且邏輯一致的模擬環境。該模型由一個可擴展數據引擎（Scalable Data Engine）驅動，通過從大規模遊戲環境中學習物理規律與因果關係，超越了傳統的被動式視頻合成，實現了與生成世界的交互。

LingBot-World 告別了隨機的“幻覺”式生成。它支持精細化的、由動作驅動的生成（action-conditioned generation），能夠精確響應用戶指令，渲染出高質量且符合物理真實感的動態場景。

Categories: 視頻模型, 開源, 世界模型

RoVid‑X 號稱是目前最大規模的機器人影片生成開源資料集，約 400 萬 clips，覆蓋 1300+ skills / tasks，解析度達 720p，同時支援多樣機器人形態與多樣文字描述。RoVid‑X 主要解決現有 SOTA video diffusion / transformer 模型，在一般影片生成指標上不錯，但面對需要「因果一致、物理連貫」的機器人操作影片時，常出現物理錯誤、目標物體消失/瞬移、關節極限違反等問題。

RBench 旨在評估面向機器人的視訊生成的表現。它評估任務層面的正確性和視覺保真度。雖然RBench為識別這些缺陷提供了必要的視角，但要實現物理上的真實性，還需要超越評估層面，解決高品質訓練資料嚴重短缺的問題。基於這些，他們引入了一個改進的四階段數據管道，由此誕生了 RoVid-X——迄今為止最大的開源機器人視頻生成數據集，涵蓋數千個任務，並富含全面的物理屬性標註。這項協同的評估和資料生態系統為視訊模型的嚴格評估和可擴展訓練奠定了堅實的基礎，加速了具身人工智慧向通用智慧的演進。

Categories: 影像模型, 視頻模型, 開源, Robotic

MoCha 成角色替換

MoCha 是一個專注於視頻角色替換的開源框架，旨在只需要單一參考即可完成角色替換，且不依賴任何結構化指導（如骨骼、深度圖或逐幀分割）。傳統的重建式方法往往必須提供完整的逐幀遮罩與額外的結構資訊，面對遮擋、複雜姿態或多角色互動時容易產生視覺雜訊與時間不穩定，而 MoCha 的設計則把這些限制全部排除，取而代之的是把不同條件統一為單一的 token 流，並通過條件感知的 RoPE（Rotary Positional Embedding）結合多參考圖像，支撐可變長度的影片生成。

Categories: 數字人, 視頻模型, 開源

VINO 多模態模型對齊提示生成圖像與影片

VINO 是個統一的視覺生成工具，能同時處理圖像和影片的創作與編輯，無需針對每種任務去找不同的模型。它的核心架構是把視覺語言模型和多模態擴散轉換器（MMDiT）結合起來，讓文字、參考圖片或影片都能以同一套條件流動的方式被傳遞給擴散過程。

這裡的「可學習查詢 token」扮演的角色是把使用者的簡短指令轉化成模型能理解的細節向量，並在訓練時一起調整，讓指令更精確、模型更穩定。另一個關鍵在於把參考影像或影片所產生的特徵與它在 latent 空間的對應向量用同樣的開始與結束標記包起來，這樣模型就能在語意層面和潛在層面都把同一個參考資源針對地辨識出來，減少身份混淆或屬性遺漏的問題。

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

NeoVerse 4D 世界模型

NeoVerse 是一種強大的 4D 世界模型，專門設計來處理現實環境中的單眼視頻，從而實現多種應用。這個模型的核心優勢在於它能夠進行無姿態限制的前饋 4D 重建，這意味著它可以從普通的單眼視頻中直接生成高質量的 4D 場景，而不需要複雜的多視角數據或預處理步驟。

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源, 世界模型

DreamID-V 開源換臉

DreamID-V 是一個專門為高保真度臉部交換設計的技術，它旨在縮短圖像到視頻之間的差距。這技術在處理各種挑戰性場景時表現出色，包括頭髮遮擋、複雜光照、多樣化的種族和顯著的臉型變化。DreamID-V 的應用範圍廣泛，可以應用於娛樂、廣告和電影製作等領域，考慮到了實際應用中的多種需求和挑戰。提供更加逼真的臉部交換效果。

對於使用者來說，DreamID-V 提供了單 GPU 和多 GPU 推理的選項，並且有詳細的安裝和使用指南。使用者需要準備好相應的模型文件和依賴庫，然後根據提供的腳本進行操作。此外，DreamID-V 還支持不同的模型版本，例如 DreamID-V-Wan-1.3B-DWPose，這進一步提升了姿態檢測的穩定性和魯棒性。

Categories: 字節跳動, 數字人, 視頻模型, 開源

PlenopticDreamer – NVidia 解決影片一致性

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練，以及好萊塢等級的虛擬拍攝。

1. Robotics（機器人）：

* 情境模擬：機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面，生成該物體在其他視角的影像，幫助機器人進行視覺導航或物體抓取的訓練。

* 模擬數據生成：為機器視覺系統生成更多樣化的訓練數據。

2. Self-Driving（自駕車）：

* 場景理解：自駕車通常有多個鏡頭。這個技術可以補足盲區，或者將一個鏡頭的畫面轉換成其他鏡頭的視角，幫助車輛更全面地感知周圍環境。

* 未來幀預測：預測道路上物體在下一秒鐘會出現在哪個位置（從不同角度）。

3. 影視製作與 AR/VR：

* 新視角補全：如果拍攝時漏掉了某個角度，可以利用這個技術「憑空生成」該角度的連續影片。

* 重定向（Re-direction）：可以將拍好的影片，根據新的鏡頭軌跡重新渲染（Re-rendering），讓同一段故事可以從不同角度重新看一遍。

Categories: 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

Page 1 of 5

1 2 3 … 5 Next »