影像模型 Archives - Page 5 of 10

Utonia – Point Cloud 的單一編碼器

2026 年 3 月 27 日

Utonia 是一個統一的自監督點雲 Transformer 編碼器，目標是「一個編碼器適用於所有點雲域」，也就是在不同感測器與場景（遙感、戶外 LiDAR、室內 RGB‑D、物件級 CAD 模型、單目視頻轉 3D 點雲等）上共享同一個 backbone，讓預訓練特徵能跨域遷移。

Utonia 在大量異構點雲資料上 jointly 預訓練一個單一的 Point Transformer V3 編碼器，不依賴 domain‑specific 的頭或模組，只用一個 shared representation space。

跨域資料混合：
研究中混合了遙感（衛星/航拍）、自駕車用 LiDAR、室內 RGB‑D 掃描、CAD 物件模型、以及從 RGB 影片 lift 上來的點雲，一起放入 masked autoencoding 式的自監督訓練流程。

Categories: 開源, 香港中文大學, 影像模型, 影像處理

InteractAvatar 互動數字人

2026 年 2 月 5 日

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻，同時保持音畫同步（lip‑sync + co‑speech gestures）。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同，我們的模型可以從靜態參考圖像中感知環境，並產生複雜的、文本引導的與物體的交互，同時保持高保真度的唇部同步。

雙流 Diffusion Transformer（DiT）架構：一個分支做「感知與互動規劃」（Perception and Interaction Module, PIM），負責理解圖片裡的物體位置與關係，並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」（Audio‑Interaction Aware Generation Module, AIM），把動作與語音融合成高品質視頻。

Categories: 開源, 騰訊, 影像模型, 影像處理, 數字人, 視頻模型

LongVie 2 – 可控超長影片生成

2026 年 2 月 5 日

可控的超長影片生成是一項基礎但具有挑戰性的任務，因為現有的方法雖然對短片段有效，但由於時間不一致和視覺品質下降等問題而難以擴展。

LongVie 2 的核心設計可確保時間一致性：
1）統一雜訊初始化策略，在各個片段之間保持一致的生成；
2）全域控制訊號歸一化，可在整個視訊的控制空間中強制對齊。為了減輕視覺品質下降，LongVie 2 採用密集（例如深度圖）和稀疏（例如關鍵點）控制訊號，並輔以一種退化感知訓練策略，可以自適應地平衡模態貢獻以保持視覺品質。

LongVie 2 : Multimodal Controllable Ultra-Long Video World Model

Watch this video on YouTube

Categories: 開源, NVIDIA, 多模態模型, 影像模型, 模型, 視頻模型

DreamActor-M2 基於時空上下文動畫

2026 年 2 月 5 日

DreamActor-M2 是一個通用的角色圖像動畫框架，它將運動條件化重新定義為時空上下文學習任務。我們的設計利用了視訊基礎模型固有的生成先驗訊息，同時實現了從原始視訊直接進行無姿態、端到端運動遷移的關鍵演進。這種範式消除了明確姿態估計的需求，使得
DreamActor-M2 能夠在各種複雜場景中實現卓越的泛化能力和高保真度的結果。

Categories: 開源, 字節跳動, 影像模型, 影像處理, 視頻模型

RoVid‑X 號稱是目前最大規模的機器人影片生成開源資料集，約 400 萬 clips，覆蓋 1300+ skills / tasks，解析度達 720p，同時支援多樣機器人形態與多樣文字描述。RoVid‑X 主要解決現有 SOTA video diffusion / transformer 模型，在一般影片生成指標上不錯，但面對需要「因果一致、物理連貫」的機器人操作影片時，常出現物理錯誤、目標物體消失/瞬移、關節極限違反等問題。

RBench 旨在評估面向機器人的視訊生成的表現。它評估任務層面的正確性和視覺保真度。雖然RBench為識別這些缺陷提供了必要的視角，但要實現物理上的真實性，還需要超越評估層面，解決高品質訓練資料嚴重短缺的問題。基於這些，他們引入了一個改進的四階段數據管道，由此誕生了 RoVid-X——迄今為止最大的開源機器人視頻生成數據集，涵蓋數千個任務，並富含全面的物理屬性標註。這項協同的評估和資料生態系統為視訊模型的嚴格評估和可擴展訓練奠定了堅實的基礎，加速了具身人工智慧向通用智慧的演進。

Categories: 開源, 影像模型, 視頻模型, Robotic

2026 多個影音工具更新

2026 年 1 月 16 日

影片主要在介紹幾個最新的生成影音工具與功能，包括 PixVerse R1 即時「世界模型」視頻、Flux 2 Klein 圖像模型、Runway 的 Story Panels、Google Veo 3.1 更新，以及開源的 Wonder Zoom 專案。

Real-Time AI Video is Finally Here (And It’s Insane!)

Watch this video on YouTube

Categories: 開源, 影像模型, 影像處理, 新聞

VINO 多模態模型對齊提示生成圖像與影片

2026 年 1 月 11 日

VINO 是個統一的視覺生成工具，能同時處理圖像和影片的創作與編輯，無需針對每種任務去找不同的模型。它的核心架構是把視覺語言模型和多模態擴散轉換器（MMDiT）結合起來，讓文字、參考圖片或影片都能以同一套條件流動的方式被傳遞給擴散過程。

這裡的「可學習查詢 token」扮演的角色是把使用者的簡短指令轉化成模型能理解的細節向量，並在訓練時一起調整，讓指令更精確、模型更穩定。另一個關鍵在於把參考影像或影片所產生的特徵與它在 latent 空間的對應向量用同樣的開始與結束標記包起來，這樣模型就能在語意層面和潛在層面都把同一個參考資源針對地辨識出來，減少身份混淆或屬性遺漏的問題。

Categories: 開源, 影像模型, 影像處理, 視覺模型, 視頻模型