騰訊 – Infer News

InteractAvatar 互動數字人

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻，同時保持音畫同步（lip‑sync + co‑speech gestures）。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同，我們的模型可以從靜態參考圖像中感知環境，並產生複雜的、文本引導的與物體的交互，同時保持高保真度的唇部同步。

雙流 Diffusion Transformer（DiT）架構：一個分支做「感知與互動規劃」（Perception and Interaction Module, PIM），負責理解圖片裡的物體位置與關係，並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」（Audio‑Interaction Aware Generation Module, AIM），把動作與語音融合成高品質視頻。

Categories: 騰訊, 影像模型, 影像處理, 數字人, 視頻模型, 開源

VerseCrafter 精準控制鏡頭

VerseCrafter 是一套以 4D 幾何控制驅動的影片擴散模型，目標在單張參考圖上同時掌控相機運動與多目標的三維軌跡，讓生成的影片在視角變化與物體遷移間保持高度一致。讓使用者能夠像操控遊戲或電影一樣，精確控制鏡頭和物體的運動，從而生成逼真的動態影片。

一般的 AI 影片模型通常難以同時掌控鏡頭移動和多個物體的動作，VerseCrafter 透過一種全新的表示法解決這個問題：1. 動態世界模擬：它不只是畫出一連串的畫面，而是先在一個隱藏的 3D 空間中建立場景的基礎結構（例如背景點雲），然後加上時間軸，變成 4D。2. 精準控制：鏡頭：你可以指定鏡頭要怎麼飛行（例如從左邊飛到右邊，或是繞著物體旋轉）。你甚至可以指定畫面中的物體要如何移動、旋轉。