InteractAvatar 互動數字人

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻，同時保持音畫同步（lip‑sync + co‑speech gestures）。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同，我們的模型可以從靜態參考圖像中感知環境，並產生複雜的、文本引導的與物體的交互，同時保持高保真度的唇部同步。

雙流 Diffusion Transformer（DiT）架構：一個分支做「感知與互動規劃」（Perception and Interaction Module, PIM），負責理解圖片裡的物體位置與關係，並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」（Audio‑Interaction Aware Generation Module, AIM），把動作與語音融合成高品質視頻。