InfCam 攝影機 outpaint 控制

InfCam,一個無需深度資訊、攝影機控制的視訊生成框架,能夠實現高姿態保真度。該框架整合了兩個關鍵組件:

架構包含同次引導自注意力層(homography-guided self-attention),輸入源視頻、目標及變換潛在表示與相機嵌入,確保時間對齊與旋轉感知推理。 變換模塊處理旋轉後添加平移嵌入,將重投影簡化為相對於無限遠平面的視差估計,提升軌跡忠實度。

透過增強 MultiCamVideo 數據集生成 AugMCV,引入多樣初始姿態與焦距軌跡,解決現有 SynCamVideo 等數據集偏差。

實驗結果表明,在 AugMCV 與 WebVid 數據集上,InfCam 在相同/不同內參情境下,於姿態準確度與視覺保真度皆優於基準,尤其在真實世界數據泛化表現突出。

Categories: 開源, 視頻模型, 視覺模型, 影像模型, 影像處理