InfCam 攝影機 outpaint 控制

InfCam，一個無需深度資訊、攝影機控制的視訊生成框架，能夠實現高姿態保真度。該框架整合了兩個關鍵組件：

架構包含同次引導自注意力層（homography-guided self-attention），輸入源視頻、目標及變換潛在表示與相機嵌入，確保時間對齊與旋轉感知推理。變換模塊處理旋轉後添加平移嵌入，將重投影簡化為相對於無限遠平面的視差估計，提升軌跡忠實度。

透過增強 MultiCamVideo 數據集生成 AugMCV，引入多樣初始姿態與焦距軌跡，解決現有 SynCamVideo 等數據集偏差。

實驗結果表明，在 AugMCV 與 WebVid 數據集上，InfCam 在相同/不同內參情境下，於姿態準確度與視覺保真度皆優於基準，尤其在真實世界數據泛化表現突出。