OmniDirector：免配對數據的多鏡頭運鏡克隆技術

OmniDirector 由清華大學（Yu-Shen Liu 為北京清華大學團隊）與 Kling Team（快手科技）的研究團隊，共同開發，成員包括 Jiwen Liu、Shujuan Li、Zhixue Fang 等人，團隊來自多個機構，橫跨學術界與業界。研究團隊提出一種無需交叉配對數據的通用多鏡頭相機克隆方法，解決從參考影片中複製運鏡來驅動靜態圖像的難題。

傳統相機控制方法往往依賴大量成對數據進行訓練，而 OmniDirector 的核心創新在於提出「相機網格」（camera grid）表示法。將參考影片的相機姿態渲染為三維空間中的運動軌跡，形成統一的網格表示。配合階層式提示詞擴展代理（hierarchical prompt expansion agent），把多模態控制信號整合成協調的指令。

使用時，使用者只需提供一張源圖像和一段參考影片，OmniDirector 便能克隆其中的運鏡動作，生成動態影片。多鏡頭場景下，新方法支援鏡頭之間的連貫過渡與一致的內容呈現，保持原始的視覺語言。特殊運鏡方面，涵蓋希區柯克式變焦、子彈時間與鏡頭畸變效果，適用的場景類型包括人像、動物、建築及 AIGC 內容等。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Watch this video on YouTube

OmniDirector 適合從事影片創作、動畫製作或需要快速生成動態素材的內容創作者，以及研究相機控制技術的開發者。經過與其他頂尖相機控制方法的對比，新方法在控制穩定性與物件形變方面表現出色。

重點摘要：
– 核心創新為「相機網格」表示法，免依賴交叉配對數據
– 支援極端運鏡、多鏡頭連貫過渡與特殊相機效果
– 場景泛化能力強，涵蓋人像、動物、建築及 AIGC 內容
– 開源提供論文與程式碼，方便研究與應用

目前 github.com/lisj575/OmniDirector 這個倉庫是空的，沒有 source code 或 model 。

項目： https://ymlinfeng.github.io/OmniDirector.github.io/