VerseCrafter 精準控制鏡頭

VerseCrafter 是一套以 4D 幾何控制驅動的影片擴散模型,目標在單張參考圖上同時掌控相機運動與多目標的三維軌跡,讓生成的影片在視角變化與物體遷移間保持高度一致。讓使用者能夠像操控遊戲或電影一樣,精確控制鏡頭和物體的運動,從而生成逼真的動態影片。

一般的 AI 影片模型通常難以同時掌控鏡頭移動和多個物體的動作,VerseCrafter 透過一種全新的表示法解決這個問題:1.  動態世界模擬:它不只是畫出一連串的畫面,而是先在一個隱藏的 3D 空間中建立場景的基礎結構(例如背景點雲),然後加上時間軸,變成 4D。2.  精準控制:鏡頭:你可以指定鏡頭要怎麼飛行(例如從左邊飛到右邊,或是繞著物體旋轉)。你甚至可以指定畫面中的物體要如何移動、旋轉。

Categories: 香港大學, 騰訊, 影像處理, 視頻模型

RePlan 圖像編輯框架

RePlan 是一個基於指令的圖像編輯框架,專門解決指令-視覺複雜度(IV-Complexity)挑戰,透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略:VLM 規劃器透過逐步推理分解複雜指令,生成邊界框與區域提示;編輯器使用無訓練注意力區域注入機制,支援單次多區域並行編輯,避免迭代 inpainting。

Categories: 開源, 香港中文大學, 香港科技大學, 騰訊, Python, 影像模型, 影像處理, 新聞


Page 2 of 2
1 2