ProEdit:開源圖片及影片編輯

ProEdit 透過 KV-mix 在注意力層融合源/目標特徵,及 Latents-Shift 擾動潛在空間,實現高保真編輯。 支援 FLUX、HunyuanVideo 等模型,同時亦整合 Qwen3-8B 解析自然語言指令。

ProEdit 解決傳統反轉編輯過度依賴源圖的問題,能準確變換主體屬性如姿態、數量、顏色,同時保持背景一致。 適用於圖像替換(如老虎變貓、襯衫變毛衣)與影片動態編輯(如紅車變黑車、鹿變牛)。適合 AI 內容創作者、影片後製,plug-and-play 相容 RF-Solver 等工具,在多項基準測試達 SOTA 效能。

ProEdit: Inversion-based Editing From Prompts Done Right

Categories: 香港大學, 香港中文大學, 視頻模型, 影像模型, 影像處理

SpaceTimePilot 時間軸控制影片生成模型

SpaceTimePilot 是一個把「攝影機運鏡」和「時間軸控制」徹底拆開來玩的視覺生成模型,從一支普通的單眼影片出發,就能同時改變鏡頭路徑和動作節奏,做出 bullet-time、慢動作、倒帶、甚至空間與時間交錯前進這種高自由度效果。 過去的 Camera-control V2V 模型(例如 ReCamMaster、Generative Camera Dolly)只能改鏡頭、不能動時間;4D 多視角模型(如 Cat4D、Diffusion4D)雖支援時空條件,但通常只給離散片段,沒辦法連續、細緻地玩時間線。 SpaceTimePilot 最大的賣點,就是讓「鏡頭怎麼走」和「畫面播到第幾秒」變成兩條獨立的控制軌,創作者可以像在 3D 時空中開飛機一樣,自由規劃路線。

為了做到這件事,作者先在 diffusion 裡加了一個專門描述「動畫時間」的 time-embedding 機制,讓模型能精確理解「現在這一幀應該是原影片第幾秒、第幾個動作狀態」;接著用 temporal warping 資料增強,把既有多視角資料集重新時間扭曲,模擬快轉、倒帶、停格等不同節奏,強迫模型學會把「場景動作」和「攝影機移動」拆開學。 他們還自建了一個 Cam×Time 合成資料集,對同一個場景做出「攝影機 × 時間」的全格點渲染,總共 10 萬級場景時間組合,給模型完整的時空監督,讓 bullet-time 這種超細膩的時間控制可以穩定、不抖動地跑出來。 在推理端,SpaceTimePilot 透過自回歸(autoregressive)推進,把一段段 81 幀的生成片段接起來,不但能長時間探索,也能在多輪生成中維持鏡頭、時間與內容的一致性,對影視特效、互動體驗、AR/VR 內容創作來說,是非常實用的一條未來工作流路線。(劍橋 與 Adobe 聯合開發)

Categories: 視頻模型, 視覺模型, 影像模型, 影像處理

GaMO 稀疏視角 3D 重建

GaMO:Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction,是一套專門為「稀疏視角 3D 重建」設計的全新框架,主打關鍵字就是:幾何感知、多視角、Diffusion 外擴(outpainting)、零訓練、超省時間。傳統方法通常會在新相機位上生成人工視角,來補足原始影像的不足,但這樣很容易在多視角之間出現幾何不一致、邊界破碎、甚至幽靈般的重影,同時計算成本也相當驚人。 GaMO 反其道而行,直接「從原本的相機視角往外長」,也就是針對每張輸入影像做視野擴張,保留原始內容不動,只在周邊補齊缺失區域,天然就比較容易維持幾何一致性。

技術上,GaMO 利用多視圖條件化的 diffusion 模型,再配合幾何感知去噪策略,先透過粗略 3D 重建拿到幾何先驗,再在影像層面做多視圖 outpainting,最後用這些擴張後的影像做精緻 3D 重建。 這樣的設計有幾個亮點:第一,完全不需要針對特定場景再訓練(zero-shot inference),直接使用現成的多視圖 diffusion 模型即可;第二,在 Replica、ScanNet++ 等資料集上,GaMO 在 PSNR、SSIM、LPIPS 等指標上刷新了現有 SOTA,同時比其它 diffusion 式方法快上約 25 倍,整個流程控制在 10 分鐘內完成。 對需要做室內掃描、VR/AR 場景建模、機器人導航環境重建的團隊來說,GaMO 提供了一種更務實、計算友善,又兼顧幾何品質的新選項。

Categories: 開源, 視覺模型, 影像模型, 影像處理

WorldWarp 非同步視訊擴散影像模型

為了建立幾何基礎,WorldWarp 維護了一個透過高斯擴散(3DGS)建構的線上三維幾何緩存。透過將歷史內容明確地扭曲到新的視圖中,該快取充當結構支架,確保每個新幀都遵循先前的幾何形狀。然而,靜態扭曲不可避免地會因遮蔽而留下空洞和偽影。

WorldWarp 使用專為「填充和修正」目標設計的時空擴散(ST-Diff)模型來解決這個問題。

WorldWarp 的核心創新在於空間變化的噪音調度:空白區域接收完整的噪音以觸發生成,而扭曲區域接收部分噪音以實現精細化。透過在每個步驟動態更新 3D 緩存,WorldWarp 能夠保持視訊片段之間的一致性。因此,它透過確保 3D 邏輯引導結構,而擴散邏輯完善紋理,從而實現了最先進的保真度。

Categories: 香港理工大學, 開源, 影像模型, 影像處理



InfCam 攝影機 outpaint 控制

InfCam,一個無需深度資訊、攝影機控制的視訊生成框架,能夠實現高姿態保真度。該框架整合了兩個關鍵組件:

架構包含同次引導自注意力層(homography-guided self-attention),輸入源視頻、目標及變換潛在表示與相機嵌入,確保時間對齊與旋轉感知推理。 變換模塊處理旋轉後添加平移嵌入,將重投影簡化為相對於無限遠平面的視差估計,提升軌跡忠實度。

透過增強 MultiCamVideo 數據集生成 AugMCV,引入多樣初始姿態與焦距軌跡,解決現有 SynCamVideo 等數據集偏差。

實驗結果表明,在 AugMCV 與 WebVid 數據集上,InfCam 在相同/不同內參情境下,於姿態準確度與視覺保真度皆優於基準,尤其在真實世界數據泛化表現突出。

Categories: 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

RePlan 圖像編輯框架

RePlan 是一個基於指令的圖像編輯框架,專門解決指令-視覺複雜度(IV-Complexity)挑戰,透過視覺語言規劃器與擴散編輯器結合實現精準區域編輯。

框架採用「規劃-執行」策略:VLM 規劃器透過逐步推理分解複雜指令,生成邊界框與區域提示;編輯器使用無訓練注意力區域注入機制,支援單次多區域並行編輯,避免迭代 inpainting。

Categories: 香港中文大學, 香港科技大學, 開源, 騰訊, 影像模型, 影像處理, Python, 新聞



Page 1 of 10
1 2 3 10