PlenopticDreamer – NVidia 解決影片一致性

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練,以及好萊塢等級的虛擬拍攝。

1.  Robotics(機器人):

    *   情境模擬: 機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面,生成該物體在其他視角的影像,幫助機器人進行視覺導航或物體抓取的訓練。

    *   模擬數據生成: 為機器視覺系統生成更多樣化的訓練數據。

2.  Self-Driving(自駕車):

    *   場景理解: 自駕車通常有多個鏡頭。這個技術可以補足盲區,或者將一個鏡頭的畫面轉換成其他鏡頭的視角,幫助車輛更全面地感知周圍環境。

    *   未來幀預測: 預測道路上物體在下一秒鐘會出現在哪個位置(從不同角度)。

3.  影視製作與 AR/VR:

    *   新視角補全: 如果拍攝時漏掉了某個角度,可以利用這個技術「憑空生成」該角度的連續影片。

    *   重定向(Re-direction): 可以將拍好的影片,根據新的鏡頭軌跡重新渲染(Re-rendering),讓同一段故事可以從不同角度重新看一遍。

Categories: 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

VerseCrafter 精準控制鏡頭

VerseCrafter 是一套以 4D 幾何控制驅動的影片擴散模型,目標在單張參考圖上同時掌控相機運動與多目標的三維軌跡,讓生成的影片在視角變化與物體遷移間保持高度一致。讓使用者能夠像操控遊戲或電影一樣,精確控制鏡頭和物體的運動,從而生成逼真的動態影片。

一般的 AI 影片模型通常難以同時掌控鏡頭移動和多個物體的動作,VerseCrafter 透過一種全新的表示法解決這個問題:1.  動態世界模擬:它不只是畫出一連串的畫面,而是先在一個隱藏的 3D 空間中建立場景的基礎結構(例如背景點雲),然後加上時間軸,變成 4D。2.  精準控制:鏡頭:你可以指定鏡頭要怎麼飛行(例如從左邊飛到右邊,或是繞著物體旋轉)。你甚至可以指定畫面中的物體要如何移動、旋轉。

Categories: 香港大學, 騰訊, 影像處理, 視頻模型

LTX-2 影音片生成模型


LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型,整合影片與音訊的同步生成功能,具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數,另外提供 fp8、nvfp4 等壓縮量化版本,以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供,代碼與模型權重均在 Hugging Face 上公開,使用 ltx-2-community-license-agreement 授權,屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫,亦支援 ComfyUI 整合,適合多階段上采樣流程。

The First Open Source Audio-Video Model — LTX-2
New #1 open-source AI video generator is here! Fast + 4K + audio + low vram
Categories: 聲效, 視頻模型, 開源

ProEdit:開源圖片及影片編輯

ProEdit 透過 KV-mix 在注意力層融合源/目標特徵,及 Latents-Shift 擾動潛在空間,實現高保真編輯。 支援 FLUX、HunyuanVideo 等模型,同時亦整合 Qwen3-8B 解析自然語言指令。

ProEdit 解決傳統反轉編輯過度依賴源圖的問題,能準確變換主體屬性如姿態、數量、顏色,同時保持背景一致。 適用於圖像替換(如老虎變貓、襯衫變毛衣)與影片動態編輯(如紅車變黑車、鹿變牛)。適合 AI 內容創作者、影片後製,plug-and-play 相容 RF-Solver 等工具,在多項基準測試達 SOTA 效能。

ProEdit: Inversion-based Editing From Prompts Done Right

Categories: 香港大學, 香港中文大學, 影像模型, 影像處理, 視頻模型

SpaceTimePilot 時間軸控制影片生成模型

SpaceTimePilot 是一個把「攝影機運鏡」和「時間軸控制」徹底拆開來玩的視覺生成模型,從一支普通的單眼影片出發,就能同時改變鏡頭路徑和動作節奏,做出 bullet-time、慢動作、倒帶、甚至空間與時間交錯前進這種高自由度效果。 過去的 Camera-control V2V 模型(例如 ReCamMaster、Generative Camera Dolly)只能改鏡頭、不能動時間;4D 多視角模型(如 Cat4D、Diffusion4D)雖支援時空條件,但通常只給離散片段,沒辦法連續、細緻地玩時間線。 SpaceTimePilot 最大的賣點,就是讓「鏡頭怎麼走」和「畫面播到第幾秒」變成兩條獨立的控制軌,創作者可以像在 3D 時空中開飛機一樣,自由規劃路線。

為了做到這件事,作者先在 diffusion 裡加了一個專門描述「動畫時間」的 time-embedding 機制,讓模型能精確理解「現在這一幀應該是原影片第幾秒、第幾個動作狀態」;接著用 temporal warping 資料增強,把既有多視角資料集重新時間扭曲,模擬快轉、倒帶、停格等不同節奏,強迫模型學會把「場景動作」和「攝影機移動」拆開學。 他們還自建了一個 Cam×Time 合成資料集,對同一個場景做出「攝影機 × 時間」的全格點渲染,總共 10 萬級場景時間組合,給模型完整的時空監督,讓 bullet-time 這種超細膩的時間控制可以穩定、不抖動地跑出來。 在推理端,SpaceTimePilot 透過自回歸(autoregressive)推進,把一段段 81 幀的生成片段接起來,不但能長時間探索,也能在多輪生成中維持鏡頭、時間與內容的一致性,對影視特效、互動體驗、AR/VR 內容創作來說,是非常實用的一條未來工作流路線。(劍橋 與 Adobe 聯合開發)

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型

Spatia 可更新空間的影片生成

Spatia,一個感知空間記憶的視頻生成框架,它將三維場景點雲顯式地保存為持久的空間記憶。 Spatia 基於此空間記憶迭代生成影片片段,並透過視覺 SLAM 不斷更新它。這種動態-靜態解耦設計增強了整個生成過程中的空間一致性,同時保持了模型生成逼真動態實體的能力。此外,Spatia 支援顯式相機控制和三維感知互動式編輯等應用,為可擴展的、記憶驅動的視訊生成提供了一個基於幾何基礎的框架。

Categories: 香港科技大學, 視頻模型


InfCam 攝影機 outpaint 控制

InfCam,一個無需深度資訊、攝影機控制的視訊生成框架,能夠實現高姿態保真度。該框架整合了兩個關鍵組件:

架構包含同次引導自注意力層(homography-guided self-attention),輸入源視頻、目標及變換潛在表示與相機嵌入,確保時間對齊與旋轉感知推理。 變換模塊處理旋轉後添加平移嵌入,將重投影簡化為相對於無限遠平面的視差估計,提升軌跡忠實度。

透過增強 MultiCamVideo 數據集生成 AugMCV,引入多樣初始姿態與焦距軌跡,解決現有 SynCamVideo 等數據集偏差。

實驗結果表明,在 AugMCV 與 WebVid 數據集上,InfCam 在相同/不同內參情境下,於姿態準確度與視覺保真度皆優於基準,尤其在真實世界數據泛化表現突出。

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

VChain 推理時間視覺思維鏈

近期的影片生成模型已能產生流暢且具視覺吸引力的影片片段,但在結合複雜動態與連貫的事件因果上仍然面臨挑戰。如何準確建模隨時間變化的視覺結果與狀態,依然是核心難題。

相對而言,大型語言與多模態模型(如 GPT-4o)展現出強大的視覺狀態推理與未來預測能力。為了結合這些優勢,VChain 是一種新穎的「推理時間視覺思維鏈」框架。VChain 將多模態模型的視覺推理信號,注入影片生成過程中,以增強生成模型的推理一致性。

具體而言,VChain 包含一個專用管線,利用大型多模態模型生成一組稀疏的關鍵幀作為事件快照,並在這些關鍵時刻指導預訓練影片生成器進行稀疏推理時間調整。這種設計使調整過程高效、開銷極低,且無需密集監督。

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
Categories: 視頻模型, 開源

Wan-Animate:統一角色動畫及整體替換

Wan-Animate,一個用於角色動畫和替換的統一框架。給定一張角色圖像和一段參考視頻,Wan-Animate 可以透過精確複製視頻中角色的表情和動作來為角色製作動畫,從而產生高保真度的角色視頻。或者,它可以將動畫角色整合到參考影片中替換原始角色,複製場景的光線和色調,實現與環境的無縫融合。

Categories: 阿里巴巴, 視頻模型, 開源

Page 1 of 4
1 2 3 4