影像處理 – Infer News

PlenopticDreamer – NVidia 解決影片一致性

PlenopticDreamer 主要解決「鏡頭控制生成影片」的不一致問題。這是一個能讓 AI「像無人機一樣繞著物體飛」生成影片的技術。它可以應用在自駕車的模擬環境、機器人的視覺訓練，以及好萊塢等級的虛擬拍攝。

1. Robotics（機器人）：

* 情境模擬：機器人需要理解物體在不同角度下的樣貌。這個技術可以根據單一攝影機的畫面，生成該物體在其他視角的影像，幫助機器人進行視覺導航或物體抓取的訓練。

* 模擬數據生成：為機器視覺系統生成更多樣化的訓練數據。

2. Self-Driving（自駕車）：

* 場景理解：自駕車通常有多個鏡頭。這個技術可以補足盲區，或者將一個鏡頭的畫面轉換成其他鏡頭的視角，幫助車輛更全面地感知周圍環境。

* 未來幀預測：預測道路上物體在下一秒鐘會出現在哪個位置（從不同角度）。

3. 影視製作與 AR/VR：

* 新視角補全：如果拍攝時漏掉了某個角度，可以利用這個技術「憑空生成」該角度的連續影片。

* 重定向（Re-direction）：可以將拍好的影片，根據新的鏡頭軌跡重新渲染（Re-rendering），讓同一段故事可以從不同角度重新看一遍。

Categories: 香港中文大學, NVIDIA, 影像模型, 影像處理, 視覺模型, 視頻模型, 開源

VerseCrafter 精準控制鏡頭

VerseCrafter 是一套以 4D 幾何控制驅動的影片擴散模型，目標在單張參考圖上同時掌控相機運動與多目標的三維軌跡，讓生成的影片在視角變化與物體遷移間保持高度一致。讓使用者能夠像操控遊戲或電影一樣，精確控制鏡頭和物體的運動，從而生成逼真的動態影片。

一般的 AI 影片模型通常難以同時掌控鏡頭移動和多個物體的動作，VerseCrafter 透過一種全新的表示法解決這個問題：1. 動態世界模擬：它不只是畫出一連串的畫面，而是先在一個隱藏的 3D 空間中建立場景的基礎結構（例如背景點雲），然後加上時間軸，變成 4D。2. 精準控制：鏡頭：你可以指定鏡頭要怎麼飛行（例如從左邊飛到右邊，或是繞著物體旋轉）。你甚至可以指定畫面中的物體要如何移動、旋轉。

Categories: 香港大學, 騰訊, 影像處理, 視頻模型

由 ByteDance (字節跳動)提出 ThinkRL‑Edit: Thinking in Reinforcement Learning for Reasoning‑Centric Image Editing「推理導向」圖像編輯，指現有的 RL‑based 編輯方案受限於三個問題：探索空間只在去噪隨機性、獎勵函數的加權不夠公平、以及 VLM 判斷獎勵可能不穩定。作者提出的 ThinkRL‑Edit 框架將視覺推理與影像合成分開，並利用 Chain‑of‑Thought 產生多層次的推理樣本，包含策劃與自省兩個階段，讓模型在實際產生圖像前先評估多種語意假設的可行性。這樣的設計讓探索不再受到去噪過程的束縛，並透過無偏的獎勵策略提升圖像編輯的精確度與一致性。

Categories: 字節跳動, 影像處理

Gen3R 影片資訊直接生成 3D

Gen3R 是一個將基礎重建模型與視訊擴散模型結合的框架，目標是從單張或多張圖片生成包含 RGB 影片與幾何資訊的 3D 場景。如果你對於用影片資訊直接生成 3D 幾何感興趣，這是目前最接近「一鍵產出完整場景」的方案之一。

核心流程是：先把 VGGT 重建模型的 token 包成幾個幾何潛在變數，再用一個 adapter 把這些潛在值推向影片擴散模型的外觀潛在；兩種潛在同時生成，互相對齊後就能一次產出 RGB 影片 plus 完整的 3D 幾何資訊（相機姿態、深度圖、全局點雲）。

實驗顯示在單張或多張圖像條件下都能得到最佳的 3D 場景生成結果，而且透過擴散先驗提升了重建的穩定性。整體上是把重建跟生成模型「緊密」捆綁在一起，而不是分開處理。

Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Watch this video on YouTube

Categories: 字節跳動, 3D, 影像模型, 影像處理, 開源

ProEdit：開源圖片及影片編輯

ProEdit 透過 KV-mix 在注意力層融合源/目標特徵，及 Latents-Shift 擾動潛在空間，實現高保真編輯。支援 FLUX、HunyuanVideo 等模型，同時亦整合 Qwen3-8B 解析自然語言指令。

ProEdit 解決傳統反轉編輯過度依賴源圖的問題，能準確變換主體屬性如姿態、數量、顏色，同時保持背景一致。適用於圖像替換（如老虎變貓、襯衫變毛衣）與影片動態編輯（如紅車變黑車、鹿變牛）。適合 AI 內容創作者、影片後製，plug-and-play 相容 RF-Solver 等工具，在多項基準測試達 SOTA 效能。

ProEdit: Inversion-based Editing From Prompts Done Right

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 影像模型, 影像處理, 視頻模型

SpaceTimePilot 時間軸控制影片生成模型

SpaceTimePilot 是一個把「攝影機運鏡」和「時間軸控制」徹底拆開來玩的視覺生成模型，從一支普通的單眼影片出發，就能同時改變鏡頭路徑和動作節奏，做出 bullet-time、慢動作、倒帶、甚至空間與時間交錯前進這種高自由度效果。過去的 Camera-control V2V 模型（例如 ReCamMaster、Generative Camera Dolly）只能改鏡頭、不能動時間；4D 多視角模型（如 Cat4D、Diffusion4D）雖支援時空條件，但通常只給離散片段，沒辦法連續、細緻地玩時間線。 SpaceTimePilot 最大的賣點，就是讓「鏡頭怎麼走」和「畫面播到第幾秒」變成兩條獨立的控制軌，創作者可以像在 3D 時空中開飛機一樣，自由規劃路線。

為了做到這件事，作者先在 diffusion 裡加了一個專門描述「動畫時間」的 time-embedding 機制，讓模型能精確理解「現在這一幀應該是原影片第幾秒、第幾個動作狀態」；接著用 temporal warping 資料增強，把既有多視角資料集重新時間扭曲，模擬快轉、倒帶、停格等不同節奏，強迫模型學會把「場景動作」和「攝影機移動」拆開學。他們還自建了一個 Cam×Time 合成資料集，對同一個場景做出「攝影機 × 時間」的全格點渲染，總共 10 萬級場景時間組合，給模型完整的時空監督，讓 bullet-time 這種超細膩的時間控制可以穩定、不抖動地跑出來。在推理端，SpaceTimePilot 透過自回歸（autoregressive）推進，把一段段 81 幀的生成片段接起來，不但能長時間探索，也能在多輪生成中維持鏡頭、時間與內容的一致性，對影視特效、互動體驗、AR/VR 內容創作來說，是非常實用的一條未來工作流路線。（劍橋與 Adobe 聯合開發）

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型

GaMO 稀疏視角 3D 重建

GaMO：Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction，是一套專門為「稀疏視角 3D 重建」設計的全新框架，主打關鍵字就是：幾何感知、多視角、Diffusion 外擴（outpainting）、零訓練、超省時間。傳統方法通常會在新相機位上生成人工視角，來補足原始影像的不足，但這樣很容易在多視角之間出現幾何不一致、邊界破碎、甚至幽靈般的重影，同時計算成本也相當驚人。 GaMO 反其道而行，直接「從原本的相機視角往外長」，也就是針對每張輸入影像做視野擴張，保留原始內容不動，只在周邊補齊缺失區域，天然就比較容易維持幾何一致性。

技術上，GaMO 利用多視圖條件化的 diffusion 模型，再配合幾何感知去噪策略，先透過粗略 3D 重建拿到幾何先驗，再在影像層面做多視圖 outpainting，最後用這些擴張後的影像做精緻 3D 重建。這樣的設計有幾個亮點：第一，完全不需要針對特定場景再訓練（zero-shot inference），直接使用現成的多視圖 diffusion 模型即可；第二，在 Replica、ScanNet++ 等資料集上，GaMO 在 PSNR、SSIM、LPIPS 等指標上刷新了現有 SOTA，同時比其它 diffusion 式方法快上約 25 倍，整個流程控制在 10 分鐘內完成。對需要做室內掃描、VR/AR 場景建模、機器人導航環境重建的團隊來說，GaMO 提供了一種更務實、計算友善，又兼顧幾何品質的新選項。