Infer News

Qwen Image 2512 ComfyUI : Fix Plastic Skin

Qwen Image 2512 ComfyUI Workflow: Fix Plastic Skin (Better Than Z Turbo)

Watch this video on YouTube

Categories: 阿里巴巴, ComfyUI, 開源

DeepSeek 提出「mHC」架構

https://arxiv.org/pdf/2512.24880

EP121 - DeepSeek又投震撼彈！新提出的「mHC」架構會完全改變 AI 嗎？解讀這篇 CEO 親自挂帥的論文

Watch this video on YouTube

Categories: DeepSeek, 深度學習

ComfyUI 的日轉夜影片工作流

AI SkyReplacement v01

Categories: ComfyUI, 教學

ProEdit：開源圖片及影片編輯

ProEdit 透過 KV-mix 在注意力層融合源/目標特徵，及 Latents-Shift 擾動潛在空間，實現高保真編輯。支援 FLUX、HunyuanVideo 等模型，同時亦整合 Qwen3-8B 解析自然語言指令。

ProEdit 解決傳統反轉編輯過度依賴源圖的問題，能準確變換主體屬性如姿態、數量、顏色，同時保持背景一致。適用於圖像替換（如老虎變貓、襯衫變毛衣）與影片動態編輯（如紅車變黑車、鹿變牛）。適合 AI 內容創作者、影片後製，plug-and-play 相容 RF-Solver 等工具，在多項基準測試達 SOTA 效能。

ProEdit: Inversion-based Editing From Prompts Done Right

Watch this video on YouTube

Categories: 香港大學, 香港中文大學, 影像模型, 影像處理, 視頻模型

SpaceTimePilot 是一個把「攝影機運鏡」和「時間軸控制」徹底拆開來玩的視覺生成模型，從一支普通的單眼影片出發，就能同時改變鏡頭路徑和動作節奏，做出 bullet-time、慢動作、倒帶、甚至空間與時間交錯前進這種高自由度效果。過去的 Camera-control V2V 模型（例如 ReCamMaster、Generative Camera Dolly）只能改鏡頭、不能動時間；4D 多視角模型（如 Cat4D、Diffusion4D）雖支援時空條件，但通常只給離散片段，沒辦法連續、細緻地玩時間線。 SpaceTimePilot 最大的賣點，就是讓「鏡頭怎麼走」和「畫面播到第幾秒」變成兩條獨立的控制軌，創作者可以像在 3D 時空中開飛機一樣，自由規劃路線。

為了做到這件事，作者先在 diffusion 裡加了一個專門描述「動畫時間」的 time-embedding 機制，讓模型能精確理解「現在這一幀應該是原影片第幾秒、第幾個動作狀態」；接著用 temporal warping 資料增強，把既有多視角資料集重新時間扭曲，模擬快轉、倒帶、停格等不同節奏，強迫模型學會把「場景動作」和「攝影機移動」拆開學。他們還自建了一個 Cam×Time 合成資料集，對同一個場景做出「攝影機 × 時間」的全格點渲染，總共 10 萬級場景時間組合，給模型完整的時空監督，讓 bullet-time 這種超細膩的時間控制可以穩定、不抖動地跑出來。在推理端，SpaceTimePilot 透過自回歸（autoregressive）推進，把一段段 81 幀的生成片段接起來，不但能長時間探索，也能在多輪生成中維持鏡頭、時間與內容的一致性，對影視特效、互動體驗、AR/VR 內容創作來說，是非常實用的一條未來工作流路線。（劍橋與 Adobe 聯合開發）

Categories: 影像模型, 影像處理, 視覺模型, 視頻模型

GaMO 稀疏視角 3D 重建

GaMO：Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction，是一套專門為「稀疏視角 3D 重建」設計的全新框架，主打關鍵字就是：幾何感知、多視角、Diffusion 外擴（outpainting）、零訓練、超省時間。傳統方法通常會在新相機位上生成人工視角，來補足原始影像的不足，但這樣很容易在多視角之間出現幾何不一致、邊界破碎、甚至幽靈般的重影，同時計算成本也相當驚人。 GaMO 反其道而行，直接「從原本的相機視角往外長」，也就是針對每張輸入影像做視野擴張，保留原始內容不動，只在周邊補齊缺失區域，天然就比較容易維持幾何一致性。

技術上，GaMO 利用多視圖條件化的 diffusion 模型，再配合幾何感知去噪策略，先透過粗略 3D 重建拿到幾何先驗，再在影像層面做多視圖 outpainting，最後用這些擴張後的影像做精緻 3D 重建。這樣的設計有幾個亮點：第一，完全不需要針對特定場景再訓練（zero-shot inference），直接使用現成的多視圖 diffusion 模型即可；第二，在 Replica、ScanNet++ 等資料集上，GaMO 在 PSNR、SSIM、LPIPS 等指標上刷新了現有 SOTA，同時比其它 diffusion 式方法快上約 25 倍，整個流程控制在 10 分鐘內完成。對需要做室內掃描、VR/AR 場景建模、機器人導航環境重建的團隊來說，GaMO 提供了一種更務實、計算友善，又兼顧幾何品質的新選項。

Categories: 影像模型, 影像處理, 視覺模型, 開源

Nano Banana Json Prompt 教學

The Best Way to Create AI Consistent Characters with JSON Prompts (Nano Banana Pro)

Categories: NanoBanana, 教學

MAI-UI：圖形介面代理。

MAI-UI 是一系列涵蓋各種規模的基礎GUI代理，包括2B、8B、32B和235B-A22B等變體。我們指出了實際部署面臨的四大挑戰：缺乏原生代理-使用者互動、僅依賴UI操作的限制、缺乏實用的部署架構以及在動態環境中的脆弱性。

MAI-UI 採用統一的方法論來解決這些問題：一個自演化的資料管道，用於擴展導航資料以包含使用者互動和 MCP 工具呼叫；一個原生設備-雲端協作系統，用於根據任務狀態路由執行；以及一個具有高級優化的線上強化學習框架，用於擴展平行環境和上下文長度。

Categories: 阿里巴巴, 編程, 開源

WorldWarp 非同步視訊擴散影像模型

為了建立幾何基礎，WorldWarp 維護了一個透過高斯擴散（3DGS）建構的線上三維幾何緩存。透過將歷史內容明確地扭曲到新的視圖中，該快取充當結構支架，確保每個新幀都遵循先前的幾何形狀。然而，靜態扭曲不可避免地會因遮蔽而留下空洞和偽影。

WorldWarp 使用專為「填充和修正」目標設計的時空擴散（ST-Diff）模型來解決這個問題。

WorldWarp 的核心創新在於空間變化的噪音調度：空白區域接收完整的噪音以觸發生成，而扭曲區域接收部分噪音以實現精細化。透過在每個步驟動態更新 3D 緩存，WorldWarp 能夠保持視訊片段之間的一致性。因此，它透過確保 3D 邏輯引導結構，而擴散邏輯完善紋理，從而實現了最先進的保真度。

Categories: 香港理工大學, 影像模型, 影像處理, 開源

Spatia 可更新空間的影片生成

Spatia，一個感知空間記憶的視頻生成框架，它將三維場景點雲顯式地保存為持久的空間記憶。 Spatia 基於此空間記憶迭代生成影片片段，並透過視覺 SLAM 不斷更新它。這種動態-靜態解耦設計增強了整個生成過程中的空間一致性，同時保持了模型生成逼真動態實體的能力。此外，Spatia 支援顯式相機控制和三維感知互動式編輯等應用，為可擴展的、記憶驅動的視訊生成提供了一個基於幾何基礎的框架。

Categories: 香港科技大學, 視頻模型

Page 6 of 65

« Previous 1 … 4 5 6 7 8 … 65 Next »