LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型,整合影片與音訊的同步生成功能,具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數,另外提供 fp8、nvfp4 等壓縮量化版本,以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供,代碼與模型權重均在 Hugging Face 上公開,使用 ltx-2-community-license-agreement 授權,屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫,亦支援 ComfyUI 整合,適合多階段上采樣流程。
MiniMax-M2.1 專為程式碼生成的 SOTA 大型語言模型

MiniMax-M2.1 是 MiniMax 團隊專為程式碼生成、工具呼叫、指令追蹤與長跨度規劃打造的 SOTA 大型語言模型,已全量釋出並以 Modified‑MIT 授權開源。模型重點在於提升多語言程式開發的穩定性與效率,讓開發者可以直接拿來建構自動化的軟體開發流水線或多步驟辦公室工作流程。
在各類公開基準測試中,MiniMax-M2.1 在 SWE‑bench Verified、Multi‑SWE‑bench、VIBE(全端應用開發)等指標上,顯著超越前代 M2,並與 Claude Sonnet 4.5、Claude Opus 4.5 相較不相上下,甚至在 VIBE‑Web、VIBE‑Android 等子指標上取得更佳分數,顯示出完整的全端開發能力。
模型支援多種主流推理引擎,包括 SGLang、vLLM、Transformers 以及其他推理服務,並提供 fp8/int8 量化以減少算力需求。實務上,建議使用四張 A100 80 GB 或相當算力的 GPU 來跑原始模型,若需要更輕量化可選擇量化版本。
ThinkRL‑Edit 視覺推理與影像合成框架
由 ByteDance (字節跳動)提出 ThinkRL‑Edit: Thinking in Reinforcement Learning for Reasoning‑Centric Image Editing「推理導向」圖像編輯,指現有的 RL‑based 編輯方案受限於三個問題:探索空間只在去噪隨機性、獎勵函數的加權不夠公平、以及 VLM 判斷獎勵可能不穩定。作者提出的 ThinkRL‑Edit 框架將視覺推理與影像合成分開,並利用 Chain‑of‑Thought 產生多層次的推理樣本,包含策劃與自省兩個階段,讓模型在實際產生圖像前先評估多種語意假設的可行性。這樣的設計讓探索不再受到去噪過程的束縛,並透過無偏的獎勵策略提升圖像編輯的精確度與一致性。

Gen3R 影片資訊直接生成 3D
Gen3R 是一個將基礎重建模型與視訊擴散模型結合的框架,目標是從單張或多張圖片生成包含 RGB 影片與幾何資訊的 3D 場景。如果你對於用影片資訊直接生成 3D 幾何感興趣,這是目前最接近「一鍵產出完整場景」的方案之一。
核心流程是:先把 VGGT 重建模型的 token 包成幾個幾何潛在變數,再用一個 adapter 把這些潛在值推向影片擴散模型的外觀潛在;兩種潛在同時生成,互相對齊後就能一次產出 RGB 影片 plus 完整的 3D 幾何資訊(相機姿態、深度圖、全局點雲)。
實驗顯示在單張或多張圖像條件下都能得到最佳的 3D 場景生成結果,而且透過擴散先驗提升了重建的穩定性。整體上是把重建跟生成模型「緊密」捆綁在一起,而不是分開處理。
CHORD 框架作為人類或機器人操作介面
CHORD 是一套通用的生成式流程,能直接從普通的 2D 影片畫面中抽取隱含的拉格朗日運動資訊,進而合成各式各樣的 4D 動態場景。這套方法不依賴任何類別專屬的先驗或結構標註,也不需要龐大的標註資料集,只要把影片送入分配式蒸餾流程,就能把 2D 影像裡的運動資訊轉換成 3D 物體的時間軸運動軌跡。如此得到的資訊既適用於單一物體,也能支援多物體之間的互動,讓模型在不限定物件類別的情況下,自動產生多層次、複雜的動態場景。
實驗顯示 CHORD 能快速生成從玩具積木、運動部件到機器人操作等不同情境的 4D 效果,且在視覺品質和多樣性上相較於既有的規則導向或大規模資料訓練方法更具優勢。同時,這套框架也能直接提供給人類或機器人操作介面,協助後續的實體模擬與控制。整體而言,CHORD 以低成本、無需大量標註的方式,讓生成式 AI 能更廣泛地應用於真實世界的 4D 動態創作上。
Qwen Image 2512 ComfyUI : Fix Plastic Skin
DeepSeek 提出「mHC」架構
https://arxiv.org/pdf/2512.24880
ComfyUI 的日轉夜影片工作流
ProEdit:開源圖片及影片編輯
ProEdit 透過 KV-mix 在注意力層融合源/目標特徵,及 Latents-Shift 擾動潛在空間,實現高保真編輯。 支援 FLUX、HunyuanVideo 等模型,同時亦整合 Qwen3-8B 解析自然語言指令。
ProEdit 解決傳統反轉編輯過度依賴源圖的問題,能準確變換主體屬性如姿態、數量、顏色,同時保持背景一致。 適用於圖像替換(如老虎變貓、襯衫變毛衣)與影片動態編輯(如紅車變黑車、鹿變牛)。適合 AI 內容創作者、影片後製,plug-and-play 相容 RF-Solver 等工具,在多項基準測試達 SOTA 效能。
SpaceTimePilot 時間軸控制影片生成模型
SpaceTimePilot 是一個把「攝影機運鏡」和「時間軸控制」徹底拆開來玩的視覺生成模型,從一支普通的單眼影片出發,就能同時改變鏡頭路徑和動作節奏,做出 bullet-time、慢動作、倒帶、甚至空間與時間交錯前進這種高自由度效果。 過去的 Camera-control V2V 模型(例如 ReCamMaster、Generative Camera Dolly)只能改鏡頭、不能動時間;4D 多視角模型(如 Cat4D、Diffusion4D)雖支援時空條件,但通常只給離散片段,沒辦法連續、細緻地玩時間線。 SpaceTimePilot 最大的賣點,就是讓「鏡頭怎麼走」和「畫面播到第幾秒」變成兩條獨立的控制軌,創作者可以像在 3D 時空中開飛機一樣,自由規劃路線。
為了做到這件事,作者先在 diffusion 裡加了一個專門描述「動畫時間」的 time-embedding 機制,讓模型能精確理解「現在這一幀應該是原影片第幾秒、第幾個動作狀態」;接著用 temporal warping 資料增強,把既有多視角資料集重新時間扭曲,模擬快轉、倒帶、停格等不同節奏,強迫模型學會把「場景動作」和「攝影機移動」拆開學。 他們還自建了一個 Cam×Time 合成資料集,對同一個場景做出「攝影機 × 時間」的全格點渲染,總共 10 萬級場景時間組合,給模型完整的時空監督,讓 bullet-time 這種超細膩的時間控制可以穩定、不抖動地跑出來。 在推理端,SpaceTimePilot 透過自回歸(autoregressive)推進,把一段段 81 幀的生成片段接起來,不但能長時間探索,也能在多輪生成中維持鏡頭、時間與內容的一致性,對影視特效、互動體驗、AR/VR 內容創作來說,是非常實用的一條未來工作流路線。(劍橋 與 Adobe 聯合開發)