視覺模型 – Page 8

ImageWAM 用圖片編輯做機械人決策

2026 年 6 月 21 日

Repository image for yuyangalin/ImageWAM

ImageWAM 是一個模型訓練與評測項目，核心目標是用 image-editing foundation models 取代傳統 World Action Models (WAMs) 常見的影片生成流程，處理機械人動作預測又慢又重的問題。它的判斷很鮮明：與其生成一段未來畫面，不如直接從「當前影像 + 指令」抽取足夠的動作線索。

這項目把圖片編輯模型的中間表徵拿來做 robot action prediction。根據項目頁資料，ImageWAM 推論時不一定要解碼出編輯後影像，而是使用單次 image editing forward step 產生的 KV caches，再交給 action expert 生成未來動作，方向上比多幀影片預測更輕量。

先看 FLUX.2 ImageWAM，因為倉庫已表明它是主力版本，並提供 4B 與 9B 變體。之後再按手上資料與算力，準備本地 datasets、pretrained weights、ActionDiT 初始化權重，然後在 LIBERO、LIBERO-plus 或 RoboTwin 這幾個基準環境做訓練與評測。

這個方向不只是概念實驗。項目頁列出 RoboTwin 2.0 為 93.38%、LIBERO 為 98.4%、LIBERO-Plus 為 83.1%，並提到可節省 4.1× FLOPs、推論延遲加速 84.7%。這些數字很吸引，但始終以作者公開的實驗設定為準，若換成不同機械人平台或資料分布，表現仍要再驗證。

支援多個相關模型：FLUX.2 ImageWAM、OmniGen2 ImageWAM、Ovis-U1 ImageWAM
FLUX.2 提供 4B 與 9B 版本，Ovis-U1 走較細模型路線
適合機械人控制、world modeling、action prediction 研究與基準測試
重點不是生成漂亮畫面，而是抽取對動作決策有用的變化資訊

整體來看，ImageWAM 不算面向一般用家的 AI 工具，更像給研究者與工程團隊驗證新路線的開源項目。若你關心 world action models 是否一定要靠影片生成，這個項目提供了一個相當具體，而且有基準成績支持的反例。

GitHub： https://github.com/yuyangalin/ImageWAM

項目： https://zhangwenyao1.github.io/ImageWAM/

Categories: 開源, Video, Image, 工具, 庫, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 世界模型, Dataset 數據集

現有的 video object-centric learning（VOCL）多數沿用 slot-based frameworks，通常建基於 reconstruction-driven encoder–decoder architectures：encoder 產生 attention maps，decoder 產生 object maps，再嘗試把兩者對齊。近年的 dense alignment strategy 會對所有 spatio-temporal patches 做 contrastive learning，但這種全對全對齊會把 encoder 的雜訊和 decoder 的模糊邊界一併放大，計算量亦會升到 quadratic complexity，影片一長就更難擴展。

SSync（Selective Synergistic Learning）屬於一個可插入現有流程的 PyTorch 學習模組，目標是改善影片中的物件分解質素。它不是強迫所有 patch 全面一致，而是只挑選較可信的訊號做 mutual-distillation：用 encoder 幫手修邊界，用 decoder 清理物件內部雜訊，方向相當明確。

這項目把「全部都對齊」改成 selective distillation，並透過 pseudo-labeling 把成本降到 linear complexity。作者亦加入 transitive pseudo-label merging，處理 slot redundancy，將時序上反覆重疊的 slots 合併，減少模型把同一物件拆成多份的偏差。

如果你本身有研究 Slot Attention、影片分解、無監督物件發現，這項工作相當值得細看；如果你只是想快速試概念，亦可直接留意作者提供的 PyTorch implementation、Hugging Face 權重和 project page。它屬於 plug-and-play module，較適合已有 VOCL 基礎模型的人接入比較，而不是給完全零基礎讀者當成獨立應用程式。

核心問題：dense alignment strategy 計算昂貴，亦會傳播 encoder 與 decoder 各自的錯誤
核心方法：Selective Synergistic Learning 只蒸餾可靠線索，分開處理 boundary refinement 與 interior denoising
結構補強：加入 transitive pseudo-label merging，減少 slot redundancy
論文聲稱：可提升 decomposition quality，並對 slot configurations 有較強 robustness
相關技術詞：VOCL、slot-based frameworks、Slot Attention、mutual-distillation、pseudo-labeling

整體來看，SSync 的價值不在於另起爐灶，而是在既有 slot-based video learning 範式上，直接指出 dense patch alignment 的兩個痛點：錯誤傳播與計算擴張。對研究型讀者而言，這比單純再堆模型容量更有意思；對工程導向團隊而言，它也提供了一個較容易插入現有項目的改良方向。

GitHub： https://github.com/wjun0830/SSync

項目：https://wjun0830.github.io/SSync/

Categories: 開源, Video, IDE, Python, 模型, 深度學習, 編程, 視覺模型, 框架

SeeQ 讓 VLM 學識自己出視覺問題

2026 年 6 月 18 日

現有 Vision-Language Models（VLMs）多數按「被動答題」範式訓練：人類或外部模型先提供問題，模型再學習回答。論文認為這種 fixed inputs 做法受制於靜態資料分佈，Visual Question Generation（VQG）亦容易卡在標註成本高、題目深度不足這兩個瓶頸，所以 SeeQ 提出 Self-Evolving Visual Questioner，用同一個 VLM 同時做 proposer 與 filter，自動從未標註圖片生產更難、更貼近畫面內容的問題。

這個項目屬於框架兼研究型工具，重點不是再做一個普通題庫，而是建立完整流水線：先生成 seed questions，再反覆改寫，提升 visual search、context 與 spatial reasoning 要求，之後再由模型自行過濾。作者同時加入 exploration diversity 控制，目標是避免訓練一路收窄，最後只剩單一風格題目。

如果你想試，較合理的做法是先準備圖片對應的 JSON 輸入，再分開看 generation 與 evaluation 兩部分輸出。倉庫內沒有附模型權重、數據集與快取，評測亦會用到 image-capable OpenAI evaluator 與 Qwen embedding models，所以較適合已經有 VLM 環境、想驗證自動出題流程的研究者或多模態團隊。

以未標註圖片開始，自動生成、改寫、過濾視覺問題
保留 Agentic evaluation，從 visual search、evidence coverage、context、spatial reasoning 評分
另用 Qwen embedding models 檢查整體多樣性，不只看單題質素
強調 zero external supervision，不依賴人工標註或 GPT-4V 這類外部 teacher models

創新點在於它不單止用 VLM 產生問題，還把「提問能力」當成可自我增強的訓練訊號，並且把 questioner 與 answerer 兩種模式一起考慮。按論文說法，這套方法在多個 backbone VLMs 上都能提升問題質素，亦把自動出題的難度邊界推高；同樣預算下，比直接用靜態來源資料訓練更有效，而模型的 answerer 能力亦未有明顯犧牲。

相關模型與元件方面，倉庫內容顯示生成流程可配合 Qwen2.5 3B 類型設定，評測會用 OpenAI 的可看圖評估器，以及 Qwen embedding models。若你關心多模態訓練、合成數據、或想建立能自己發問再自我改良的 Agentic workflow，SeeQ 的方法論比單純看分數更有參考價值。

GitHub： https://github.com/tianyi-lab/SeeQ

Paper： https://arxiv.org/pdf/2606.13929

Categories: 阿里巴巴, Qwen, OpenAI, Agentic, Image, 工具, AI productions, Embedding, IDE, Python, RAG, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 框架, Dataset 數據集

TVEdit：文字與點拖軌跡合一的圖片編輯項目

2026 年 6 月 18 日

TVEdit 是一個圖像編輯項目，目標是解決「只靠文字講意思，或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意，但難控制空間；點拖軌跡可以指位置，卻容易令語意變得含糊，所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練，資料超過 23K 筆，來源與動態影片有關。再配合 TV-Edit 框架，把拖曳或點選等視覺指令轉成更有語意的控制表示，然後接到預訓練編輯骨幹上，例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」，而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench，專門看語意忠實度、空間對齊同畫面一致性，這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit，再配 TV-Edit 權重，之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令，再調 CFG 同步數生成結果。若有加速 LoRA，步數可以大幅減少，適合想快速試驗互動式編輯的人。

結合文字語意與點拖軌跡，令空間控制更細
用 23K+ 配對資料補足跨模態指令訓練
TV-Edit-Bench 同時看語意、位置、畫面一致性
目前已提供推理程式、模型權重同網頁示範
適合做互動式圖片編輯、研究評測或模型整合

GitHub： https://github.com/PolyU-VCLab/TVEdit

Paper： https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

MiniMax Hub：本機優先的多模態創作工作站

2026 年 6 月 17 日

MiniMax Hub 是一個 Multimodal Creative Agent，定位像 AI 創作工作站，不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程，讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載，輸入簡報、文字想法，或直接加入本機素材後，主代理會先理解創作目標，再做 Smart task decomposition，之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型，亦會在關鍵節點收到確認，避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格，之後可重複套用；如果需要，也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說，這類流程重用能力相當實用。

本機優先設計，頁面明確指出 local files stay on your machine
單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
支援資產管理與 batch generation，可一次產出多個版本
代理會自動分解任務，並在關鍵步驟要求人工確認
可把工作流程沉澱成 Skills，逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作，而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果，因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單，只提到會自動匹配最合適模型。

項目： https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

BRDFusion：物理與生成模型合體，城市街景逆向渲染新框架

2026 年 6 月 16 日

現有的城市場景逆向渲染方法長期面臨兩難：基於物理的渲染（physically-based rendering）雖然能嚴格遵守光學物理，但在重建與渲染階段容易產生雜訊與破圖；生成式模型（generative models，例如 DiffusionRenderer）能產出逼真影像，卻難以精準控制光源，例如車燈這類局部照明往往被忽略。BRDFusion 正是針對這個 trade-off 而設計的混合框架。

這個項目屬於研究型框架，目標是把多視角城市影片分解為幾何（法線、深度）、材質（albedo、roughness、metallic）與 HDR 環境光源，並支援新視角重照明、夜景模擬與動態物件插入等下游應用。具體做法上，它先用物理模型取得明確且一致的場景屬性，再借助生成式先驗（generative priors）緩解優化過程中的歧義；前向渲染時，物理模型負責可控渲染，生成模型則負責去噪與修補瑕疵。

測試方面，作者提供預處理資料集與預訓練權重，研究人員可直接下載並透過 tools/run_pipeline.py 跑推理與評估；硬體需求偏高，建議使用 NVIDIA RTX A6000，RTX 4090 在記憶體允許下可執行部分階段，但 Gen. Render 階段可能突破 24 GB 限制。資料集與評估影片亦同步發佈於 Hugging Face，方便重現結果。

這個項目的創新之處在於把「物理一致性」與「生成式品質」放在同一條管線中互補，而非二選一。對從事自動駕駛模擬、遊戲或影視場景重建的研究團隊而言，這是一個值得關注的方向。

重點摘要

混合範式：物理渲染負責可控性，生成模型負責修補瑕疵，突破單一方法的極限。
完整分解：輸出幾何、材質與 HDR 光源，支援新視角、夜景與物件插入。
高硬體需求：建議 RTX A6000，4090 僅能跑部分階段。
完整開源資源：程式碼、預訓練權重、資料集與評估影片均已公開。
適用場景：自動駕駛模擬、城市數位孿生、影視級場景編輯。

GitHub： https://github.com/shigon255/BRDFusion

Categories: 開源, NVIDIA, Stable Diffusion, Video, Image, 工具, 影像模型, 影像處理, 模型, 模型訓練, 深度學習, 視覺模型, Meta, 清華大學, 框架

OmniDirector：免配對數據的多鏡頭運鏡克隆技術

2026 年 6 月 15 日

OmniDirector 由清華大學（Yu-Shen Liu 為北京清華大學團隊）與 Kling Team（快手科技）的研究團隊，共同開發，成員包括 Jiwen Liu、Shujuan Li、Zhixue Fang 等人，團隊來自多個機構，橫跨學術界與業界。研究團隊提出一種無需交叉配對數據的通用多鏡頭相機克隆方法，解決從參考影片中複製運鏡來驅動靜態圖像的難題。

傳統相機控制方法往往依賴大量成對數據進行訓練，而 OmniDirector 的核心創新在於提出「相機網格」（camera grid）表示法。將參考影片的相機姿態渲染為三維空間中的運動軌跡，形成統一的網格表示。配合階層式提示詞擴展代理（hierarchical prompt expansion agent），把多模態控制信號整合成協調的指令。

使用時，使用者只需提供一張源圖像和一段參考影片，OmniDirector 便能克隆其中的運鏡動作，生成動態影片。多鏡頭場景下，新方法支援鏡頭之間的連貫過渡與一致的內容呈現，保持原始的視覺語言。特殊運鏡方面，涵蓋希區柯克式變焦、子彈時間與鏡頭畸變效果，適用的場景類型包括人像、動物、建築及 AIGC 內容等。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Watch this video on YouTube

OmniDirector 適合從事影片創作、動畫製作或需要快速生成動態素材的內容創作者，以及研究相機控制技術的開發者。經過與其他頂尖相機控制方法的對比，新方法在控制穩定性與物件形變方面表現出色。

重點摘要：
– 核心創新為「相機網格」表示法，免依賴交叉配對數據
– 支援極端運鏡、多鏡頭連貫過渡與特殊相機效果
– 場景泛化能力強，涵蓋人像、動物、建築及 AIGC 內容
– 開源提供論文與程式碼，方便研究與應用

目前 github.com/lisj575/OmniDirector 這個倉庫是空的，沒有 source code 或 model 。

項目： https://ymlinfeng.github.io/OmniDirector.github.io/

Categories: Video, AI productions, 模型, 數字人, 視覺模型, 北京大學, 清華大學, 框架

SpatialClaw：用程式碼推動空間推理代理

2026 年 6 月 14 日

SpatialClaw 是一個免訓練的空間推理框架，重點不是再加更多工具，而是改寫代理如何調用工具。它把程式碼當成動作介面，讓 Vision-Language Model 代理逐步寫入 Python cell，在同一個持續運行的 Jupyter kernel 內查看中間結果、再調整下一步判斷，目標是處理 3D、4D 以及影片場景中的空間理解問題。

這個項目的新意，在於它避開單次執行整段程式或僵硬的 tool-call 方式。代理每次只提交一格程式，能結合 SAM3 segmentation、Depth-Anything-3 reconstruction、geometry utilities，以及 NumPy、SciPy、Matplotlib 這類科學運算庫，分析過程更像逐步查證，而不是一次過猜答案。

如果你想測試它，較合適的做法是用多視角圖片、影片片段，或需要判斷位置、距離、遮擋、移動關係的題目來跑。文件亦提到部署模型有明確硬件要求：FP8 版本需要 Linux 與 NVIDIA Hopper（H100）或更新 GPU；若手上是 A100 或 L40S，則可改用 models.json 內列出的 AWQ 或 GPTQ Int4 條目，並沿用相同 served_name，模型設定毋須重改。這也反映 NVIDIA 近年在 Robotic 與 World Model 相關項目上的投入相當積極。

成績方面，公開資料指出它在 20 個空間推理基準取得 59.9% 平均準確率，比先前最佳空間代理高 11.2 個百分點。更重要的是，這個結果據稱在相同 system prompt、工具組合與 hyperparameters 下完成，覆蓋六個 VLM 骨幹，代表它的提升未必只靠特定 benchmark 微調。

屬於空間推理代理框架，解決 VLM 在 3D/4D 關係判斷上不夠靈活的問題
核心方法是以程式碼作為動作介面，逐步執行與修正分析
支援的感知模組包括 SAM3 segmentation、Depth-Anything-3 reconstruction 與 geometry utilities
公開結果涵蓋 20 個 benchmarks，平均準確率為 59.9%
相關模型家族包括 Qwen3.5、Qwen3.6、Gemma4，規模由 26B 至 397B

這個項目特別適合研究 Computer-use agents、空間智能、機械人感知，或者想比較 tool-augmented agent 與 VLM 推理流程的人。若你關心的不是聊天表現，而是模型能否一步步觀察畫面、調工具、修正推論，SpatialClaw 展示了一條幾有說服力的路線。

GitHub： https://github.com/NVlabs/SpatialClaw

項目： https://spatialclaw.github.io/

Categories: 開源, NVIDIA, Agentic, 模型, 視覺模型

SCAIL-2 把動畫角色控制再推前一步

2026 年 6 月 11 日

SCAIL-2 是一個用於 End-to-End Character Animation 的開源模型，重點是把驅動影片的視覺資訊直接送入模型，減少依賴 skeleton、mask 這類中介表示。它要處理的問題很明確：傳統角色動畫控制在複雜動作、多角色互動、跨角色替換時，容易因中介資訊過少或含糊而失真。

這項目在於把多種角色動畫子任務合併成同一套流程，並以 Unified Motion Transfer Interface、in-context mask conditioning 與 mode-specific RoPE 作統一控制。根據公開說明，模型還利用 MotionPair-60K 這類合成動作配對資料訓練，並支援 cross-identity replacement、multi-character animation，甚至 animal-driving 與 mesh-based control 這些 zero-shot 能力。

可調參數包括 denoising steps、flow-matching scheduler shift、classifier-free guidance scale、solver，以及是否啟用 offload model；這些設定會影響生成速度、顆粒感與顯示資源負擔，較適合已有 GPU 環境、想比較不同動畫控制效果的人。

用模型來把驅動動作轉到指定角色身上
不再把 skeleton map 當核心依據，目標是減少資訊流失
已列出相關模型：SCAIL-Preview、Wan-Animate、MoCha、SAM3D-Body
可處理多角色、角色替換、跨身份動畫等場景
推論可調整 steps、guide scale、solver 等參數

如果你是做 AI 影片、虛擬角色內容、動畫研究，或者正留意角色動作遷移技術，SCAIL-2 有一定參考價值。至於效能表現，項目明確表示它在多項任務上優於既有 state-of-the-art approaches。

GitHub： https://github.com/zai-org/SCAIL-2

項目： https://teal024.github.io/SCAIL-2/

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Bernini：影片生成與編輯的新路線

2026 年 6 月 10 日

Bernini 是一個影片生成與編輯框架，核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來，處理一般影片擴散模型常見的內容漂移、指令跟從不穩定，以及長片段規劃鬆散等問題。從定位看，它不是單純再堆大模型，而是先做語意規劃，再交由生成器落實畫面。

這個項目的關鍵想法，在於「Latent Semantic Planning」：先在潛在空間安排語意，再做 video diffusion。對非研究背景讀者來說，可以理解為先寫分鏡草稿，再逐格畫面化，這比直接由文字一步到位生成影片，更有機會保持故事連貫和編輯意圖一致。

如果想試，較合理的切入點是影片編輯任務，例如風格轉換、字幕或水印移除、局部修改，再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階，建議準備 CUDA 12.4、Python 3.11.2，以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3；若有 H100、H800、H200 可配合 FlashAttention-3，其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊，評分來自其自建 arena，以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值，但暫時主要反映編輯場景；若你關心更複雜的人物生成，官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本，面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion

Watch this video on YouTube

核心組成是 MLLM-based semantic planner + DiT-based renderer
已公開 Bernini-R 權重，包含 1.3B 版本
適合研究影片生成、影片編輯流程，或想比較規劃式生成方法的人
硬件門檻偏高，Multi-GPU sequence parallel 亦需要 Open-VeOmni
相關模型可先留意 Bernini-R-1.3B-Diffusers，以及文中提到的 14B 變體

整體來看，Bernini 最有價值的地方不是「再一個影片模型」，而是把規劃與渲染拆開處理，令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目，它未必合適；但如果你重視研究方向、編輯質素與系統設計，這個項目相當值得細看。

GitHub： https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

Page 8 of 16

« Previous 1 … 6 7 8 9 10 … 16 Next »