影像處理 – Page 4

UniAR 用一個 Transformer 包辦看圖、作圖、改圖

2026 年 6 月 18 日

現有 Unified Multimodal Models（UMMs）多數會把影像理解和影像生成分開處理，常見做法是用兩套 visual tokenizers。作者認為這種 fixed paradigm 會把表示空間拆開，模型生成完圖片後，還要再重新編碼才能理解自己剛產生的內容，shared context 也就難以真正成立；UniAR 因此提出一個 unified autoregressive framework，用單一 discrete visual tokenizer 連接理解、生成與編輯。

項目屬於多模態模型，目標是用同一個 Transformer 解決 image understanding、image generation 和 image editing 之間來回切換的成本。它的核心判斷很直接：若模型看圖與作圖共用同一套視覺 token，流程就不需要額外 re-encoding，系統結構會更一致。

技術上，UniAR 有幾個辨識度很高的設計。Multi-level BSQ tokenizer 把高層語意與低層細節一併保留，並透過 Binary Spherical Quantization 擴大有效 vocabulary；parallel bitwise prediction 則把視覺碼以分組方式一齊預測，令 autoregressive 長序列壓短，論文提到 1024×1024 影像只需 256 個 AR tokens，對應 32x visual compression ratio。

單一 discrete visual tokenizer 取代雙 tokenizer 架構
支援 image understanding、image generation、image editing 同模運作
Multi-level BSQ tokenizer 同時顧及語意與細節
parallel bitwise prediction 壓縮視覺序列，加快 autoregressive 生成
DiT-based visual decoder 以 discrete visual tokens 重建高保真影像
需求：Python 3.12、CUDA 12.1+、推理的 GPU 記憶體 >= 24 GB

如果你想試這個項目，較合理的切入點不是直接拿來當日常工具，而是先看它公開的模型權重與項目頁，分開測理解、生成、編輯三類輸出是否一致。它較適合研究多模態統一架構的人、關注 Qwen 生態的開發者，以及想比較 autoregressive 與 diffusion 混合路線的讀者。

性能方面，原文聲稱 UniAR 經 large-scale pre-training、supervised fine-tuning 和 reinforcement learning 後，在 image generation 與 image editing 達到 state-of-the-art，同時在多模態理解 benchmark 保持競爭力。不過目前公開資訊較像研究成果展示，visual decoder training code 仍未完整放出，因此更適合拿來理解方法論，而不是立即評估成成熟生產工具。

相關模型與組件包括 SD3-medium visual decoder、Qwen Team 背景下的多模態模型路線，以及論文聚焦的 Unified Multimodal Models（UMMs）。若你在意的不是單次生成效果，而是模型能否「理解自己生成的內容」，UniAR 的 shared context 設計確實提出了一個有意思而且相當具體的答案。

GitHub： https://github.com/ShareLab-SII/UniAR

項目： https://sharelab-sii.github.io/uniar-web/

Categories: 開源, 阿里巴巴, Qwen, Stable Diffusion, Image, 工具, AI productions, Vibe Coding, 多模態模型, 影像模型, 影像處理, 模型, 框架

TVEdit：文字與點拖軌跡合一的圖片編輯項目

2026 年 6 月 18 日

TVEdit 是一個圖像編輯項目，目標是解決「只靠文字講意思，或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意，但難控制空間；點拖軌跡可以指位置，卻容易令語意變得含糊，所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練，資料超過 23K 筆，來源與動態影片有關。再配合 TV-Edit 框架，把拖曳或點選等視覺指令轉成更有語意的控制表示，然後接到預訓練編輯骨幹上，例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」，而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench，專門看語意忠實度、空間對齊同畫面一致性，這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit，再配 TV-Edit 權重，之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令，再調 CFG 同步數生成結果。若有加速 LoRA，步數可以大幅減少，適合想快速試驗互動式編輯的人。

結合文字語意與點拖軌跡，令空間控制更細
用 23K+ 配對資料補足跨模態指令訓練
TV-Edit-Bench 同時看語意、位置、畫面一致性
目前已提供推理程式、模型權重同網頁示範
適合做互動式圖片編輯、研究評測或模型整合

GitHub： https://github.com/PolyU-VCLab/TVEdit

Paper： https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

BRDFusion：物理與生成模型合體，城市街景逆向渲染新框架

2026 年 6 月 16 日

現有的城市場景逆向渲染方法長期面臨兩難：基於物理的渲染（physically-based rendering）雖然能嚴格遵守光學物理，但在重建與渲染階段容易產生雜訊與破圖；生成式模型（generative models，例如 DiffusionRenderer）能產出逼真影像，卻難以精準控制光源，例如車燈這類局部照明往往被忽略。BRDFusion 正是針對這個 trade-off 而設計的混合框架。

這個項目屬於研究型框架，目標是把多視角城市影片分解為幾何（法線、深度）、材質（albedo、roughness、metallic）與 HDR 環境光源，並支援新視角重照明、夜景模擬與動態物件插入等下游應用。具體做法上，它先用物理模型取得明確且一致的場景屬性，再借助生成式先驗（generative priors）緩解優化過程中的歧義；前向渲染時，物理模型負責可控渲染，生成模型則負責去噪與修補瑕疵。

測試方面，作者提供預處理資料集與預訓練權重，研究人員可直接下載並透過 tools/run_pipeline.py 跑推理與評估；硬體需求偏高，建議使用 NVIDIA RTX A6000，RTX 4090 在記憶體允許下可執行部分階段，但 Gen. Render 階段可能突破 24 GB 限制。資料集與評估影片亦同步發佈於 Hugging Face，方便重現結果。

這個項目的創新之處在於把「物理一致性」與「生成式品質」放在同一條管線中互補，而非二選一。對從事自動駕駛模擬、遊戲或影視場景重建的研究團隊而言，這是一個值得關注的方向。

重點摘要

混合範式：物理渲染負責可控性，生成模型負責修補瑕疵，突破單一方法的極限。
完整分解：輸出幾何、材質與 HDR 光源，支援新視角、夜景與物件插入。
高硬體需求：建議 RTX A6000，4090 僅能跑部分階段。
完整開源資源：程式碼、預訓練權重、資料集與評估影片均已公開。
適用場景：自動駕駛模擬、城市數位孿生、影視級場景編輯。

GitHub： https://github.com/shigon255/BRDFusion

Categories: 開源, NVIDIA, Stable Diffusion, Video, Image, 工具, 影像模型, 影像處理, 模型, 模型訓練, 深度學習, 視覺模型, Meta, 清華大學, 框架

InterleaveThinker 多步生成變得可控

2026 年 6 月 13 日

InterleaveThinker 是一個多代理生成流程工具，目標是替現有圖像生成器加入 interleaved generation 能力，即按步輸出文字與圖片交錯的內容。它想處理的，不是單張圖夠不夠精美，而是多個步驟之間是否連貫、是否跟指令一致。

這個項目的核心做法，是把工作拆成 planner agent 與 critic agent。前者先安排圖文序列和每一步任務，後者再檢查生成結果、有偏差就修正指令再生成，做法比單次提示更像一個會反覆校對的流程。

如果你想試它，方向很明確：先接上它已支援的生成器，再用多步任務測試，例如故事場景連續變化、視覺教學、摺衫步驟、角色互動或 embodied manipulation。儲存庫已列出多個可配合的模型端口，包括 Qwen-Image、Qwen-Image Lightning、FLUX.1-Krea-dev、Qwen-Image-Edit Lightning、FLUX.1-Kontext-dev Edit 與 FLUX.1-Fill-dev Fill。

公開資料顯示，它在 interleaved generation benchmark 的表現可與 Nano Banana 及 GPT-5 接近；在推理導向基準也有明顯提升，例如 WISE 由 0.47 升至 0.73，RISE 由 13.3 升至 28.9（4-step FLUX.2-klein）。這些數字反映它的價值主要在「多步一致性與修正能力」，不是單靠底層模型硬撐。

重點不在訓練全新生成器，而是增強現有 image generator
以 planner agent + critic agent 處理多步圖文任務
適合 visual narratives、guidance、embodied manipulation、long-horizon sub-task annotation
已公開相關模型：InterleaveThinker-Planner-8B、Critic-SFT-8B、InterleaveThinker-Critic-8B
另有訓練資料集：Interleave-Planner-SFT-80k、Interleave-Critic-SFT-112k、Interleave-Critic-RL-13k

對研究圖文代理、工作流編排，或者想把現有出圖模型拉進多步任務的人，這個項目很有參考價值。若你只想單次生成一張圖，它未必是最直接的選擇；但若你要的是連續幾步都講得通、畫面不走樣，InterleaveThinker 的定位相當清楚。

GitHub： https://github.com/zhengdian1/InterleaveThinker

項目：https://zhengdian1.github.io/InterleaveThinker-proj/

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

ARM：把生圖與修圖收進同一模型

2026 年 6 月 11 日

ARM 是一個 AutoRegressive Large Multimodal Model（ARM）類型的多模態模型，把圖像轉成離散 visual tokens，再以同一套 next-token prediction 處理理解、text-to-image 和指令式編輯，目標是把三種能力收進單一流程。

它的核心新意，是用 shared visual token space 連接看圖、生成與修圖，再以純 autoregressive multimodal modeling 處理交錯的文字與圖像 tokens。對一般讀者來說，可理解成「把圖片也變成語言模型可續寫的內容」。

• 7B 規模，重點在統一表示
• reinforcement learning（RL）結合 preference optimization
• WISE overall 由 0.50 升至 0.56
• GEdit-Bench-EN overall 由 5.75 升至 6.68

現階段較適合先讀論文和 benchmark。儲存庫節錄未見完整安裝、推理或權重說明，因此目前看來更像研究項目，不一定適合立即部署。

如果你關注 Large Multimodal Models（LMMs）、image editing，或想比較 unified autoregressive models，這個項目有參考價值。可對照的相關模型路線，包括 unified autoregressive models 與主流 image generation systems；論文亦提到它在 GenEval、DPG、WISE 具競爭力。

GitHub： https://github.com/wdrink/ARM

Paper： https://arxiv.org/pdf/2606.11188

Categories: 開源, 字節跳動, 影像處理, 模型, 框架

SCAIL-2 把動畫角色控制再推前一步

2026 年 6 月 11 日

SCAIL-2 是一個用於 End-to-End Character Animation 的開源模型，重點是把驅動影片的視覺資訊直接送入模型，減少依賴 skeleton、mask 這類中介表示。它要處理的問題很明確：傳統角色動畫控制在複雜動作、多角色互動、跨角色替換時，容易因中介資訊過少或含糊而失真。

這項目在於把多種角色動畫子任務合併成同一套流程，並以 Unified Motion Transfer Interface、in-context mask conditioning 與 mode-specific RoPE 作統一控制。根據公開說明，模型還利用 MotionPair-60K 這類合成動作配對資料訓練，並支援 cross-identity replacement、multi-character animation，甚至 animal-driving 與 mesh-based control 這些 zero-shot 能力。

可調參數包括 denoising steps、flow-matching scheduler shift、classifier-free guidance scale、solver，以及是否啟用 offload model；這些設定會影響生成速度、顆粒感與顯示資源負擔，較適合已有 GPU 環境、想比較不同動畫控制效果的人。

用模型來把驅動動作轉到指定角色身上
不再把 skeleton map 當核心依據，目標是減少資訊流失
已列出相關模型：SCAIL-Preview、Wan-Animate、MoCha、SAM3D-Body
可處理多角色、角色替換、跨身份動畫等場景
推論可調整 steps、guide scale、solver 等參數

如果你是做 AI 影片、虛擬角色內容、動畫研究，或者正留意角色動作遷移技術，SCAIL-2 有一定參考價值。至於效能表現，項目明確表示它在多項任務上優於既有 state-of-the-art approaches。

GitHub： https://github.com/zai-org/SCAIL-2

項目： https://teal024.github.io/SCAIL-2/

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Bernini：影片生成與編輯的新路線

2026 年 6 月 10 日

Bernini 是一個影片生成與編輯框架，核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來，處理一般影片擴散模型常見的內容漂移、指令跟從不穩定，以及長片段規劃鬆散等問題。從定位看，它不是單純再堆大模型，而是先做語意規劃，再交由生成器落實畫面。

這個項目的關鍵想法，在於「Latent Semantic Planning」：先在潛在空間安排語意，再做 video diffusion。對非研究背景讀者來說，可以理解為先寫分鏡草稿，再逐格畫面化，這比直接由文字一步到位生成影片，更有機會保持故事連貫和編輯意圖一致。

如果想試，較合理的切入點是影片編輯任務，例如風格轉換、字幕或水印移除、局部修改，再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階，建議準備 CUDA 12.4、Python 3.11.2，以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3；若有 H100、H800、H200 可配合 FlashAttention-3，其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊，評分來自其自建 arena，以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值，但暫時主要反映編輯場景；若你關心更複雜的人物生成，官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本，面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion

Watch this video on YouTube

核心組成是 MLLM-based semantic planner + DiT-based renderer
已公開 Bernini-R 權重，包含 1.3B 版本
適合研究影片生成、影片編輯流程，或想比較規劃式生成方法的人
硬件門檻偏高，Multi-GPU sequence parallel 亦需要 Open-VeOmni
相關模型可先留意 Bernini-R-1.3B-Diffusers，以及文中提到的 14B 變體

整體來看，Bernini 最有價值的地方不是「再一個影片模型」，而是把規劃與渲染拆開處理，令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目，它未必合適；但如果你重視研究方向、編輯質素與系統設計，這個項目相當值得細看。

GitHub： https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

SwiftVR：低清、模糊影片實時修復

2026 年 6 月 10 日

把低清、模糊的影片即時變成清楚版本，一直是擴散式（diffusion-based）影片修復（VR, Video Restoration）模型的痛點：畫質漂亮，卻慢得跑不動。SwiftVR 是一個以單步生成（one-step generative）路線設計的串流修復框架，主打把高解析度延遲壓到可即時播放的範圍，同時保持擴散模型的視覺品質。

為何能跑得這麼快？ 項目作者從兩個瓶頸下手。第一是空間注意力在高解析度下的二次方成本：SwiftVR 引入 MFSWA（Mask-free shifted-window self-attention），把每個空間窗口預先重排成稠密張量，讓每次注意力呼叫都走標準的 SDPA（Scaled Dot-Product Attention）路徑，省掉遮罩、循環位移、稀疏 kernel，吞吐量比全注意力教師模型提升約 1.62×。第二個瓶頸是傳統 3D VAE 解碼太笨重：他們改用一個輕量級的 ReAE（Restoration-aware Autoencoder），與 DiT（Diffusion Transformer）聯合在像素空間微調，讓分塊解碼不再卡住流水線。

數字上多誇張？ 同一個權重檔，在單張 H100 上，QHD（2560×1440）24 幀約 31 FPS、4K（3840×2160）約 14 FPS，而所有比較的擴散式 VR baseline 在 4K 都 OOM（Out-of-Memory，記憶體溢位）。換到消費級的單張 RTX 5090，1080p 可達約 26 FPS，達到即時串流門檻，且全程不需重寫 kernel 或重新訓練。所有推理走預設 PyTorch SDPA 與 bfloat16。

誰適合關注？ 需要為直播、視訊會議、老片修復平台做即時前處理的研究員與工程師；對 DiT、串流推理、邊緣部署有興趣的開發者；以及想找一個 open-source 起點、把生成式 VR 推上消費硬體的團隊。

與同類相比的相對位置： 對照組 DOVE、SeedVR2-3B、FlashVSR-Tiny 在 QHD 下分別約 0.85、1.39、9.61 FPS，SwiftVR 約 31.32 FPS，速度差距明顯。論文亦宣稱在無參考感知品質指標上具競爭力，但具體分數請以原論文表格為準。

重點摘要：

單步生成路線：放棄多步擴散，以一步生成換取低延遲。
MFSWA 注意力：把窗口預聚集成稠密張量，繞過稀疏 kernel。
ReAE 解碼器：取代 3D VAE，解放分塊解碼的瓶頸。
因果分塊串流：無滾動 KV、快取即可限制時間軸成本。
消費級硬體可達即時：RTX 5090 1080p 約 26 FPS，H100 一路到 4K。

GitHub： https://github.com/H-oliday/SwiftVR

項目： https://h-oliday.github.io/SwiftVR/

Categories: 開源, 影像處理, 模型, 視頻模型

CoVEBench 檢查影片編輯模型的真功夫

2026 年 6 月 10 日

近年不少影片編輯模型已能根據文字改片，但一遇到多個要求同時出現，例如一邊改主體、一邊保留背景與動作連貫，表現就容易失準。CoVEBench 是一個診斷型 benchmark，專門檢查 compositional instruction-guided video editing 在複雜條件下是否真的做得到。

這項目的判斷方法比一般「整體看起來差不多」更嚴格。它把表現分成指令完成度、畫質與來源保真度三條線來看，並用細緻 checklist 檢查多個編輯點有沒有同時成立；就算模型個別要求做到幾項，只要無法通過 union criterion，分數仍然不高，這種設計能更早看出模型短板。

如果想了解它的內容，較合適的做法是先看示範頁與資料集規模，再對照評估指標。CoVEBench 收錄 416 段來源影片、626 條多重指令、9,990 個細項檢查點，預設會抽取 10 張等距 frame 做 frame-level metrics；AES、VQR、MSM 則只針對 edited videos 計算，方便把「改得夠不夠」與「有沒有改壞其他地方」分開分析。

核心用途是評測 video editing models，不是直接拿來剪片
主要指標包括 Union Accuracy（UAS）、Instruction Following Score（IFS）、Video Realism Score（VRS）、Semantic Consistency（SEM）
設計重點在細粒度 checklist，而非只看單一總分
結果顯示強模型未必兼顧保留原片內容，編輯力度與保真度存在拉扯
項目亦比較了 joint editing 與 stepwise decomposition 的差異，前者表現更好

從公開資訊看，CoVEBench 的價值在於它把失敗原因拆得夠清楚，適合研究團隊、評測人員，以及想比較閉源與開源方案的人參考。相關模型包括 Wan2.7 與 HappyHorse1.0；即使領先系統在複合編輯上較強，UAS 仍未算高，反映這個領域離穩定可靠還有一段距離。

GitHub： https://github.com/NJU-LINK/CoVEBench

項目： https://nju-link.github.io/CoVEBench/

Categories: 開源, 影像處理, 框架

DIRECT：可調 3D 角度的物件插令合成更自然

2026 年 6 月 9 日

DIRECT（Decomposed Injection for Reference Composition and Target-integration）是一個用來把參考物件放入背景圖片的生成項目，重點不是單純補圖，而是加入明確的 3D 控制。網頁內容指出，現有 diffusion-based 方法多數把這類工作當成 2D inpainting，畫面雖然好看，但物件角度與空間位置較難精準控制。

DIRECT 先把參考物件提升成可互動的 3D proxy，讓使用者在目標場景內直接調整姿態，再把調整後的結果渲染成 geometry guidance。之後，生成器會同時接收參考物件的 appearance guidance、3D proxy 提供的 geometry guidance，以及背景圖片的 context guidance，合成最終插入效果。

它的核心創新在於 decomposed injection，把不同條件分開經由獨立路徑注入，而不是混在一起處理。這樣可減少 feature entanglement，較有機會同時保留原物件外觀、跟隨指定姿態，並令物件更自然融入目標場景。

重點可先留意以下幾點：
– 支援 pose-controllable object insertion，可直接調整物件姿態
– 以 reconstructed 3D proxy 提供明確幾何引導
– 把 appearance、geometry、context 三種訊息分開處理
– 附有 automated data construction pipeline，以提升訓練資料多樣性與質素
– 頁面表示在 geometric controllability 與 visual quality 上優於以往方法

這類項目特別適合影像合成、視覺生成、商品展示與內容製作等場景，當你需要指定物件朝向、位置感與場景一致性時會較有用。若你想跟進研究與重現結果，頁面已提供 Paper、Code，Model 與 Dataset 則標示為 soon。

GitHub： https://github.com/Gong1130/DIRECT

項目： https://gong1130.github.io/DIRECT/

Categories: 3D, 影像處理, 框架

Page 4 of 20

« Previous 1 2 3 4 5 6 … 20 Next »