UniAR 用一個 Transformer 包辦看圖、作圖、改圖

teaser

現有 Unified Multimodal Models(UMMs)多數會把影像理解和影像生成分開處理,常見做法是用兩套 visual tokenizers。作者認為這種 fixed paradigm 會把表示空間拆開,模型生成完圖片後,還要再重新編碼才能理解自己剛產生的內容,shared context 也就難以真正成立;UniAR 因此提出一個 unified autoregressive framework,用單一 discrete visual tokenizer 連接理解、生成與編輯。

項目屬於多模態模型,目標是用同一個 Transformer 解決 image understanding、image generation 和 image editing 之間來回切換的成本。它的核心判斷很直接:若模型看圖與作圖共用同一套視覺 token,流程就不需要額外 re-encoding,系統結構會更一致。

技術上,UniAR 有幾個辨識度很高的設計。Multi-level BSQ tokenizer 把高層語意與低層細節一併保留,並透過 Binary Spherical Quantization 擴大有效 vocabulary;parallel bitwise prediction 則把視覺碼以分組方式一齊預測,令 autoregressive 長序列壓短,論文提到 1024×1024 影像只需 256 個 AR tokens,對應 32x visual compression ratio。

  • 單一 discrete visual tokenizer 取代雙 tokenizer 架構
  • 支援 image understanding、image generation、image editing 同模運作
  • Multi-level BSQ tokenizer 同時顧及語意與細節
  • parallel bitwise prediction 壓縮視覺序列,加快 autoregressive 生成
  • DiT-based visual decoder 以 discrete visual tokens 重建高保真影像
  • 需求:Python 3.12、CUDA 12.1+、推理的 GPU 記憶體 >= 24 GB

如果你想試這個項目,較合理的切入點不是直接拿來當日常工具,而是先看它公開的模型權重與項目頁,分開測理解、生成、編輯三類輸出是否一致。它較適合研究多模態統一架構的人、關注 Qwen 生態的開發者,以及想比較 autoregressive 與 diffusion 混合路線的讀者。

性能方面,原文聲稱 UniAR 經 large-scale pre-training、supervised fine-tuning 和 reinforcement learning 後,在 image generation 與 image editing 達到 state-of-the-art,同時在多模態理解 benchmark 保持競爭力。不過目前公開資訊較像研究成果展示,visual decoder training code 仍未完整放出,因此更適合拿來理解方法論,而不是立即評估成成熟生產工具。

相關模型與組件包括 SD3-medium visual decoder、Qwen Team 背景下的多模態模型路線,以及論文聚焦的 Unified Multimodal Models(UMMs)。若你在意的不是單次生成效果,而是模型能否「理解自己生成的內容」,UniAR 的 shared context 設計確實提出了一個有意思而且相當具體的答案。

GitHub: https://github.com/ShareLab-SII/UniAR

Paper: https://arxiv.org/pdf/2606.18249

Categories: 開源, 阿里巴巴, Qwen, Stable Diffusion, Image, 工具, AI productions, Vibe Coding, 多模態模型, 影像模型, 影像處理, 模型, 框架

TVEdit:文字與點拖軌跡合一的圖片編輯項目

TV-Edit Gradio demo

TVEdit 是一個圖像編輯項目,目標是解決「只靠文字講意思,或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意,但難控制空間;點拖軌跡可以指位置,卻容易令語意變得含糊,所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練,資料超過 23K 筆,來源與動態影片有關。再配合 TV-Edit 框架,把拖曳或點選等視覺指令轉成更有語意的控制表示,然後接到預訓練編輯骨幹上,例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」,而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench,專門看語意忠實度、空間對齊同畫面一致性,這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit,再配 TV-Edit 權重,之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令,再調 CFG 同步數生成結果。若有加速 LoRA,步數可以大幅減少,適合想快速試驗互動式編輯的人。

  • 結合文字語意與點拖軌跡,令空間控制更細
  • 用 23K+ 配對資料補足跨模態指令訓練
  • TV-Edit-Bench 同時看語意、位置、畫面一致性
  • 目前已提供推理程式、模型權重同網頁示範
  • 適合做互動式圖片編輯、研究評測或模型整合

GitHub: https://github.com/PolyU-VCLab/TVEdit

Paper: https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

BRDFusion:物理與生成模型合體,城市街景逆向渲染新框架

logo

現有的城市場景逆向渲染方法長期面臨兩難:基於物理的渲染(physically-based rendering)雖然能嚴格遵守光學物理,但在重建與渲染階段容易產生雜訊與破圖;生成式模型(generative models,例如 DiffusionRenderer)能產出逼真影像,卻難以精準控制光源,例如車燈這類局部照明往往被忽略。BRDFusion 正是針對這個 trade-off 而設計的混合框架。

這個項目屬於研究型框架,目標是把多視角城市影片分解為幾何(法線、深度)、材質(albedo、roughness、metallic)與 HDR 環境光源,並支援新視角重照明、夜景模擬與動態物件插入等下游應用。具體做法上,它先用物理模型取得明確且一致的場景屬性,再借助生成式先驗(generative priors)緩解優化過程中的歧義;前向渲染時,物理模型負責可控渲染,生成模型則負責去噪與修補瑕疵。

測試方面,作者提供預處理資料集與預訓練權重,研究人員可直接下載並透過 tools/run_pipeline.py 跑推理與評估;硬體需求偏高,建議使用 NVIDIA RTX A6000,RTX 4090 在記憶體允許下可執行部分階段,但 Gen. Render 階段可能突破 24 GB 限制。資料集與評估影片亦同步發佈於 Hugging Face,方便重現結果。

這個項目的創新之處在於把「物理一致性」與「生成式品質」放在同一條管線中互補,而非二選一。對從事自動駕駛模擬、遊戲或影視場景重建的研究團隊而言,這是一個值得關注的方向。

重點摘要

  • 混合範式:物理渲染負責可控性,生成模型負責修補瑕疵,突破單一方法的極限。
  • 完整分解:輸出幾何、材質與 HDR 光源,支援新視角、夜景與物件插入。
  • 高硬體需求:建議 RTX A6000,4090 僅能跑部分階段。
  • 完整開源資源:程式碼、預訓練權重、資料集與評估影片均已公開。
  • 適用場景:自動駕駛模擬、城市數位孿生、影視級場景編輯。

GitHub: https://github.com/shigon255/BRDFusion

Categories: 開源, NVIDIA, Stable Diffusion, Video, Image, 工具, 影像模型, 影像處理, 模型, 模型訓練, 深度學習, 視覺模型, Meta, 清華大學, 框架

InterleaveThinker 多步生成變得可控

logo

InterleaveThinker 是一個多代理生成流程工具,目標是替現有圖像生成器加入 interleaved generation 能力,即按步輸出文字與圖片交錯的內容。它想處理的,不是單張圖夠不夠精美,而是多個步驟之間是否連貫、是否跟指令一致。

這個項目的核心做法,是把工作拆成 planner agent 與 critic agent。前者先安排圖文序列和每一步任務,後者再檢查生成結果、有偏差就修正指令再生成,做法比單次提示更像一個會反覆校對的流程。

如果你想試它,方向很明確:先接上它已支援的生成器,再用多步任務測試,例如故事場景連續變化、視覺教學、摺衫步驟、角色互動或 embodied manipulation。儲存庫已列出多個可配合的模型端口,包括 Qwen-Image、Qwen-Image Lightning、FLUX.1-Krea-dev、Qwen-Image-Edit Lightning、FLUX.1-Kontext-dev Edit 與 FLUX.1-Fill-dev Fill。

公開資料顯示,它在 interleaved generation benchmark 的表現可與 Nano Banana 及 GPT-5 接近;在推理導向基準也有明顯提升,例如 WISE 由 0.47 升至 0.73,RISE 由 13.3 升至 28.9(4-step FLUX.2-klein)。這些數字反映它的價值主要在「多步一致性與修正能力」,不是單靠底層模型硬撐。

  • 重點不在訓練全新生成器,而是增強現有 image generator
  • 以 planner agent + critic agent 處理多步圖文任務
  • 適合 visual narratives、guidance、embodied manipulation、long-horizon sub-task annotation
  • 已公開相關模型:InterleaveThinker-Planner-8B、Critic-SFT-8B、InterleaveThinker-Critic-8B
  • 另有訓練資料集:Interleave-Planner-SFT-80k、Interleave-Critic-SFT-112k、Interleave-Critic-RL-13k

對研究圖文代理、工作流編排,或者想把現有出圖模型拉進多步任務的人,這個項目很有參考價值。若你只想單次生成一張圖,它未必是最直接的選擇;但若你要的是連續幾步都講得通、畫面不走樣,InterleaveThinker 的定位相當清楚。

GitHub: https://github.com/zhengdian1/InterleaveThinker

項目:https://zhengdian1.github.io/InterleaveThinker-proj/

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

ARM:把生圖與修圖收進同一模型

Institute of Trustworthy Embodied AI logo

ARM 是一個 AutoRegressive Large Multimodal Model(ARM)類型的多模態模型,把圖像轉成離散 visual tokens,再以同一套 next-token prediction 處理理解、text-to-image 和指令式編輯,目標是把三種能力收進單一流程。

它的核心新意,是用 shared visual token space 連接看圖、生成與修圖,再以純 autoregressive multimodal modeling 處理交錯的文字與圖像 tokens。對一般讀者來說,可理解成「把圖片也變成語言模型可續寫的內容」。

• 7B 規模,重點在統一表示
• reinforcement learning(RL)結合 preference optimization
• WISE overall 由 0.50 升至 0.56
• GEdit-Bench-EN overall 由 5.75 升至 6.68

現階段較適合先讀論文和 benchmark。儲存庫節錄未見完整安裝、推理或權重說明,因此目前看來更像研究項目,不一定適合立即部署。

如果你關注 Large Multimodal Models(LMMs)、image editing,或想比較 unified autoregressive models,這個項目有參考價值。可對照的相關模型路線,包括 unified autoregressive models 與主流 image generation systems;論文亦提到它在 GenEval、DPG、WISE 具競爭力。

GitHub: https://github.com/wdrink/ARM

Paper: https://arxiv.org/pdf/2606.11188

Categories: 開源, 字節跳動, 影像處理, 模型, 框架

SCAIL-2 把動畫角色控制再推前一步

Teaser

SCAIL-2 是一個用於 End-to-End Character Animation 的開源模型,重點是把驅動影片的視覺資訊直接送入模型,減少依賴 skeleton、mask 這類中介表示。它要處理的問題很明確:傳統角色動畫控制在複雜動作、多角色互動、跨角色替換時,容易因中介資訊過少或含糊而失真。

這項目在於把多種角色動畫子任務合併成同一套流程,並以 Unified Motion Transfer Interface、in-context mask conditioning 與 mode-specific RoPE 作統一控制。根據公開說明,模型還利用 MotionPair-60K 這類合成動作配對資料訓練,並支援 cross-identity replacement、multi-character animation,甚至 animal-driving 與 mesh-based control 這些 zero-shot 能力。

可調參數包括 denoising steps、flow-matching scheduler shift、classifier-free guidance scale、solver,以及是否啟用 offload model;這些設定會影響生成速度、顆粒感與顯示資源負擔,較適合已有 GPU 環境、想比較不同動畫控制效果的人。

  • 用模型來把驅動動作轉到指定角色身上
  • 不再把 skeleton map 當核心依據,目標是減少資訊流失
  • 已列出相關模型:SCAIL-Preview、Wan-Animate、MoCha、SAM3D-Body
  • 可處理多角色、角色替換、跨身份動畫等場景
  • 推論可調整 steps、guide scale、solver 等參數

如果你是做 AI 影片、虛擬角色內容、動畫研究,或者正留意角色動作遷移技術,SCAIL-2 有一定參考價值。至於效能表現,項目明確表示它在多項任務上優於既有 state-of-the-art approaches。

GitHub: https://github.com/zai-org/SCAIL-2

項目: https://teal024.github.io/SCAIL-2/

Categories: 開源, 影像處理, 模型, 視覺模型, 視頻模型, 框架

Bernini:影片生成與編輯的新路線

Bernini

Bernini 是一個影片生成與編輯框架,核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來,處理一般影片擴散模型常見的內容漂移、指令跟從不穩定,以及長片段規劃鬆散等問題。從定位看,它不是單純再堆大模型,而是先做語意規劃,再交由生成器落實畫面。

這個項目的關鍵想法,在於「Latent Semantic Planning」:先在潛在空間安排語意,再做 video diffusion。對非研究背景讀者來說,可以理解為先寫分鏡草稿,再逐格畫面化,這比直接由文字一步到位生成影片,更有機會保持故事連貫和編輯意圖一致。

如果想試,較合理的切入點是影片編輯任務,例如風格轉換、字幕或水印移除、局部修改,再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階,建議準備 CUDA 12.4、Python 3.11.2,以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3;若有 H100、H800、H200 可配合 FlashAttention-3,其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊,評分來自其自建 arena,以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值,但暫時主要反映編輯場景;若你關心更複雜的人物生成,官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本,面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion
  • 核心組成是 MLLM-based semantic planner + DiT-based renderer
  • 已公開 Bernini-R 權重,包含 1.3B 版本
  • 適合研究影片生成、影片編輯流程,或想比較規劃式生成方法的人
  • 硬件門檻偏高,Multi-GPU sequence parallel 亦需要 Open-VeOmni
  • 相關模型可先留意 Bernini-R-1.3B-Diffusers,以及文中提到的 14B 變體

整體來看,Bernini 最有價值的地方不是「再一個影片模型」,而是把規劃與渲染拆開處理,令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目,它未必合適;但如果你重視研究方向、編輯質素與系統設計,這個項目相當值得細看。

GitHub: https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

SwiftVR:低清、模糊影片實時修復

SwiftVR qualitative comparison

把低清、模糊的影片即時變成清楚版本,一直是擴散式(diffusion-based)影片修復(VR, Video Restoration)模型的痛點:畫質漂亮,卻慢得跑不動。SwiftVR 是一個以單步生成(one-step generative)路線設計的串流修復框架,主打把高解析度延遲壓到可即時播放的範圍,同時保持擴散模型的視覺品質。

為何能跑得這麼快? 項目作者從兩個瓶頸下手。第一是空間注意力在高解析度下的二次方成本:SwiftVR 引入 MFSWA(Mask-free shifted-window self-attention),把每個空間窗口預先重排成稠密張量,讓每次注意力呼叫都走標準的 SDPA(Scaled Dot-Product Attention)路徑,省掉遮罩、循環位移、稀疏 kernel,吞吐量比全注意力教師模型提升約 1.62×。第二個瓶頸是傳統 3D VAE 解碼太笨重:他們改用一個輕量級的 ReAE(Restoration-aware Autoencoder),與 DiT(Diffusion Transformer)聯合在像素空間微調,讓分塊解碼不再卡住流水線。

數字上多誇張? 同一個權重檔,在單張 H100 上,QHD(2560×1440)24 幀約 31 FPS、4K(3840×2160)約 14 FPS,而所有比較的擴散式 VR baseline 在 4K 都 OOM(Out-of-Memory,記憶體溢位)。換到消費級的單張 RTX 5090,1080p 可達約 26 FPS,達到即時串流門檻,且全程不需重寫 kernel 或重新訓練。所有推理走預設 PyTorch SDPA 與 bfloat16。

誰適合關注? 需要為直播、視訊會議、老片修復平台做即時前處理的研究員與工程師;對 DiT、串流推理、邊緣部署有興趣的開發者;以及想找一個 open-source 起點、把生成式 VR 推上消費硬體的團隊。

與同類相比的相對位置: 對照組 DOVE、SeedVR2-3B、FlashVSR-Tiny 在 QHD 下分別約 0.85、1.39、9.61 FPS,SwiftVR 約 31.32 FPS,速度差距明顯。論文亦宣稱在無參考感知品質指標上具競爭力,但具體分數請以原論文表格為準。

重點摘要:

  • 單步生成路線:放棄多步擴散,以一步生成換取低延遲。
  • MFSWA 注意力:把窗口預聚集成稠密張量,繞過稀疏 kernel。
  • ReAE 解碼器:取代 3D VAE,解放分塊解碼的瓶頸。
  • 因果分塊串流:無滾動 KV、快取即可限制時間軸成本。
  • 消費級硬體可達即時:RTX 5090 1080p 約 26 FPS,H100 一路到 4K。

GitHub: https://github.com/H-oliday/SwiftVR

項目: https://h-oliday.github.io/SwiftVR/

Categories: 開源, 影像處理, 模型, 視頻模型

CoVEBench 檢查影片編輯模型的真功夫

近年不少影片編輯模型已能根據文字改片,但一遇到多個要求同時出現,例如一邊改主體、一邊保留背景與動作連貫,表現就容易失準。CoVEBench 是一個診斷型 benchmark,專門檢查 compositional instruction-guided video editing 在複雜條件下是否真的做得到。

這項目的判斷方法比一般「整體看起來差不多」更嚴格。它把表現分成指令完成度、畫質與來源保真度三條線來看,並用細緻 checklist 檢查多個編輯點有沒有同時成立;就算模型個別要求做到幾項,只要無法通過 union criterion,分數仍然不高,這種設計能更早看出模型短板。

如果想了解它的內容,較合適的做法是先看示範頁與資料集規模,再對照評估指標。CoVEBench 收錄 416 段來源影片、626 條多重指令、9,990 個細項檢查點,預設會抽取 10 張等距 frame 做 frame-level metrics;AES、VQR、MSM 則只針對 edited videos 計算,方便把「改得夠不夠」與「有沒有改壞其他地方」分開分析。

  • 核心用途是評測 video editing models,不是直接拿來剪片
  • 主要指標包括 Union Accuracy(UAS)、Instruction Following Score(IFS)、Video Realism Score(VRS)、Semantic Consistency(SEM)
  • 設計重點在細粒度 checklist,而非只看單一總分
  • 結果顯示強模型未必兼顧保留原片內容,編輯力度與保真度存在拉扯
  • 項目亦比較了 joint editing 與 stepwise decomposition 的差異,前者表現更好

從公開資訊看,CoVEBench 的價值在於它把失敗原因拆得夠清楚,適合研究團隊、評測人員,以及想比較閉源與開源方案的人參考。相關模型包括 Wan2.7 與 HappyHorse1.0;即使領先系統在複合編輯上較強,UAS 仍未算高,反映這個領域離穩定可靠還有一段距離。

GitHub: https://github.com/NJU-LINK/CoVEBench

項目: https://nju-link.github.io/CoVEBench/

Categories: 開源, 影像處理, 框架

DIRECT:可調 3D 角度的物件插令合成更自然

DIRECT Logo

DIRECT(Decomposed Injection for Reference Composition and Target-integration)是一個用來把參考物件放入背景圖片的生成項目,重點不是單純補圖,而是加入明確的 3D 控制。網頁內容指出,現有 diffusion-based 方法多數把這類工作當成 2D inpainting,畫面雖然好看,但物件角度與空間位置較難精準控制。

DIRECT 先把參考物件提升成可互動的 3D proxy,讓使用者在目標場景內直接調整姿態,再把調整後的結果渲染成 geometry guidance。之後,生成器會同時接收參考物件的 appearance guidance、3D proxy 提供的 geometry guidance,以及背景圖片的 context guidance,合成最終插入效果。

它的核心創新在於 decomposed injection,把不同條件分開經由獨立路徑注入,而不是混在一起處理。這樣可減少 feature entanglement,較有機會同時保留原物件外觀、跟隨指定姿態,並令物件更自然融入目標場景。

重點可先留意以下幾點:
– 支援 pose-controllable object insertion,可直接調整物件姿態
– 以 reconstructed 3D proxy 提供明確幾何引導
– 把 appearance、geometry、context 三種訊息分開處理
– 附有 automated data construction pipeline,以提升訓練資料多樣性與質素
– 頁面表示在 geometric controllability 與 visual quality 上優於以往方法

這類項目特別適合影像合成、視覺生成、商品展示與內容製作等場景,當你需要指定物件朝向、位置感與場景一致性時會較有用。若你想跟進研究與重現結果,頁面已提供 Paper、Code,Model 與 Dataset 則標示為 soon。

GitHub: https://github.com/Gong1130/DIRECT

項目: https://gong1130.github.io/DIRECT/

Categories: 3D, 影像處理, 框架

Page 1 of 17
1 2 3 17