影像模型 – Page 3

BRDFusion：物理與生成模型合體，城市街景逆向渲染新框架

2026 年 6 月 16 日

現有的城市場景逆向渲染方法長期面臨兩難：基於物理的渲染（physically-based rendering）雖然能嚴格遵守光學物理，但在重建與渲染階段容易產生雜訊與破圖；生成式模型（generative models，例如 DiffusionRenderer）能產出逼真影像，卻難以精準控制光源，例如車燈這類局部照明往往被忽略。BRDFusion 正是針對這個 trade-off 而設計的混合框架。

這個項目屬於研究型框架，目標是把多視角城市影片分解為幾何（法線、深度）、材質（albedo、roughness、metallic）與 HDR 環境光源，並支援新視角重照明、夜景模擬與動態物件插入等下游應用。具體做法上，它先用物理模型取得明確且一致的場景屬性，再借助生成式先驗（generative priors）緩解優化過程中的歧義；前向渲染時，物理模型負責可控渲染，生成模型則負責去噪與修補瑕疵。

測試方面，作者提供預處理資料集與預訓練權重，研究人員可直接下載並透過 tools/run_pipeline.py 跑推理與評估；硬體需求偏高，建議使用 NVIDIA RTX A6000，RTX 4090 在記憶體允許下可執行部分階段，但 Gen. Render 階段可能突破 24 GB 限制。資料集與評估影片亦同步發佈於 Hugging Face，方便重現結果。

這個項目的創新之處在於把「物理一致性」與「生成式品質」放在同一條管線中互補，而非二選一。對從事自動駕駛模擬、遊戲或影視場景重建的研究團隊而言，這是一個值得關注的方向。

重點摘要

混合範式：物理渲染負責可控性，生成模型負責修補瑕疵，突破單一方法的極限。
完整分解：輸出幾何、材質與 HDR 光源，支援新視角、夜景與物件插入。
高硬體需求：建議 RTX A6000，4090 僅能跑部分階段。
完整開源資源：程式碼、預訓練權重、資料集與評估影片均已公開。
適用場景：自動駕駛模擬、城市數位孿生、影視級場景編輯。

GitHub： https://github.com/shigon255/BRDFusion

Categories: 開源, NVIDIA, Stable Diffusion, Video, Image, 工具, 影像模型, 影像處理, 模型, 模型訓練, 深度學習, 視覺模型, Meta, 框架, 清華大學

InterleaveThinker 多步生成變得可控

2026 年 6 月 13 日

InterleaveThinker 是一個多代理生成流程工具，目標是替現有圖像生成器加入 interleaved generation 能力，即按步輸出文字與圖片交錯的內容。它想處理的，不是單張圖夠不夠精美，而是多個步驟之間是否連貫、是否跟指令一致。

這個項目的核心做法，是把工作拆成 planner agent 與 critic agent。前者先安排圖文序列和每一步任務，後者再檢查生成結果、有偏差就修正指令再生成，做法比單次提示更像一個會反覆校對的流程。

如果你想試它，方向很明確：先接上它已支援的生成器，再用多步任務測試，例如故事場景連續變化、視覺教學、摺衫步驟、角色互動或 embodied manipulation。儲存庫已列出多個可配合的模型端口，包括 Qwen-Image、Qwen-Image Lightning、FLUX.1-Krea-dev、Qwen-Image-Edit Lightning、FLUX.1-Kontext-dev Edit 與 FLUX.1-Fill-dev Fill。

公開資料顯示，它在 interleaved generation benchmark 的表現可與 Nano Banana 及 GPT-5 接近；在推理導向基準也有明顯提升，例如 WISE 由 0.47 升至 0.73，RISE 由 13.3 升至 28.9（4-step FLUX.2-klein）。這些數字反映它的價值主要在「多步一致性與修正能力」，不是單靠底層模型硬撐。

重點不在訓練全新生成器，而是增強現有 image generator
以 planner agent + critic agent 處理多步圖文任務
適合 visual narratives、guidance、embodied manipulation、long-horizon sub-task annotation
已公開相關模型：InterleaveThinker-Planner-8B、Critic-SFT-8B、InterleaveThinker-Critic-8B
另有訓練資料集：Interleave-Planner-SFT-80k、Interleave-Critic-SFT-112k、Interleave-Critic-RL-13k

對研究圖文代理、工作流編排，或者想把現有出圖模型拉進多步任務的人，這個項目很有參考價值。若你只想單次生成一張圖，它未必是最直接的選擇；但若你要的是連續幾步都講得通、畫面不走樣，InterleaveThinker 的定位相當清楚。

GitHub： https://github.com/zhengdian1/InterleaveThinker

項目：https://zhengdian1.github.io/InterleaveThinker-proj/

Categories: 開源, 香港中文大學, 影像模型, 影像處理, 模型

Bernini：影片生成與編輯的新路線

2026 年 6 月 10 日

Bernini 是一個影片生成與編輯框架，核心是把 MLLM-based semantic planner 與 DiT-based renderer 組合起來，處理一般影片擴散模型常見的內容漂移、指令跟從不穩定，以及長片段規劃鬆散等問題。從定位看，它不是單純再堆大模型，而是先做語意規劃，再交由生成器落實畫面。

這個項目的關鍵想法，在於「Latent Semantic Planning」：先在潛在空間安排語意，再做 video diffusion。對非研究背景讀者來說，可以理解為先寫分鏡草稿，再逐格畫面化，這比直接由文字一步到位生成影片，更有機會保持故事連貫和編輯意圖一致。

如果想試，較合理的切入點是影片編輯任務，例如風格轉換、字幕或水印移除、局部修改，再觀察輸出有沒有跟足指令。倉庫列出的環境偏高階，建議準備 CUDA 12.4、Python 3.11.2，以及 torch==2.5.1+cu124、diffusers==0.35.2、accelerate==0.34.2、transformers==4.57.3；若有 H100、H800、H200 可配合 FlashAttention-3，其他 CUDA GPU 則退回 FlashAttention-2 或 PyTorch SDPA。

Bernini 在 video editing 的表現進入部分主流 closed-source commercial models 的第一梯隊，評分來自其自建 arena，以人工盲選、Bradley-Terry score 及 pairwise win-rate matrix 彙整。這類結果有參考價值，但暫時主要反映編輯場景；若你關心更複雜的人物生成，官方也提到 1.3B 的 Bernini-R 在簡單任務接近 14B 版本，面對複雜任務仍有差距。

Bernini: Latent Semantic Planning for Video Diffusion

Watch this video on YouTube

核心組成是 MLLM-based semantic planner + DiT-based renderer
已公開 Bernini-R 權重，包含 1.3B 版本
適合研究影片生成、影片編輯流程，或想比較規劃式生成方法的人
硬件門檻偏高，Multi-GPU sequence parallel 亦需要 Open-VeOmni
相關模型可先留意 Bernini-R-1.3B-Diffusers，以及文中提到的 14B 變體

整體來看，Bernini 最有價值的地方不是「再一個影片模型」，而是把規劃與渲染拆開處理，令可控性成為主要賣點。若你想找可直接在普通電腦輕鬆跑的項目，它未必合適；但如果你重視研究方向、編輯質素與系統設計，這個項目相當值得細看。

GitHub： https://github.com/bytedance/Bernini

Categories: 開源, 字節跳動, 影像模型, 影像處理, 模型, 視覺模型, 視頻模型, 語音, 框架

Stable-Layers：靠 VLM 評分強化學習，毋須配對數據也能改良圖層分離

2026 年 6 月 7 日

圖像圖層分解（image layer decomposition）是指把一張圖分成幾層可獨立編輯的 RGBA 影像，再合併回原本的畫面。這個技術是專業修圖與合成工作流的基本工序，但要訓練模型做這件事並不容易：同一張圖往往存在多種合理分層方式，而且品質好壞取決於下游是否好用，例如語意分層是否清晰、alpha 遮罩是否乾淨、是否有冗餘層，以及被遮擋的部分能否被合理填回。

傳統做法會用合成的配對數據集（即同一張圖同時提供「原圖」與「正確分層」）來監督模型學習，但這會帶來先天限制：當多種分層都同樣合理時，強迫模型擬合單一標準答案，等於懲罰了其他可行的解法。Stable-Layers 嘗試繞過這個限制，改用強化學習（reinforcement learning）讓模型直接朝「看起來品質好」的方向優化，監督訊號只來自一個視覺語言模型（vision-language model，VLM）。

具體而言，項目以 Qwen-Image-Layered 為起點，結合 Flow-GRPO 與 LoRA（Low-Rank Adaptation，低秩適應）微調，針對每張圖採樣多個候選分層，再用 VLM 評分，從群組相對優勢（group-relative advantages）來更新策略。當中最大的挑戰是設計可靠的獎勵訊號：VLM 單獨評分時容易把所有樣本擠進一個狹窄的分數區間，導致 GRPO 缺乏組內變化可以學習。為此，Stable-Layers 採用兩階段評估流程——先按五個編輯向標準逐項評分，再把所有候選並排放在標記好的比較網格上重新評分一次，藉此取得更細緻的相對校準。

Stable-Layers 重點摘要：

毋須配對數據：在完全沒有標註的圖像上訓練，解決合成數據集帶來的偏誤問題
VLM 擔任評審：利用視覺語言模型就五個編輯標準打分，提供獎勵訊號
兩階段評估：先獨立評分，再以比較網格重新校準，避免分數過度集中
強化學習微調：結合 Flow-GRPO 與 LoRA，從 Qwen-Image-Layered 開始改良
實測表現：在 Crello 數據集上，圖層分離度更高、空白或帶瑕疵的層更少、每層重建誤差也較低

適用場景與對象：這個項目適合做圖像編輯、合成或設計工具的研究者與工程師，尤其是手上沒有大量配對分層數據、又想提升分層品質的團隊。對強化學習應用於視覺生成感興趣的人，也能從它處理「組內變化不足」的設計中得到啟發。

效能與評估：團隊在 Crello 數據集上測試，結果顯示 Stable-Layers 相比基礎模型，圖層分離更明確、出現空白或帶雜訊的層更少，而且每層的重建誤差也更低。論文獲 NeurIPS 2026 接收（arXiv:2605.30257v1）。

引用的模型：Qwen-Image-Layered（基礎分層模型）、Flow-GRPO（強化學習算法）、LoRA（高效微調方法）、視覺語言模型評審。

項目： https://stability-ai.github.io/stable-layers.github.io/

Categories: 開源, 影像模型, 影像處理, 模型, 深度學習

DRDD：用兩階段拆解擴散模型，更省數據的圖像轉譯方案

2026 年 6 月 4 日

圖像到圖像轉譯（Image-to-Image Translation, I2I）涵蓋去雨、去霧、低光增強、去噪、去模糊等多種任務，傳統做法往往需要為每個場景單獨訓練模型。HKU-HealthAI 提出的 Decoupled Residual Denoising Diffusion models（DRDD）嘗試用一套架構同時處理這些任務，並減少對大量配對數據的依賴。

DRDD 的核心做法是把擴散過程拆成兩個獨立階段：第一階段負責加入雜訊，達到所謂的「域調和」（domain harmonization）與流形抬升（manifold lifting）；第二階段則在固定雜訊下做決定性的殘差擴散，專注學習語意對應。這種解耦設計避免了傳統擴散模型在去噪過程中提早耗散域調和效果的問題，因此能在一個模型內統一處理多個修復任務。

由於第一階段的雜訊擴散只使用目標域的非配對圖像訓練，DRDD 在配對數據稀缺時仍能保持表現，這對醫療影像或特殊場景數據蒐集成本高的領域特別有用。團隊在 all-in-one-5 設定下測試，涵蓋 Rain100L、GoPro、Dehaze、CBSD68 與 LOL 等數據集，並使用 LPIPS 等指標評估。論文亦提供理論與實證分析，說明其設計相容於主流擴散模型架構。

這個項目適合從事圖像修復、影像增強或風格轉換的研究者與工程師，尤其關心多任務統一、數據效率的團隊。使用前需要 Linux 環境、NVIDIA GPU、Python 3.7 以上，以及 Conda。預訓練權重可從 Quark 或其他途徑取得，並依說明放入 ./pretrained_models 目錄。

重點摘要：
– 將擴散拆成「雜訊擴散」與「殘差擴散」兩階段，保留域調和效果。
– 支援去雨、去霧、低光、去噪、去模糊等多種 I2I 任務的統一訓練。
– 第一階段僅用非配對目標域數據，降低對配對樣本的依賴。
– 相容主流擴散模型，可作為插件式改良方向。
– 適合醫療影像、遙測或數據稀缺場景的研究團隊。

DRDD 已在 GitHub 公開代碼與數據集結構，鼓勵社群以現有擴散骨幹（如 DDPM 系列）進一步測試與延伸。

GitHub： https://github.com/HKU-HealthAI/DRDD

Paper： https://arxiv.org/pdf/2606.01048

Categories: 開源, 香港大學, 香港中文大學, 影像模型, 影像處理, 模型, 視覺模型, Dataset 數據集

Lumos-Custom：DAMO 學院的影片生成套件

2026 年 6 月 2 日

Lumos-Custom 是阿里巴巴DAMO 學院的開源影片定制研究合集，把三個子項目整合在同一個儲存庫，方便研究者各自取用。三個子項目分別對應不同的影片生成難題：身份與屬性定制、打光控制，以及結合推理的統一生成。

其中最受關注的是 Lumos-Nexus （arXiv 2605.31603）。它解決了一個長期痛點：把大型高保真生成器放進統一訓練迴圈成本太高，改為訓練一個輕量的連接器對齊理解模組，再用「Unified Progressive Frequency Bridging (UPFB)」在推論時把任務交接給預訓練的高容量生成器，既省訓練資源又保留視覺品質。為了補足推理類影片生成的評測空白，作者還發布了 VR-Bench。

第二個項目是 LumosX，已被 ICLR 2026 接收。它的切入點是「多主體個性化影片生成」：先用字幕與 MLLM 抽取的先驗建構關係結構，再透過 Relational Self-Attention 與 Relational Cross-Attention 編碼主體與屬性之間的依賴。評測資源集中在 LumosX/benchmark/，權重已上傳 Hugging Face。

第三個項目是 UniLumos（NeurIPS 2025），專注於圖像與影片的統一重新打光，採用 RGB 空間幾何回饋配合 flow-matching 主幹，適合需要控制光影的研究與應用場景。

總結要點：

** DAMO 是 Discovery, Adventure, Momentum and Outlook
Lumos-Nexus：輕量訓練搭配 UPFB 頻率交接，兼顧推理品質與視覺保真度
LumosX：以關係式注意力處理多主體個性化生成，附 benchmark 與 Hugging Face 權重
UniLumos：統一圖片與影片重新打光，採用 flow-matching 與幾何回饋
VR-Bench：補上推理驅動影片生成的評測缺口
子項目獨立部署：每個子項目都有獨立 README，支援單獨安裝與重現

這個項目適合研究影片生成、多模態統一模型與個性化生成的研究者與工程師。如果你想驗證 Lumos-Nexus 的推理影片效果，可進入 Lumos-Nexus/ 跟隨 README 取得 OmniVideo 權重並跑批次推論；想評測打光則可參考 UniLumos 提供的流程。

✧ Repository layout ✧

Lumos-Custom/
├── README.md                 # This file: umbrella overview
├── LumosX/                   # ICLR 2026 · personalized multi-subject video generation
│   └── README.md
├── UniLumos/                 # NeurIPS 2025 · unified relighting + LumosBench/
│   ├── README.md
│   └── LumosBench/
└── Lumos-Nexus/              # arXiv preprint · reasoning-driven unified video generation + VR-Bench
    ├── README.md
    └── vr_bench_eval/

GitHub： https://github.com/alibaba-damo-academy/Lumos-Custom

項目： https://jiazheng-xing.github.io/nexus-lumos-home/

Categories: 開源, 阿里巴巴, 香港科技大學, 影像模型, 視頻模型, 清華大學

minWM：由影片生成走向 World Model

2026 年 5 月 30 日

minWM 的定位很清楚：它不是再提供一個新模型，而是把建立 video world model 的整條流程拆開，讓人由 bidirectional T2V（Text-to-Video）或 TI2V（Text-and-Image-to-Video）基礎模型，一步步轉成 action-conditioned video world model。對剛接觸這個領域的人來說，這種完整路線比只放權重或單段程式碼更有幫助。

這項目重點不是「裝完即用」，而是按它提供的資料處理、訓練、蒸餾與推理流程逐段走。項目公開了 data → training → inference 的全流程，並提供 example data、runnable scripts、Claude Skills 與新手知識整理，方便你先跟一次標準流程，再按自己需要改 backbone、資料分佈或控制方式。

它要解決的問題，在於高質影片生成模型未必等同可互動的 world model。要做到低延遲、可因果 rollout、可回應鏡頭軌跡等操作，背後需要 camera control、autoregressive training、few-step distillation 及 streaming inference 等整套機制；minWM 正是把這些環節模組化，並用 Causal Forcing、Causal Forcing++、Teacher Forcing 與 asymmetric DMD 串連起來。

支援 4-step DMD inference，並提到 multi-GPU sequence parallelism
可用 pose strings 或 JSON 檔控制 camera trajectory
提供 debug-world-model，整理 loss NaN、jitter、camera drift 等常見失敗模式
提供 integrate-new-backbone，示範怎樣接入新的 video DiT
參考 backbone 包括 Wan2.1-T2V-1.3B、HY1.5-TI2V-8B，亦提到 HY Action2V、HY TI2V、Wan Action2V

項目的新意在於它同時處理「怎樣訓練」與「怎樣改造」。除了支援不同 backbone 與 condition injection 方式，也把團隊累積的排錯經驗與 Claude 協作流程寫進項目，令研究者或工程人員不只看到結果，還能理解常見錯誤從哪裡出現。

它的目標是 real-time interactive video world models，並附有對 camera trajectory quality、controllability training steps、minimal batch-size requirements 的實驗分析。不過公開資訊較偏向框架與流程，若你想比較單一模型跑分，這個項目更適合當作建立、重現及擴展 World Model 的工作底座。

GitHub： https://github.com/shengshu-ai/minWM

Categories: 開源, 香港科技大學, Agentic, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 世界模型, 框架

CollectionLoRA：把多個效果 LoRA 濃縮成一個

2026 年 5 月 30 日

Repository image for Qwen-Applications/CollectionLoRA

CollectionLoRA 是一個針對 LoRA 管理成本而設的項目，核心做法是用 multi-teacher on-policy distillation，將多個效果 LoRAs 的概念，以及 few-step generation 能力，一次過蒸餾進單一 LoRA。對一般使用者來說，意思就是原本要為不同效果切換或串接多個 adapter，現在有機會改用一個整合版本處理，流程會更簡潔。

使用這個項目時，重點不是由零開始訓練，而是先按項目提供的 ckpt/ 結構放好權重，之後以 50_in_1/ 作推理用途。倉庫亦提供公開的 training and inference code，而 data/manga_tone/ 內有起步用的 teacher LoRA 和示範訓練資產，方便了解整個資料與模型配置方式。

它解決的問題相當明確：當效果 LoRA 數量愈來愈多，部署、切換與疊加都會變得麻煩，配合 acceleration modules 時，還可能出現互相干擾。CollectionLoRA 嘗試把「多效果」與「少步數生成」合併到同一個 LoRA，這比單純收藏大量 LoRA 更像是重新整理整個工作流。

項目公開的重點包括幾個方向：
– 可把 50→1，甚至 180→1 的效果教師整合到單一 LoRA
– 在 EffectBench 上，文中稱其於 8 NFE 下可取得較高 VSA 與較低 BCR
– 支援 zero-shot 的 A ⊕ B 組合效果，推理時可配對兩個已訓練教師，無需額外訓練
– 已開放 training and inference code，但 model weights 仍標示為未全面開放

這個項目較適合會接觸生成效果控制、需要管理大量 LoRA 的研究者與開發者，也適合想減少部署複雜度的團隊。若你關心的是把多種風格或效果整合成較易分發的模型形式，CollectionLoRA 展示的方向很有參考價值；不過現階段公開資訊主要集中在框架、指標與示範資產，完整權重供應情況仍要留意項目後續更新。

GitHub： https://github.com/Qwen-Applications/CollectionLoRA

Categories: 開源, 阿里巴巴, 影像模型, 影像處理, 視覺模型, 框架

Skill0.5 如何提升強化學習泛化力

2026 年 5 月 29 日

Skill0.5 是一個面向 Agentic Reinforcement Learning 的研究項目，聚焦處理 out-of-distribution generalization 問題。它指出傳統 skill-based RL 方法常要在 full externalization 與 full internalization 之間二選一，前者會帶來高昂的 context 開銷，後者則容易出現 overfitting 與知識衝突。

這項目把 general skill internalization 與 task-specific skill utilization 一同納入訓練，但用不同策略處理兩種性質不同的技能。系統會用 difficulty-aware router 按任務難度分流：Hard tasks 用 privileged distillation 內化通用技能，Medium tasks 用標準 RL 提升成功率，Easy tasks 則透過 diagnostic probing 懲罰走捷徑的行為，迫使模型忠實運用任務相關技能。

對初步理解這個項目的人來說，可先把它視為一種「按難度分工」的訓練框架，而不是單一模型結構。使用時要留意 context 開銷被視為問題之一，某程度上也反映較重的外部技能依賴可能增加資源壓力，包括 VRAM 與序列處理成本。

解決 rigid choice 問題，避免只靠 externalization 或 internalization
用 difficulty-aware router 把任務分成 Hard、Medium、Easy 三層
分別結合 privileged distillation、標準 RL 與 diagnostic probing
在 ALFWorld 與 WebShop 中，據摘要所述優於 memory-based 與 skill-based RL baselines

這類項目較適合研究智能代理、任務規劃與泛化能力的人參考，尤其是想改善模型在陌生情境下穩定性的團隊。

訓練和實現時使用 Qwen2.5-7B-Instruct 作為基礎模型。策略最佳化方面採用 GRPO 作為骨幹網絡，組別大小 G = 8，學習率為 1 × 10⁻⁶。訓練在 4 個 H800 GPU 上進行，每次迭代的批次大小為 16 個任務，最大互動範圍設定為 30 步。任務特定技能透過 Qwen3-Embedding-0.6B 取得。

GitHub： https://github.com/JasonZhujp/Skill0_5

Categories: 開源, 多模態模型, 影像模型, 影像處理

LaRA 用層級表示找出 RL 訓練污染

2026 年 5 月 29 日

這篇論文介紹 LaRA（Layer-wise Representation Analysis），目的是找出 Reinforcement learning（RL）post-training 階段的資料污染問題。所謂污染，是指評估題目或基準資料混入訓練資料，令 Large Language Models（LLMs）看似表現很好，但其實可能只是記住答案，影響泛化能力與評估可信度。

作者指出，現有方法多數只看輸出層面的訊號，例如 likelihood、entropy 或生成行為差異，但這類方法對 RL 訓練後的模型未必穩定。原因是 RL 重點在整條 reasoning trajectory 的 reward，而不是逐個 token 的機率，因此只靠輸出分佈，容易受 miscalibration 影響，未必能準確反映模型是否記住了評測資料。

LaRA 改為分析模型各層的內部表示，觀察受控擾動前後的幾何變化。論文提出三個互補指標：perturbation sensitivity、directional collapse、local representation rigidity，用來量度污染樣本在不同 layer 的異常反應；作者發現，受污染資料會在多層表示中逐步出現更高敏感度、更強方向收縮，以及更高局部剛性。

使用這個項目時，重點不是增加推理速度，而是作為檢測流程，協助研究人員審視 RL 訓練後模型的可信度。文中也提出一套偵測 protocol，把不同 layer 與不同指標的偏差整合起來；在 RL-trained reasoning models 的實驗中，這套方法表現優於現有 output-level baseline。

解決 RL post-training 資料污染難以辨識的問題
以 representation-level 訊號取代單看輸出機率
結合三個指標，從多層 layer 分析污染痕跡
適合用於 reasoning 模型評估、訓練審核與研究比較
論文摘要未提供 VRAM 需求，較可能受模型大小、抽取 layer 數目與批次分析設定影響

如果你關心 VRAM 的應用，這篇內容沒有列出明確顯示卡記憶體需求，也沒有提供部署規格。不過按方法性質推測，LaRA 需要讀取多個 layer 的 hidden representations，使用時 VRAM 主要會花在模型載入、儲存中間層表示，以及對多個擾動版本做批次分析；模型越大、分析層數越多，VRAM 需求通常越高。

Paper： https://arxiv.org/pdf/2605.29888

Categories: 開源, 多模態模型, 影像模型, 影像處理

Page 3 of 12

« Previous 1 2 3 4 5 … 12 Next »