影像模型 – Page 2

PRA：像素級自回歸生圖的新路線

2026 年 6 月 30 日

PRA 是一個以 PyTorch 實作的影像生成研究項目，屬於 class-conditional pixel-space autoregressive image generation 模型與訓練框架。它要解決的問題，是直接在像素空間逐步生成圖片時，單步誤差大、而且 teacher-forced training 與推理流程不一致，令誤差一路累積。

現有 pixel-space continuous-token autoregressive 做法，多數直接預測高維像素 patch，或用 x-prediction、input noise injection 減輕誤差，但改善有限；exact rollout training 雖然更貼近推理，代價又太高。PRA 的取向是加入 Parallel Rollout Approximation (PRA)：先生成低維 intermediate states，再經 pixel decoder 映射回 pixel-space tokens，同時用近似推理時的 pixel-feedback 方式保留平行訓練效率。

這個設計的重點，不是單純追求更大模型，而是重新處理「訓練見到的輸入」與「生成時真正收到的回饋」之間的落差。論文資料顯示，它在 ImageNet-1K 256×256 的 class-conditional 生成上，PRA-S 135M 參數已做到 FID 2.58，優於先前 billion-scale pixel-space AR 的 3.60；PRA-L 511M 進一步到 1.94，定位很清楚，就是衝着 pixel-space AR 的 SOTA 而來。

部署理解上，儲存庫已提供 environment.yml、requirements.txt、預訓練權重與 sample_ddp.py，代表作者預設你會用多卡分散式抽樣與評測。評估指標包括 FID、Inception Score、precision、recall，另有 ImageNet classification probing accuracy 作為生成以外的補充觀察，表示作者也在測試表徵能力，而不只看出圖漂亮與否。

項目類型：研究原型兼模型實作，集中展示 PRA 訓練與取樣流程
相關模型：PRA-S、PRA-B、PRA-L，參數量約 135M、250M、511M
主要差異：不用離散 tokenizer，維持 pixel-in、pixel-out AR 介面
較適合情境：研究 pixel-space AR、比較生成指標、重現 ImageNet 類條件生圖結果
需要留意：目前公開內容偏向研究重現，不是即裝即用的終端應用工具

受益最大的，會是做影像生成研究的團隊、想比較 autoregressive 與 diffusion 路線的人，以及要研究像素空間建模取捨的學術項目。對一般開發者來說，這個項目較像高水準實驗平台；有現成 checkpoint 和評測流程是優點，但 CUDA、PyTorch 與 FlashAttention 相容性仍需自行處理。

GitHub · Paper

Categories: Image, Python, 影像模型, 模型訓練, 北京大學

DanceOPD：多能力影像生成的場景蒸餾框架

2026 年 6 月 27 日

DanceOPD 是一個針對 flow-matching 模型設計的 on-policy 生成場景蒸餾框架，目標是讓單一影像生成模型同時具備文字生成影像（T2I）、局部編輯與全域編輯等多種能力。核心做法是將每個來源能力視為一個速度場（velocity field），然後在學生模型自己產生的 on-policy 狀態上查詢這個場景，再以簡單的速度 MSE 損失進行訓練。

這套方法最值得留意的差異在於 hard-routed 設計：每個樣本只被路由到一個被選中的能力場，並且只查詢一個低噪聲的語義側狀態（semantic query），避免了對多個來源場景做平均而模糊語義身份的問題。同一套框架也能吸收 operator-defined fields，例如 classifier-free guidance，讓引導機制自然融入訓練。

在評估方面，DanceOPD 報告了多項指標，包含 GEditBench-avg 在 T2I + Edit Composition 上達到 5.347、GenEval Overall 達到 0.849 同時保持 T2I 表現，以及 Local + Global Edit Composition 的 5.498、CFG 吸收診斷中 5.833 的最佳值。

這項工作適合關注多能力影像生成整合、蒸餾方法以及 flow-matching 模型研究的開發者與研究者。由於 Code 標示為「Soon」，目前尚未提供源碼或模型下載，因此暫無可對應的安裝或使用步驟可分享。

主要重點：

核心定位：flow-matching 模型的 on-policy 生成場景蒸餾框架
方法差異：hard routing 單一能力場景加單一低噪聲語義查詢，避免場景平均造成的語義模糊
支援能力：T2I、局部編輯、全域編輯，並能吸收 classifier-free guidance 等 operator-defined fields
評估數字：GenEval 0.849、GEditBench T2I+Edit 5.347、Local+Global 5.498
現有狀態：論文可在 arXiv 瀏覽，原始碼尚未公開

項目主頁： https://danceopd.github.io/

Paper： https://arxiv.org/pdf/2606.27377

Categories: 開源, 字節跳動, Image, Content Creator, txt2img, 影像模型, 模型, 教學, 模型訓練, 深度學習, 框架

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

DiffusionBench：擴散模型評測框架

2026 年 6 月 26 日

這是一個針對擴散 Transformer（Diffusion Transformers, DiT）研究的基準測試項目（benchmark），核心目的是在 ImageNet 與文字生成圖像（T2I）兩種場景下，對擴散模型進行統一的訓練與橫向評測。舊有做法普遍以 ImageNet 的類別條件生成（class-conditional generation）為單一評測標準，作者批評這種範式已經難以反映生成模型的真實進展，因為 T2I 雖然更貼近實用，卻常被視為過於昂貴或不便而跳過。為此，項目推出 NanoGen 統一訓練框架，並以 DiffusionBench 重新組織評測結構，把 ImageNet 與 T2I 納入同一比較基準。

統一訓練介面：NanoGen 只需約 12 行的配置更改，就能在 ImageNet 與 T2I 之間切換。
跨任務方法比較：系統性收錄並比較 25 種 DiT 方法。
多維度評測指標：涵蓋 FID 等多項 ImageNet 與 T2I 指標。
研究成果已收錄 arXiv 論文（2606.24888），對應的模型權重同步上載至 HuggingFace。
目前版本為 v0.1，作者明確標示仍處於初步階段，並積極招募社群貢獻者。

與單獨的 ImageNet 評測相比，DiffusionBench 的關鍵差異在於同時納入 T2I 任務，藉此揭示方法排名在兩類任務之間並無強相關（no strong correlation），這意味著 ImageNet 上的 FID 提升未必代表 T2I 生成品質同步改善。框架支援 VAE、RAE 與 Pixel space 等不同潛在空間（latent space）的訓練，技術上整合了 REPA-E 與 iREPA 等對比方法，適合 DiT 研究團隊、生成式模型工程師，以及關心基準公正性的學術工作者使用。受惠最大的，是需要評估自家方法在多任務泛化能力的團隊，以及希望避免單一指標誤導的審稿人與研究者。

GitHub： https://github.com/End2End-Diffusion/diffusion-bench

項目主頁： https://end2end-diffusion.github.io/diffusion-bench/

Model： https://huggingface.co/diffusion-bench/diffusion-bench

Categories: 開源, Image, txt2img, 影像模型, 模型, 模型訓練, 深度學習, 框架

DataClaw0 想把雜亂多模態資料變成可訓練資產

2026 年 6 月 25 日

這是一個面向多模態資料整理的研究原型兼框架，核心是用 Agentic Data Tailoring 把原始串流資料重組成有結構、可驗證、可直接用於訓練的 supervision。它要解決的不是「再做一次標註」，而是長影片、GUI traces、embodied trajectories 與 editing sequences 太雜亂、資訊密度不均，令人和模型都難以有效吸收。

現有做法多數依賴 passive annotation paradigms，用 heuristic rules 或 general VLMs 被動加標籤；作者認為這類方式成本高、內容單調，亦抓不到原始資料入面的 procedural logic。DataClaw0 改用「Bottom-up Factual Anchors → Top-down Semantic Synthesis」兩段式流程，先抽取較確定的 factual anchors，再按意圖生成結構化語意，重點在於它不是只描述內容，而是按 downstream objective 重寫資料。

模型層面，項目提出 DataClaw-9B，並以 Supervised Fine-Tuning（SFT）加 rule-driven Group Relative Policy Optimization（GRPO）做對齊；部署上分成 unified Omni model 的 DataClaw-O，以及分領域 Experts 的 DataClaw-E。這種取向的取捨很明顯：Omni 較方便統一處理多域資料，Experts 則較可能在特定場景保留更細緻的領域表達。

現階段先看論文與案例再判斷是否值得追蹤，因為 code、model weights、dataset 和 DataClaw-val benchmark 仍未正式釋出。已公開資訊顯示，它的評測不只看生成是否通順，還會檢查 JSON validity，以及 schema-aware 的 Field、Semantic、Sequence 指標，並再用 video generation、real-world VQA、GUI navigation 的下游 post-training 效果驗證資料整理是否真的有用。

項目類型：研究原型／資料整理框架，重點是把原始多模態串流轉成意圖對齊的訓練資料
主要差異：不是被動標註，而是主動 refinement，並保留 schema-conformant、verifiable 輸出
相關模型：DataClaw-9B、DataClaw-O、DataClaw-E，訓練結合 SFT 與 rule-driven GRPO
適合情境：做多模態 post-training、GUI agents、VQA、影片或 embodied 資料整理的團隊

如果你關心的是建立資料引擎，而不只是找一個模型做推理，DataClaw0 比一般 VLM 標註流程更有方向性。限制也很直接：目前公開內容以論文與項目頁案例為主，能否重現效果、部署成本多高、不同領域泛化有多穩，仍要等正式釋出的資料與基準再作判斷。

GitHub： https://github.com/vancyland/DataClaw0

項目主頁： https://czjdsg.github.io/MakeAnyData/#cases

Paper： https://arxiv.org/pdf/2606.21337

Categories: 開源, Qwen, Gemini, Agentic, Video, 工具, IDE, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 框架, Dataset 數據集

Moebius：輕量補圖模型挑戰 10B 級效果

2026 年 6 月 21 日

現時高質 image inpainting 多數依賴 10B 級大型通用模型，例如 FLUX.1-Fill-Dev，但代價是運算重、速度慢，部署門檻亦高。Moebius 屬於影像修補框架，核心目標很明確：用細得多的模型體積，換到接近甚至部分情境超過大型模型的補圖質素。

它的取向不是再把模型做大，而是重組 Latent Diffusion Model (LDM) 架構，再配合蒸餾把大模型能力壓縮進 0.22B 參數。當中的 Local-λ Mix Interaction（LλMI）block 以固定大小線性矩陣整理空間資訊與全域語意，避開 attention 常見的二次方計算負擔；另一邊再用 adaptive multi-granularity distillation，直接在 latent space 對齊 teacher PixelHacker，減少 pixel-space decoding 的訓練成本。

官方資料把它與 FLUX.1-Fill-Dev、SD3.5 Large-Inpainting 比較，指在 Places2、CelebA-HQ、FFHQ 等自然與人像場景共 6 個 benchmark 上，整體可做到同級甚至部分超前。數字上最搶眼的是少於 2% 參數量，以及總推理時間超過 15 倍加速；不過這些結果仍主要來自項目方報告，解讀時宜留意測試設定是否完全一致。

要理解這個項目怎樣落地，可先把它當成「為 image inpainting 而生的輕量 specialist」，而不是萬用生成平台。較適合資源有限的研究團隊、要在單 GPU 或邊緣設備部署影像修補的人、以及希望在速度與成本上取平衡的產品開發者；若你追求最廣泛的通用生成能力，大模型 generalist 仍有優勢。

類型定位：輕量 image inpainting framework，主打高效率部署
主要差異：不走純 scaling 路線，改用 LλMI block + distillation 壓縮能力
性能重點：0.22B 參數、單步 26.01ms、總推理約 15× 加速
相關模型：FLUX.1-Fill-Dev、SD3.5 Large-Inpainting、PixelHacker
適合情境：單 GPU、消費級硬件、對延遲與成本敏感的影像修補工作

GitHub： https://github.com/hustvl/Moebius

項目主頁： https://hustvl.github.io/Moebius/

Categories: 開源, Image, AI productions, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

FreeStyle：用社群 LoRA 做雙參考生圖

2026 年 6 月 21 日

現時不少 style-reference 生成，只處理單一風格參考；至於 content + style dual-reference，常見難位是資料難整、風格長尾不足，兼且 style reference 容易把人物、物件等內容一併「滲」入結果。FreeStyle 把社群 LoRA 視為風格或內容概念的聚類中心，再配合自動生成與過濾流程，重組出可訓練的雙參考資料，連 benchmark 一起補上。

這不是單純模型，而是一個結合資料管線、benchmark 與 DiT-based model 的影像生成項目，目標是解決 SRef 與 CRef+SRef 兩類任務中，內容保持、風格對齊與 leakage suppression 很難同時兼顧的問題。文中提出 attention-level constraint，以及 RoPE low-frequency modulation，核心取向很清楚：寧可多做約束，也要壓住 style-reference content leakage。

資料規模是 FreeStyle 最有份量的部分。CRef+SRef dataset 提供 480K sequences，涵蓋 1,704 種 styles；SRef dataset 則有 619,302 sequences、622 種 styles。評測亦不只看靚唔靚，還加入 CSD、OneIG、DINOv2、CAS、CLIP-T、aesthetic predictors 及 VLM-as-judge，將 style similarity、content preservation、instruction following 同 leakage rejection 分開量度。

想理解怎樣測試這個項目，較合理的做法是分三層看：先用公開 dataset 與 benchmark 檢查資料結構；再看 repo 提供的 LoRA metadata 與 ComfyUI workflows，理解 triplet 怎樣生成與驗證；最後才研究 checkpoint 表現。它較適合研究團隊、做可控生圖的產品組，或者本身已在用 FLUX、Qwen、Illustrious 生態的人。

把 Civitai、TensorArt、Liblib 的社群 LoRA 變成可用訓練訊號
同時覆蓋 SRef 與 CRef+SRef，而非只做單一風格參考
重點不是單純追求風格像，而是壓低內容洩漏
提供 dataset、benchmark、workflow、checkpoint，便於重現整個流程

相關模型與基礎生態包括 DiT-based model、FLUX、Illustrious、Qwen，以及資料生成用的 ComfyUI workflow。若你關心的是商用穩定性，仍要留意它相當依賴社群 LoRA 品質與過濾流程；作者亦有講明，原始 LoRA 權重本身未必會隨項目再分發。

GitHub： https://github.com/Blue2Giant/FreeStyle

項目： https://blue2giant.github.io/FreeStyle/

Categories: 開源, 阿里巴巴, Qwen, ComfyUI, Stable Diffusion, Image, 工具, Content Creator, Sora, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Meta, Dataset 數據集

ImageWAM 用圖片編輯做機械人決策

2026 年 6 月 21 日

Repository image for yuyangalin/ImageWAM

ImageWAM 是一個模型訓練與評測項目，核心目標是用 image-editing foundation models 取代傳統 World Action Models (WAMs) 常見的影片生成流程，處理機械人動作預測又慢又重的問題。它的判斷很鮮明：與其生成一段未來畫面，不如直接從「當前影像 + 指令」抽取足夠的動作線索。

這項目把圖片編輯模型的中間表徵拿來做 robot action prediction。根據項目頁資料，ImageWAM 推論時不一定要解碼出編輯後影像，而是使用單次 image editing forward step 產生的 KV caches，再交給 action expert 生成未來動作，方向上比多幀影片預測更輕量。

先看 FLUX.2 ImageWAM，因為倉庫已表明它是主力版本，並提供 4B 與 9B 變體。之後再按手上資料與算力，準備本地 datasets、pretrained weights、ActionDiT 初始化權重，然後在 LIBERO、LIBERO-plus 或 RoboTwin 這幾個基準環境做訓練與評測。

這個方向不只是概念實驗。項目頁列出 RoboTwin 2.0 為 93.38%、LIBERO 為 98.4%、LIBERO-Plus 為 83.1%，並提到可節省 4.1× FLOPs、推論延遲加速 84.7%。這些數字很吸引，但始終以作者公開的實驗設定為準，若換成不同機械人平台或資料分布，表現仍要再驗證。

支援多個相關模型：FLUX.2 ImageWAM、OmniGen2 ImageWAM、Ovis-U1 ImageWAM
FLUX.2 提供 4B 與 9B 版本，Ovis-U1 走較細模型路線
適合機械人控制、world modeling、action prediction 研究與基準測試
重點不是生成漂亮畫面，而是抽取對動作決策有用的變化資訊

整體來看，ImageWAM 不算面向一般用家的 AI 工具，更像給研究者與工程團隊驗證新路線的開源項目。若你關心 world action models 是否一定要靠影片生成，這個項目提供了一個相當具體，而且有基準成績支持的反例。

GitHub： https://github.com/yuyangalin/ImageWAM

項目： https://zhangwenyao1.github.io/ImageWAM/

Categories: 開源, Video, Image, 工具, 庫, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 世界模型, Dataset 數據集

UniAR 用一個 Transformer 包辦看圖、作圖、改圖

2026 年 6 月 18 日

現有 Unified Multimodal Models（UMMs）多數會把影像理解和影像生成分開處理，常見做法是用兩套 visual tokenizers。作者認為這種 fixed paradigm 會把表示空間拆開，模型生成完圖片後，還要再重新編碼才能理解自己剛產生的內容，shared context 也就難以真正成立；UniAR 因此提出一個 unified autoregressive framework，用單一 discrete visual tokenizer 連接理解、生成與編輯。

項目屬於多模態模型，目標是用同一個 Transformer 解決 image understanding、image generation 和 image editing 之間來回切換的成本。它的核心判斷很直接：若模型看圖與作圖共用同一套視覺 token，流程就不需要額外 re-encoding，系統結構會更一致。

技術上，UniAR 有幾個辨識度很高的設計。Multi-level BSQ tokenizer 把高層語意與低層細節一併保留，並透過 Binary Spherical Quantization 擴大有效 vocabulary；parallel bitwise prediction 則把視覺碼以分組方式一齊預測，令 autoregressive 長序列壓短，論文提到 1024×1024 影像只需 256 個 AR tokens，對應 32x visual compression ratio。

單一 discrete visual tokenizer 取代雙 tokenizer 架構
支援 image understanding、image generation、image editing 同模運作
Multi-level BSQ tokenizer 同時顧及語意與細節
parallel bitwise prediction 壓縮視覺序列，加快 autoregressive 生成
DiT-based visual decoder 以 discrete visual tokens 重建高保真影像
需求：Python 3.12、CUDA 12.1+、推理的 GPU 記憶體 >= 24 GB

如果你想試這個項目，較合理的切入點不是直接拿來當日常工具，而是先看它公開的模型權重與項目頁，分開測理解、生成、編輯三類輸出是否一致。它較適合研究多模態統一架構的人、關注 Qwen 生態的開發者，以及想比較 autoregressive 與 diffusion 混合路線的讀者。

性能方面，原文聲稱 UniAR 經 large-scale pre-training、supervised fine-tuning 和 reinforcement learning 後，在 image generation 與 image editing 達到 state-of-the-art，同時在多模態理解 benchmark 保持競爭力。不過目前公開資訊較像研究成果展示，visual decoder training code 仍未完整放出，因此更適合拿來理解方法論，而不是立即評估成成熟生產工具。

相關模型與組件包括 SD3-medium visual decoder、Qwen Team 背景下的多模態模型路線，以及論文聚焦的 Unified Multimodal Models（UMMs）。若你在意的不是單次生成效果，而是模型能否「理解自己生成的內容」，UniAR 的 shared context 設計確實提出了一個有意思而且相當具體的答案。

GitHub： https://github.com/ShareLab-SII/UniAR

項目： https://sharelab-sii.github.io/uniar-web/