RDM：一步生成影像的新取向

iRDM post-trains four-step FLUX.2 [klein] into a one-step generator at matched quality; GenEval and PickScore climb past

RDM 是一個一步式影像生成研究項目，也是面向 one-step visual generation 的訓練方法。它要解決的問題很直接：把原本需要多次採樣的生成流程，壓縮成一次 network evaluation，仍然盡量保住影像質素。

現有做法通常會依賴 online teacher、adversary，或者追蹤 trajectory 來蒸餾多步生成器；作者認為這類範式訓練成本高、流程複雜，亦容易被單一訊號牽著走。RDM 改用 Representation Distribution Matching，把生成圖與真實圖在多個 frozen pretrained encoders 之下的特徵分佈對齊，核心比較方式是 squared MMD with a Gaussian kernel，同時配合 Nyström attraction、within-batch repulsion，以及 joint image-text law。

這個取向和同類方法的差異，在於它不靠 online teacher、no adversary、no trajectory，訓練邏輯更像直接校準「生成分佈是否接近真實分佈」。作者亦刻意不用單一 encoder，而是用一組 frozen encoders（10 train + 4 held out），再用 proportional Lagrangian controller 平衡各個表示空間，這個設計明顯是想減少模型只迎合某一種評分器的問題。

README 已交代基本理解方式：安裝後可用 ImageNet-256 影像樹做訓練與驗證，也可沿 FLUX text-to-image 路線配合 COCO、GenEval、Pick-a-Pic 做評測；另有 Hugging Face demo 與 checkpoints，可直接看輸出效果。部署上它較像研究型訓練框架，不是即開即用的終端應用，較適合有 GPU 資源、想重現論文結果或做後訓練實驗的團隊。

性能數字有辨識度。RDM 報稱達到 one-step ImageNet state of the art，SW_r14 為 1.30；在 FLUX.2 [klein] 的 post-training 路線中，one-step 模型於 GenEval 達到 0.826，高於 four-step teacher 的 0.794，PickScore 亦升到 22.76，高過 teacher 的 22.58。相關模型與組件包括 FLUX.2 [klein]、open_clip、DreamSim，以及多個 frozen pretrained encoders；整體更適合關注模型訓練、生成效率與影像評測方法的研究或產品項目。

項目類型：研究型訓練方法／框架，重點在一步式影像生成
核心差異：不用 online teacher、adversary、trajectory，改做分佈匹配
測試方式：可用 ImageNet-256、COCO、GenEval、Pick-a-Pic 驗證結果
主要取捨：流程更乾淨，但仍需要資料準備、GPU 資源與完整評測環境
受益情境：想把多步生成器壓成單步模型的研究團隊與影像生成項目

項目主頁 · GitHub · 模型