Moebius：輕量補圖模型挑戰 10B 級效果

現時高質 image inpainting 多數依賴 10B 級大型通用模型，例如 FLUX.1-Fill-Dev，但代價是運算重、速度慢，部署門檻亦高。Moebius 屬於影像修補框架，核心目標很明確：用細得多的模型體積，換到接近甚至部分情境超過大型模型的補圖質素。

它的取向不是再把模型做大，而是重組 Latent Diffusion Model (LDM) 架構，再配合蒸餾把大模型能力壓縮進 0.22B 參數。當中的 Local-λ Mix Interaction（LλMI）block 以固定大小線性矩陣整理空間資訊與全域語意，避開 attention 常見的二次方計算負擔；另一邊再用 adaptive multi-granularity distillation，直接在 latent space 對齊 teacher PixelHacker，減少 pixel-space decoding 的訓練成本。

官方資料把它與 FLUX.1-Fill-Dev、SD3.5 Large-Inpainting 比較，指在 Places2、CelebA-HQ、FFHQ 等自然與人像場景共 6 個 benchmark 上，整體可做到同級甚至部分超前。數字上最搶眼的是少於 2% 參數量，以及總推理時間超過 15 倍加速；不過這些結果仍主要來自項目方報告，解讀時宜留意測試設定是否完全一致。

要理解這個項目怎樣落地，可先把它當成「為 image inpainting 而生的輕量 specialist」，而不是萬用生成平台。較適合資源有限的研究團隊、要在單 GPU 或邊緣設備部署影像修補的人、以及希望在速度與成本上取平衡的產品開發者；若你追求最廣泛的通用生成能力，大模型 generalist 仍有優勢。

類型定位：輕量 image inpainting framework，主打高效率部署
主要差異：不走純 scaling 路線，改用 LλMI block + distillation 壓縮能力
性能重點：0.22B 參數、單步 26.01ms、總推理約 15× 加速
相關模型：FLUX.1-Fill-Dev、SD3.5 Large-Inpainting、PixelHacker
適合情境：單 GPU、消費級硬件、對延遲與成本敏感的影像修補工作

GitHub： https://github.com/hustvl/Moebius

項目主頁： https://hustvl.github.io/Moebius/