Moebius:輕量補圖模型挑戰 10B 級效果

logo dynamic woWaterMark

現時高質 image inpainting 多數依賴 10B 級大型通用模型,例如 FLUX.1-Fill-Dev,但代價是運算重、速度慢,部署門檻亦高。Moebius 屬於影像修補框架,核心目標很明確:用細得多的模型體積,換到接近甚至部分情境超過大型模型的補圖質素。

它的取向不是再把模型做大,而是重組 Latent Diffusion Model (LDM) 架構,再配合蒸餾把大模型能力壓縮進 0.22B 參數。當中的 Local-λ Mix Interaction(LλMI)block 以固定大小線性矩陣整理空間資訊與全域語意,避開 attention 常見的二次方計算負擔;另一邊再用 adaptive multi-granularity distillation,直接在 latent space 對齊 teacher PixelHacker,減少 pixel-space decoding 的訓練成本。

官方資料把它與 FLUX.1-Fill-Dev、SD3.5 Large-Inpainting 比較,指在 Places2、CelebA-HQ、FFHQ 等自然與人像場景共 6 個 benchmark 上,整體可做到同級甚至部分超前。數字上最搶眼的是少於 2% 參數量,以及總推理時間超過 15 倍加速;不過這些結果仍主要來自項目方報告,解讀時宜留意測試設定是否完全一致。

要理解這個項目怎樣落地,可先把它當成「為 image inpainting 而生的輕量 specialist」,而不是萬用生成平台。較適合資源有限的研究團隊、要在單 GPU 或邊緣設備部署影像修補的人、以及希望在速度與成本上取平衡的產品開發者;若你追求最廣泛的通用生成能力,大模型 generalist 仍有優勢。

  • 類型定位:輕量 image inpainting framework,主打高效率部署
  • 主要差異:不走純 scaling 路線,改用 LλMI block + distillation 壓縮能力
  • 性能重點:0.22B 參數、單步 26.01ms、總推理約 15× 加速
  • 相關模型:FLUX.1-Fill-Dev、SD3.5 Large-Inpainting、PixelHacker
  • 適合情境:單 GPU、消費級硬件、對延遲與成本敏感的影像修補工作

GitHub: https://github.com/hustvl/Moebius

項目主頁: https://hustvl.github.io/Moebius/

Categories: 開源, Image, AI productions, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架