Stable-Layers：靠 VLM 評分強化學習，毋須配對數據也能改良圖層分離

圖像圖層分解（image layer decomposition）是指把一張圖分成幾層可獨立編輯的 RGBA 影像，再合併回原本的畫面。這個技術是專業修圖與合成工作流的基本工序，但要訓練模型做這件事並不容易：同一張圖往往存在多種合理分層方式，而且品質好壞取決於下游是否好用，例如語意分層是否清晰、alpha 遮罩是否乾淨、是否有冗餘層，以及被遮擋的部分能否被合理填回。

傳統做法會用合成的配對數據集（即同一張圖同時提供「原圖」與「正確分層」）來監督模型學習，但這會帶來先天限制：當多種分層都同樣合理時，強迫模型擬合單一標準答案，等於懲罰了其他可行的解法。Stable-Layers 嘗試繞過這個限制，改用強化學習（reinforcement learning）讓模型直接朝「看起來品質好」的方向優化，監督訊號只來自一個視覺語言模型（vision-language model，VLM）。

具體而言，項目以 Qwen-Image-Layered 為起點，結合 Flow-GRPO 與 LoRA（Low-Rank Adaptation，低秩適應）微調，針對每張圖採樣多個候選分層，再用 VLM 評分，從群組相對優勢（group-relative advantages）來更新策略。當中最大的挑戰是設計可靠的獎勵訊號：VLM 單獨評分時容易把所有樣本擠進一個狹窄的分數區間，導致 GRPO 缺乏組內變化可以學習。為此，Stable-Layers 採用兩階段評估流程——先按五個編輯向標準逐項評分，再把所有候選並排放在標記好的比較網格上重新評分一次，藉此取得更細緻的相對校準。

Stable-Layers 重點摘要：

毋須配對數據：在完全沒有標註的圖像上訓練，解決合成數據集帶來的偏誤問題
VLM 擔任評審：利用視覺語言模型就五個編輯標準打分，提供獎勵訊號
兩階段評估：先獨立評分，再以比較網格重新校準，避免分數過度集中
強化學習微調：結合 Flow-GRPO 與 LoRA，從 Qwen-Image-Layered 開始改良
實測表現：在 Crello 數據集上，圖層分離度更高、空白或帶瑕疵的層更少、每層重建誤差也較低

適用場景與對象：這個項目適合做圖像編輯、合成或設計工具的研究者與工程師，尤其是手上沒有大量配對分層數據、又想提升分層品質的團隊。對強化學習應用於視覺生成感興趣的人，也能從它處理「組內變化不足」的設計中得到啟發。

效能與評估：團隊在 Crello 數據集上測試，結果顯示 Stable-Layers 相比基礎模型，圖層分離更明確、出現空白或帶雜訊的層更少，而且每層的重建誤差也更低。論文獲 NeurIPS 2026 接收（arXiv:2605.30257v1）。

引用的模型：Qwen-Image-Layered（基礎分層模型）、Flow-GRPO（強化學習算法）、LoRA（高效微調方法）、視覺語言模型評審。

項目： https://stability-ai.github.io/stable-layers.github.io/