GGT-100K:用十萬對真實影像 拓寬圖像修復的泛化邊界

GGT-100K logo

過去訓練圖像修復模型時,開發者往往受限於合成數據與真實場景之間的差距;模型在實驗室數據集表現亮眼,遇到街拍、手機夜拍等真實退化影像就大打折扣。GGT-100K 正是為了解決這個落差而生,由香港理工大學 OPPO 研究院共同推出,主打從 MFM(Multimodal Foundation Models)直接生成十萬對 LQ-HQ 配對資料,覆蓋更貼近日常的真實退化類型。

這個項目的核心想法是「讓高品質影像本身充當 Ground Truth(GT)」,再利用 MFM 推演對應的低品質版本,省去繁瑣的人工蒐集與標註。GGT-100K 並附帶 baseline 訓練程式碼與 checkpoint,研究者只需在自有的修復模型上加掛 LoRA 或重新微調,就能測試跨域泛化效果;對工程團隊而言,等於取得一條快速驗證真實世界表現的捷徑。

GGT-100K 重點摘要

  • 提供十萬對從 MFM 生成的 LQ-HQ 影像配對,涵蓋多元真實退化情境。
  • 內建 baseline 訓練與推論程式碼,支援主流修復模型微調。
  • 透過 Generative GT 策略,免除傳統人工蒐集配對的高昂成本。
  • 數據集可從 Hugging Face 或百度雲下載,附完整 Construction Process 說明。
  • 實驗結果顯示,模型在跨域真實退化測試中的泛化能力有明顯提升。

至於性能表現,作者在多個 SOTA(State-of-the-Art)MFM 上進行了修復評估,結果顯示加入 GGT-100K 訓練後,模型對未見過的真實退化樣本有更佳的適應力;具體的數值比較已收錄在 Experimental Results 區段與論文 arXiv 2605.31039 之中。如果你是從事影像修復、攝影 App 開發,或是想評估自家模型在真實世界表現的團隊,這份開源資源值得花時間一試。

GitHub: https://github.com/PolyU-VCLab/GGT-100K

項目: https://polyu-vclab.github.io/GGT-100K/

Categories: 開源, 香港理工大學, 影像處理, 模型, 模型訓練, 視覺模型, Dataset 數據集