
ComboStoc 是一個針對擴散生成模型訓練流程的研究型實作,核心目標不是換掉整個模型架構,而是修正既有訓練對「組合式結構」取樣不足的問題。這個版本以 PyTorch 為主,提供影像擴散模型、訓練腳本,以及預訓練權重,定位相當明確:拿來驗證論文方法,也適合已有 SiT 或相近擴散管線的人直接比較。
這個專案真正有辨識度的地方,在於它不再把整筆資料視為同步走在同一個 diffusion timestep。相反地,它讓不同維度、patch,甚至可能的屬性使用非同步時間步,藉此更完整覆蓋高維資料中的組合空間;這也是它和一般只調 loss、scheduler 或採樣器的做法最不一樣之處。
實務上,它延續 SiT 風格的實作思路,並提供基於 PyTorch DDP 的訓練流程,代表它不是紙上談兵,而是可在分散式訓練中直接測試。推論端也不只是在既有 checkpoint 上出圖,還能利用非同步時間步做更細緻的控制;若參考論文描述,這種機制對局部條件控制或結構化生成尤其有意義。
最能受益的族群,會是正在研究影像生成、擴散模型訓練效率,或需要面對高度結構化資料的人。若你關心的是更快收斂、較低 FID,或想把相同模型延伸到更有屬性組合複雜度的任務,這個專案值得細看;至於 3D structured shape 的完整程式,儲存庫目前看來仍是後續補上。
- 特色在於非同步 diffusion timestep,不是單純更換 backbone
- 以 PyTorch 實作,並提供 DDP 訓練腳本
- 已附預訓練的 ComboStoc-XL-2 權重,可直接做採樣比較
- 適合拿來研究高維資料中組合複雜度對生成品質的影響