
SANA 是一個以效率為導向的代碼庫,用於高解析度影像和視訊生成,提供完整的訓練和推理管道。此儲存庫包含 SANA、SANA-1.5、SANA-Sprint 和 SANA-Video 的代碼。更多詳細資訊可以在我們的 📚 文件中找到。
我們介紹 SANA ,一系列用於高解析度影像和視訊生成的高效擴散模型:
- SANA :生成高達 4K 解析度的文本到影像,比 Flux-12B 小 20 倍且快 100 倍。
- SANA-1.5 :在訓練時間和推理時間進行高效的計算擴展,以獲得更好的品質。
- SANA-Sprint :透過 sCM 蒸餾進行一步/少步生成,在 H100 上每張 1024px 影像只需 0.1 秒。
- SANA-Video/LongSANA :使用區塊線性注意力 / 配合 LongLive 進行高效的視訊生成。
- 線性注意力 :在 DiT 中用線性注意力替換傳統注意力,以在高解析度下提高效率。
- DC-AE :32× 影像壓縮(與傳統的 8× 相比)以減少潛在令牌。
來源:https://github.com/NVlabs/Sana (NVlabs/Sana)
Source: https://github.com/NVlabs/Sana




