NVlabs/Sana:SANA:使用線性擴散變換器進行高效高解析度影像合成:快速專案概覽

logo
來源:GitHub 上的 NVlabs/Sana

SANA 是一個以效率為導向的代碼庫,用於高解析度影像和視訊生成,提供完整的訓練和推理管道。此儲存庫包含 SANA、SANA-1.5、SANA-Sprint 和 SANA-Video 的代碼。更多詳細資訊可以在我們的 📚 文件中找到。

我們介紹 SANA ,一系列用於高解析度影像和視訊生成的高效擴散模型:

  • SANA :生成高達 4K 解析度的文本到影像,比 Flux-12B 小 20 倍且快 100 倍。
  • SANA-1.5 :在訓練時間和推理時間進行高效的計算擴展,以獲得更好的品質。
  • SANA-Sprint :透過 sCM 蒸餾進行一步/少步生成,在 H100 上每張 1024px 影像只需 0.1 秒。
  • SANA-Video/LongSANA :使用區塊線性注意力 / 配合 LongLive 進行高效的視訊生成。
  • 線性注意力 :在 DiT 中用線性注意力替換傳統注意力,以在高解析度下提高效率。
  • DC-AE :32× 影像壓縮(與傳統的 8× 相比)以減少潛在令牌。

來源:https://github.com/NVlabs/Sana (NVlabs/Sana)

Source: https://github.com/NVlabs/Sana

Categories: 香港大學, NVIDIA, 影像模型, 新聞, 開源