NVlabs/Sana：SANA：使用線性擴散變換器進行高效高解析度影像合成：快速專案概覽 – InferNews

NVlabs/Sana：SANA：使用線性擴散變換器進行高效高解析度影像合成：快速專案概覽

2026 年 4 月 12 日

來源：GitHub 上的 NVlabs/Sana

SANA 是一個以效率為導向的代碼庫，用於高解析度影像和視訊生成，提供完整的訓練和推理管道。此儲存庫包含 SANA、SANA-1.5、SANA-Sprint 和 SANA-Video 的代碼。更多詳細資訊可以在我們的 📚 文件中找到。

我們介紹 SANA ，一系列用於高解析度影像和視訊生成的高效擴散模型：

SANA ：生成高達 4K 解析度的文本到影像，比 Flux-12B 小 20 倍且快 100 倍。
SANA-1.5 ：在訓練時間和推理時間進行高效的計算擴展，以獲得更好的品質。
SANA-Sprint ：透過 sCM 蒸餾進行一步/少步生成，在 H100 上每張 1024px 影像只需 0.1 秒。
SANA-Video/LongSANA ：使用區塊線性注意力 / 配合 LongLive 進行高效的視訊生成。
線性注意力：在 DiT 中用線性注意力替換傳統注意力，以在高解析度下提高效率。
DC-AE ：32× 影像壓縮（與傳統的 8× 相比）以減少潛在令牌。

來源：https://github.com/NVlabs/Sana (NVlabs/Sana)

Source: https://github.com/NVlabs/Sana

Categories: 開源, 香港大學, NVIDIA, 影像模型, 新聞