LTX-2 影音片生成模型

LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型，整合影片與音訊的同步生成功能，具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數，另外提供 fp8、nvfp4 等壓縮量化版本，以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供，代碼與模型權重均在 Hugging Face 上公開，使用 ltx-2-community-license-agreement 授權，屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫，亦支援 ComfyUI 整合，適合多階段上采樣流程。

The First Open Source Audio-Video Model — LTX-2

Watch this video on YouTube

New #1 open-source AI video generator is here! Fast + 4K + audio + low vram

Watch this video on YouTube

ComfyUI LTX-2 video