LTX-2 是 Lightricks 開發的 DiT 基礎音訊影片生成模型,整合影片與音訊的同步生成功能,具備一次推論即可產出同步音訊與影片的能力。模型採用 190 億參數,另外提供 fp8、nvfp4 等壓縮量化版本,以及 190 億參數的蒸餾版本與 LoRA 微調版。所有模型都以 safetensors 格式提供,代碼與模型權重均在 Hugging Face 上公開,使用 ltx-2-community-license-agreement 授權,屬於開源模型。可直接於本地使用 PyTorch 或 Diffusers 套件呼叫,亦支援 ComfyUI 整合,適合多階段上采樣流程。
The First Open Source Audio-Video Model — LTX-2
New #1 open-source AI video generator is here! Fast + 4K + audio + low vram