WAN 2.1 VACE 模型的原生支援

1.3B 模型採用 Creative Commons 非商業授權,14B 模型則為 Apache 2 授權。

影片詳細展示如何在ComfyUI中下載、載入不同模型,根據顯存選擇合適的模型版本,並調整參數以優化生成效果(如步數、強度等)

  • ComfyUI現在原生支援WAN 2.1 VACE模型,提供1.3B(適合低顯存顯卡)和14B(適合高顯存顯卡)兩種模型。
  • 多種 AI 影片生成工作流程
    • 文字轉影片(Text-to-Video)
    • 圖像轉影片(Image-to-Video)
    • 影片控制(Video Control)
    • 影片外延(Video Outpainting)
    • 首尾影格生成(First Frame/Last Frame)
Amazing AI Video Natively in ComfyUI

LTX-Video 0.96

LTX-Video 是第一個基於 DiT 的視訊生成模型,可以即時產生高品質的視訊。它可以以 1216×704 的分辨率生成 30 FPS 的視頻,比觀看這些視頻的速度還快。該模型在多樣化影片的大規模資料集上進行訓練,可以產生具有逼真和多樣化內容的高解析度影片。模型支援文字轉圖像、圖像轉影片、基於關鍵影格的動畫、影片擴充(正向和反向)、影片轉影片以及這些功能的任意組合。


FramePack 6Gb vRAM 出 60 秒影片

FramePack 是一種新的視頻擴散設計,用壓縮上下文令工作量不會隨著影片的長度而增加,只需一張圖片,就可以令你的 6GB vRAM 的電腦透過 13B 模型生成每秒 30 格影片的 60 秒影片。而用 RTX 4090 的話,最快速度為每格 1.5 秒。

作者 Lvmin Zhang

FramePack Run In Gradio & ComfyUI - Generate Long Length image2Video AI Video - Installation Guide

InfiniteYou 克隆自己

InfiniteYou 的獨特之處在於其強大的身份保留技術!透過核心組件 InfuseNet,即使在生成全新場景或是不同風格的相片,也能精準保留相片中的人物特徵。您可以僅以文字描述,就能讓同一人物出現在不同情境、穿著不同的衫,甚至呈現不同的風格。它亦支援 ControlNet 和 LoRA 的進階控制,令創意揮灑的同時,也能精細調整生成結果,直至符合您需要的獨特內容!(ByteDance)


LHM 體態模型

LHM (Large Animatable Human Reconstruction Model) 是一個高效及高質量的 3D 人體重建方案模型,能夠在幾秒鐘內生成影片。模型利用了多模態的 Transformer 架構,以注意力機制,對人體特徵和影像特徵進行編碼,能夠詳細保存服裝的幾何形狀和紋理。為了進一步增強細節,LHM 提出了一種針對頭部特徵的金字塔型編碼方案,能夠生成頭部區域的多種特徵。(阿里巴巴)


LatentSync 1.5 – 最穩定的 LipSync 開源方案

LatentSync 1.5 是 ByteDance 團隊在 GitHub 上發佈的開源專案。1.5 版本增強了中文影片的表現。它的主要功能是直接地將音頻資訊轉換成為逼真的口型動作。專案提供了完整的訓練和推論程式碼,包含資料處理流程、兩種模型訓練步驟(U-Net 和 SyncNet),以及詳細的推論指令。

LatentSync 1.5 | 2025最强数字人,完美适配无人直播间,带货必备,优化中文语音,唇形同步!
LatentSync In ComfyUI Another Level Of AI Talking Avatar—Open Source Plus It Works!

FlashVideo 高速生成高解像度影片

FlashVideo 由香港大學、香港科技大學及 ByteDance 聯合開發,你只需要準備一張或者幾張參考圖片,加上文字提示詞,就可以生成高解像度的影片。過程主要分為兩部份,第一部分是優先處理提示詞,同時以低解像度處理圖片,減少 DIT 的運算時間。第二部分會建立低解像度和高解像度之間的匹配。結果能夠以高速生成 1 0 8 0 P 的高清影片。[DiT] Diffusion Transformer | [NFE ] Number of Function Evaluations


Stable Virtual Camera 3D 擴散模型

Stability AI 最新發佈的研究預覽模型「Stable Virtual Camera」是一個創新的多視角擴散模型,無需複雜的 3D 建模,就能夠將 2D 圖像轉換成為具有真實深度和透視感的沉浸式 3D 影片。同時,它亦提供了靈活的 3D 攝影機控制,用家可以自定攝影軌跡,而預設的 14 種動態攝影機路徑包括 360°、雙紐線、螺旋、移動推拉、平移和滾動等等。並且能夠由一張或者最多 32 張的圖片生成長達 1000 frames 的連貫影片。這模型目前以非商業授權,主要作為學術研究。而相關的論文、模型權重和程式碼都已經公開下載。其它 Stability 3D 模型


Page 1 of 6
1 2 3 6