VACE First Last + Kontext ComfyUI 教學

這個教程介紹如何使用 Flux Kontext 和 VACE 第一幀/最後一幀在 ComfyUI 中創建基於關鍵幀的高級動畫!Kontext 瞭解完整的圖像上下文,而 VACE 允許在起始幀和完全不同的最終姿勢或角色之間無縫移動。無論您是將一個人變形為另一個人,還是為角色的姿勢製作跨時間的動畫,這都是 AI 視頻生成的一個突破。

VACE First Last + Kontext: KeyFrame Animation When You Only Have One Frame! ComfyUI Tutorial & Demos
Categories: 視頻模型, ComfyUI, 數字人, 開源, 影像模型

MultiTalk 音訊驅動生成多人對話影片

由音訊驅動的人體動畫技術,以面部動作同步且畫面吸睛的能力,已經有很顯著的進步。然而,現有的方法大多專注於單人動畫,難以處理多路音訊輸入,也因此常發生音訊與人物無法正確配對的問題。

MultiTalk 為了克服這些挑戰,提出了一項新任務:多人對話影片生成,並引入了一個名為 MultiTalk 的新框架。這個框架專為解決多人生成過程中的難題而設計。具體來說,在處理音訊輸入時,我們研究了多種方案,並提出了一種**標籤旋轉位置嵌入(L-RoPE)**的方法,來解決音訊與人物配對不正確的問題。香港科技大學數學與數學研究中心及電子與電腦工程系有份參與。

Categories: 視頻模型, 香港科技大學, 數字人, 開源, 聲效, 影像模型, 模型

OmniAvatar 數字人完整解決方案

OmniAvatar 是一種創新的音訊驅動全身視訊生成模型,它透過提高唇形同步精度和自然動作來增強人體動畫。 OmniAvatar 引入了一種逐像素多層音訊嵌入策略,可更好地捕捉潛在空間中的音訊特徵,從而增強不同場景下的唇形同步效果。為了在有效融合音訊特徵的同時保留基礎模型的提示驅動控制能力,我們採用了基於 LoRA 的訓練方法。大量實驗表明,OmniAvatar 在臉部和半身視訊生成方面均超越現有模型,能夠提供基於文字的精準控制,用於創建播客、人機互動、動態場景和歌唱等各個領域的影片。

效果惊艳,速度感人!我把 OmniAvatar 部署下来了,生成20秒视频竟要4小时?
Categories: 數字人, 開源, 模型

MTVCrafter 數字人動畫

MTVCrafter 是專門用來製作高品質的數字人動畫。現有方法依賴二維渲染的姿態影像進行運動引導,這限制了其泛化能力並丟棄了重要的三維資訊。MTVCrafter 有兩個厲害的設計:第一個是 4DMoT(4D 運動標記器),能夠將三維動作轉成 4D 運動標記,比二維圖片更精準地捕捉時間和空間的細節!第二個是 MV-DiT(運動感知影片 DiT),用了一個特別的 4D 位置編碼技術,讓動畫在複雜的三維世界裡也能流暢又生動。實驗結果的 FID-VID 分數達到 6.98,比第二名強了 65%,不管是單人、多人、全身或半身的角色,還是各種風格和場景,它都能輕鬆搞定!

Categories: 數字人, 開源, 影像模型

WAN 2.1 VACE 模型的原生支援

1.3B 模型採用 Creative Commons 非商業授權,14B 模型則為 Apache 2 授權。

影片詳細展示如何在ComfyUI中下載、載入不同模型,根據顯存選擇合適的模型版本,並調整參數以優化生成效果(如步數、強度等)

  • ComfyUI現在原生支援WAN 2.1 VACE模型,提供1.3B(適合低顯存顯卡)和14B(適合高顯存顯卡)兩種模型。
  • 多種 AI 影片生成工作流程
    • 文字轉影片(Text-to-Video)
    • 圖像轉影片(Image-to-Video)
    • 影片控制(Video Control)
    • 影片外延(Video Outpainting)
    • 首尾影格生成(First Frame/Last Frame)
Amazing AI Video Natively in ComfyUI - An Introduction to WAN VACE
Categories: ComfyUI, 數字人, 開源, 影像模型, 影像處理, txt2img

InfiniteYou 克隆自己

InfiniteYou 的獨特之處在於其強大的身份保留技術!透過核心組件 InfuseNet,即使在生成全新場景或是不同風格的相片,也能精準保留相片中的人物特徵。您可以僅以文字描述,就能讓同一人物出現在不同情境、穿著不同的衫,甚至呈現不同的風格。它亦支援 ControlNet 和 LoRA 的進階控制,令創意揮灑的同時,也能精細調整生成結果,直至符合您需要的獨特內容!(ByteDance)

Categories: 數字人, 開源, 影像處理, 模型

LHM 體態模型

LHM (Large Animatable Human Reconstruction Model) 是一個高效及高質量的 3D 人體重建方案模型,能夠在幾秒鐘內生成影片。模型利用了多模態的 Transformer 架構,以注意力機制,對人體特徵和影像特徵進行編碼,能夠詳細保存服裝的幾何形狀和紋理。為了進一步增強細節,LHM 提出了一種針對頭部特徵的金字塔型編碼方案,能夠生成頭部區域的多種特徵。(阿里巴巴)

Categories: 視頻模型, 數字人, 開源, 影像處理, 多模態模型

VisoMaster 面部替換 Face swapping

VisoMaster 是一個功能強大的面部替換與編輯工具,無論是靜態圖片還是動態影片,都能夠輕鬆地進行面部替換。替換後的結果非常自然流暢,幾乎看不出任何人工編輯的痕跡。而且可以根據需求定制模型和微調參數,以獲得更個性化的面部替換效果。

VisoMaster 2025 最新版 1.6:超简单换脸教程,一学就会!
Categories: 數字人, 開源

HeyGem – Heygen 的開源平替產品

HeyGem AI,一個能夠在 Windows 系統上可以離線執行的數字人合成工具。這個工具的核心功能是可以精確地複製人物外貌和聲音,創造出獨特的數字人,你可以選擇透過文字,或者語音驅動這些虛擬數字人生成影片。HeyGem AI 只是開源了前端的介面,核心技術和模型就並未公開。影片亦提供了詳細的安裝步驟、以及開放 API 的接口使用方法。

👍HeyGen平替开源数字人产品:HeyGemAI最强解析🟢硅基数字人HeyGemAI最强解析,效果,资源需求,牛哥一键本地部署🟢牛哥AI实验室 NIUGEE AI(147)

Categories: 數字人, 教學, 語音


Page 1 of 2
1 2