輕鬆製作超逼真 AI 說話頭像影片

2025 年 12 月 26 日

InfiniteTalk 完全免費、支援長影片，唇同步自然但需調參避免誇張；HeyGen 更親民但付費，兩者差異不大，InfiniteTalk 性價比高。適合 IT 顧問用於快速製作教程或演示影片，節省攝影成本。

Create Realistic AI AVATARS That Look And Talk EXACTLY Like You! | FREE ComfyUI Tutorial

Watch this video on YouTube

Categories: ComfyUI, AI productions, Python, 影像處理, 數字人

AnyTalker 多人對話唇形同步影片

2025 年 12 月 10 日

AnyTalker，一個基於音訊的多人對話的開源視訊生成框架。它採用靈活的多流結構，既能擴展身份規模，又能確保身份之間的無縫互動。

Categories: 開源, 香港科技大學, 影像處理, 數字人

OVI 11B 低 VRAM 顯卡上做 10 秒影片

2025 年 11 月 20 日

影片教你怎樣用「ComfyUI + OVI 11B」在低 VRAM 顯示卡上做 10 秒有畫又有聲嘅影片生成功能，重點係一步步教你放啱模型檔、設定 workflow，同埋用 LoRA 喺低 steps 都保持畫質。

ComfyUI OVI Workflow: Text & Image to 10s Video on Low VRAM

Watch this video on YouTube

主要功能

用 ComfyUI 的 OVI workflow，一套 graph 就可以同時支援「text to video」同「image to video」，唔需要兩個 workflow。
支援 OVI 11B FP8 或 BF16，針對低 VRAM / 中高 VRAM 有唔同精度選擇。
一次 render 就生成 10 秒影片連同步音訊，包括對白同環境聲。

Categories: 阿里巴巴, 影像模型, 教學, 數字人

Ovi 生成視頻、對嘴音頻

2025 年 10 月 9 日

Ovi 使用了專屬預訓練 5B 音頻分支，架構設計類似 WAN 2.2 5B，同時提供了 1B 融合分支，支持純文本或文本+圖片輸入，自動生成視頻、對嘴音頻，以及匹配場景的背景音效和音樂。

Finally, open-source AI video with SOUND! Ovi tutorial

Watch this video on YouTube

OVI ComfyUI Workflow: Image & Text-to-Video with Sound (2025) — Is It Better Than Veo 3?

Watch this video on YouTube

Categories: 開源, ComfyUI, 數字人

Paper2Video 論文自動生成視頻系統

2025 年 10 月 7 日

Paper2Video 能從輸入的論文（LaTeX源碼）、一張圖片和一段音頻，生成完整的學術報告視頻。集成了幻燈片生成、字幕生成、游標定位、語音合成、講者視頻渲染等多模態子模塊，實現一條龍的演示視頻製作流程。支持並行處理以提升視頻生成效率，推薦GPU為NVIDIA A6000（48G顯存）及以上。

需要設定 GPT-4.1 或 Gemini2.5-Pro 等大型語言模型 API Key，支持本地 Qwen 模型。

Categories: 開源, Gemini, Python, 數字人, 語音

HuMo：文本、圖片和音訊三種輸入

2025 年 9 月 13 日

HuMo 是一個以人類為核心的多模態條件影片生成框架，能夠根據文本、圖片和音訊三種輸入產生高品質且可精細控制的人物影片。專案由清華大學與字節跳動智創團隊聯合開發

主要特色

支援 文本-圖片、文本-音訊 及 文本-圖片-音訊 的多模態影片生成，可自由設計角色造型、服裝、道具和場景。
文字指令的高遵循度、角色連貫性，以及音訊帶動的動作同步。
可生成 480P 或 720P 的高規格影片，並支援多 GPU 計算。

快速安裝及使用

透過 Conda 及 pip 安裝相關依賴（Python 3.11、Torch 2.5.1 等），並下載模型檔。
支援直接輸入文本、參考圖片和音訊檔案，根據三種模式（TA、TIA）選擇推理腳本運行生成。

Categories: 開源, 字節跳動, 數字人, 視頻模型

LIA-X 肖像動畫器

2025 年 8 月 20 日

LIA-X (Interpretable Latent Portrait Animator)強調其控制性，適合 AI 研究者和內容創作者使用，旨在將臉部動態從驅動影片遷移到指定的頭像，並實現精細控制。

LIA-X 功能列表

LIA-X 的可解釋性與細粒度控制能力，使其支援多種實際應用：

圖像動畫 (Image Animation)：能夠將驅動影片的臉部動態轉移到來源肖像上，並可透過控制面板進行編輯。使用者可以上傳來源圖像和驅動影片，然後使用控制面板編輯來源圖像，並生成動畫影片。
圖像編輯 (Image Editing)：允許使用者上傳來源圖像，並透過控制面板對其進行精確編輯。這包括對臉部細節的控制，例如偏航 (yaw)、噘嘴 (pout)、閉眼和眼球移動。
影片編輯 (Video Editing)：支援使用者上傳影片，並透過控制面板編輯影片的第一幀，以產生新的編輯後影片。同樣支援細粒度控制，例如頭部偏航和閉眼。
線性操控 (Linear Manipulation)：可以進行諸如偏航 (yaw)、俯仰 (pitch)、眼睛閉合與張開，以及眼球移動等臉部動態的線性控制。
3D 感知肖像影片操控 (3D-aware Portrait Video Manipulation)：這是一個更進階的應用，LIA-X 的可控性質支援此類應用。
動畫化個人資料 (Animating Your Own Data)：支援使用者自行準備圖像和影片資料（例如裁剪），然後進行動畫化處理。
細粒度、使用者引導的圖像和影片編輯：作為其可解釋和可控性質的直接結果，LIA-X 能夠實現這種精確的編輯。

Categories: 開源, 動畫, 影像模型, 影像處理, 數字人, 視頻模型

OmniTry，這是一個由昆位元人工智慧和浙江大學開發的虛擬試穿框架。該系統旨在擴展虛擬試穿功能，使其不僅限於服裝，還能應用於各種可穿戴物品，例如珠寶和配飾，並且支援無遮罩設置，更適合實際應用。OmniTry 採用了兩階段訓練管道，首先利用大量不成對的圖像進行無遮罩定位訓練，然後再利用成對圖像進一步精細調整以確保外觀一致性。該專案的程式碼、模型權重和評估基準都已公開發布，供研究人員和開發者使用。

Categories: 開源, 影像處理, 數字人

StableAvatar：無限長音訊驅動的頭像影片生成

2025 年 8 月 17 日

用於音訊驅動頭像視訊產生的擴散模型難以合成具有自然音訊同步和身份一致性的長視訊。基於 Wan2.1-1.3B 的 StableAvatar 音訊驅動的頭像視訊效果，是首個端到端視訊擴散變換器，無需後製即可合成無限長的高品質視訊。

Categories: 開源, 騰訊, 微軟, 數字人

FantasyPortrait

2025 年 8 月 17 日

FantasyPortrait 支援使用多個單人影片或單一多人影片驅動多個角色，產生細緻的表情和逼真的肖像動畫。

從靜態圖像中製作富有表現力的臉部動畫是一項極具挑戰性的任務。現有方法缺乏對多角色動畫的支持，因為不同個體的驅動特徵經常相互幹擾，使任務變得複雜。FantasyPortrait 提出了 Multi-Expr 資料集和 ExprBench，它們是專門為訓練和評估多角色肖像動畫而設計的資料集和基準。大量實驗表明，FantasyPortrait 在定量指標和定性評估方面均顯著超越了最先進的方法，尤其是在具有挑戰性的交叉重現和多角色情境中表現出色。

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion

Watch this video on YouTube

Categories: 開源, 阿里巴巴, 影像處理, 數字人, 視頻模型

Page 3 of 5

« Previous 1 2 3 4 5 Next »