FantasyPortrait

FantasyPortrait 支援使用多個單人影片或單一多人影片驅動多個角色,產生細緻的表情和逼真的肖像動畫。

從靜態圖像中製作富有表現力的臉部動畫是一項極具挑戰性的任務。現有方法缺乏對多角色動畫的支持,因為不同個體的驅動特徵經常相互幹擾,使任務變得複雜。FantasyPortrait 提出了 Multi-Expr 資料集和 ExprBench,它們是專門為訓練和評估多角色肖像動畫而設計的資料集和基準。大量實驗表明,FantasyPortrait 在定量指標和定性評估方面均顯著超越了最先進的方法,尤其是在具有挑戰性的交叉重現和多角色情境中表現出色。

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion
Categories: 開源, 數字人, 阿里巴巴, 視頻模型, 影像處理


Omni-Effects:統一可控的視覺效果

Omni-Effects 是一套針對視覺特效(VFX)生成的統一框架,主打多效果合成和空間可控性。這項技術突破了以往僅能針對單一特效單獨訓練(如 per-effect LoRA)的限制,可同時在指定區域生成多種特效,極大拓展了在影視製作及創意領域的應用可能性。

框架的核心包含兩項關鍵創新:(1) 基於 LoRA 的混合專家 (LoRA-MoE),將多種效果整合到統一模型中,同時有效地減少跨任務幹擾。 (2) 空間感知提示 (SAP)將空間遮罩資訊合併到文字標記中,從而實現精確的空間控制。

Categories: 開源, 視頻模型, 影像模型, 影像處理

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit,在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上,訓練一個基於 Qwen-Image 模型的 LoRA(Low-Rank Adaptation)風格模型。Qwen-Image 是一個 20 億參數的巨型模型,通常需要更高規格的硬體(如 32 GB VRAM 的 RTX 5090),但作者透過創新技術(如量化與 Accuracy Recovery Adapter)實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續,先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA,而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 開源, 視頻模型, 教學, 影像模型, 影像處理, 多模態模型, 模型, 模型訓練



WAN 2.1 VACE 模型的原生支援

1.3B 模型採用 Creative Commons 非商業授權,14B 模型則為 Apache 2 授權。

影片詳細展示如何在ComfyUI中下載、載入不同模型,根據顯存選擇合適的模型版本,並調整參數以優化生成效果(如步數、強度等)

  • ComfyUI現在原生支援WAN 2.1 VACE模型,提供1.3B(適合低顯存顯卡)和14B(適合高顯存顯卡)兩種模型。
  • 多種 AI 影片生成工作流程
    • 文字轉影片(Text-to-Video)
    • 圖像轉影片(Image-to-Video)
    • 影片控制(Video Control)
    • 影片外延(Video Outpainting)
    • 首尾影格生成(First Frame/Last Frame)
Amazing AI Video Natively in ComfyUI - An Introduction to WAN VACE
Categories: ComfyUI, 開源, 數字人, 影像模型, 影像處理, txt2img

LTX-Video 0.96

LTX-Video 是第一個基於 DiT 的視訊生成模型,可以即時產生高品質的視訊。它可以以 1216×704 的分辨率生成 30 FPS 的視頻,比觀看這些視頻的速度還快。該模型在多樣化影片的大規模資料集上進行訓練,可以產生具有逼真和多樣化內容的高解析度影片。模型支援文字轉圖像、圖像轉影片、基於關鍵影格的動畫、影片擴充(正向和反向)、影片轉影片以及這些功能的任意組合。

Categories: 開源, 視頻模型, 影像模型, 影像處理, 多模態模型

FramePack 6Gb vRAM 出 60 秒影片

FramePack 是一種新的視頻擴散設計,用壓縮上下文令工作量不會隨著影片的長度而增加,只需一張圖片,就可以令你的 6GB vRAM 的電腦透過 13B 模型生成每秒 30 格影片的 60 秒影片。而用 RTX 4090 的話,最快速度為每格 1.5 秒。

作者 Lvmin Zhang

FramePack Run In Gradio & ComfyUI - Generate Long Length image2Video AI Video - Installation Guide
Categories: ComfyUI, 開源, 視頻模型, 影像模型, 影像處理

Page 2 of 7
1 2 3 4 7