LIA-X 肖像動畫器

LIA-X (Interpretable Latent Portrait Animator)強調其控制性，適合 AI 研究者和內容創作者使用，旨在將臉部動態從驅動影片遷移到指定的頭像，並實現精細控制。

LIA-X 功能列表

LIA-X 的可解釋性與細粒度控制能力，使其支援多種實際應用：

圖像動畫 (Image Animation)：能夠將驅動影片的臉部動態轉移到來源肖像上，並可透過控制面板進行編輯。使用者可以上傳來源圖像和驅動影片，然後使用控制面板編輯來源圖像，並生成動畫影片。
圖像編輯 (Image Editing)：允許使用者上傳來源圖像，並透過控制面板對其進行精確編輯。這包括對臉部細節的控制，例如偏航 (yaw)、噘嘴 (pout)、閉眼和眼球移動。
影片編輯 (Video Editing)：支援使用者上傳影片，並透過控制面板編輯影片的第一幀，以產生新的編輯後影片。同樣支援細粒度控制，例如頭部偏航和閉眼。
線性操控 (Linear Manipulation)：可以進行諸如偏航 (yaw)、俯仰 (pitch)、眼睛閉合與張開，以及眼球移動等臉部動態的線性控制。
3D 感知肖像影片操控 (3D-aware Portrait Video Manipulation)：這是一個更進階的應用，LIA-X 的可控性質支援此類應用。
動畫化個人資料 (Animating Your Own Data)：支援使用者自行準備圖像和影片資料（例如裁剪），然後進行動畫化處理。
細粒度、使用者引導的圖像和影片編輯：作為其可解釋和可控性質的直接結果，LIA-X 能夠實現這種精確的編輯。

Categories: 開源, 數字人, 視頻模型, 動畫, 影像模型, 影像處理

OmniTry，這是一個由昆位元人工智慧和浙江大學開發的虛擬試穿框架。該系統旨在擴展虛擬試穿功能，使其不僅限於服裝，還能應用於各種可穿戴物品，例如珠寶和配飾，並且支援無遮罩設置，更適合實際應用。OmniTry 採用了兩階段訓練管道，首先利用大量不成對的圖像進行無遮罩定位訓練，然後再利用成對圖像進一步精細調整以確保外觀一致性。該專案的程式碼、模型權重和評估基準都已公開發布，供研究人員和開發者使用。

Categories: 開源, 數字人, 影像處理

LongSplat 三維高斯噴灑框架

LongSplat 是個用於從隨機拍攝的長影片中生成新穎視角的三維高斯噴灑（3D Gaussian Splatting）框架。它能夠解決從隨機拍攝、具有不規則攝影機運動和未知攝影機姿態的長影片中進行新視角合成的關鍵挑戰。

Categories: 開源, 視頻模型, 3D, 影像處理

Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本，基於20B模型進一步訓練，支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢：

精準文字編輯：支援中英文文字的增、刪、改，並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
雙重語義/外觀編輯：不僅能進行風格轉換、物件增刪等視覺外觀編輯，也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL（語義控制）和 VAE 編碼器（外觀控制）實現。
強大跨基準效能：在多個公開基準測試中，Qwen-Image-Edit 在編輯任務上取得了最先進（SOTA）成果。

This new AI image editor is a BEAST. Qwen Image Edit tutorial

Watch this video on YouTube

Categories: 開源, 阿里巴巴, 教學, 影像模型, 影像處理

ToonComposer：簡化動畫製作

傳統的卡通/動漫製作耗時耗力，需要技藝精湛的藝術家進行關鍵影格、中間畫和上色。 ToonComposer 利用生成式 AI 簡化了這個流程，將數小時的中間畫和上色手動工作簡化為一個無縫銜接的流程。

ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Watch this video on YouTube

Categories: 香港中文大學, 視頻模型, 動畫, 影像模型, 影像處理

FantasyPortrait

FantasyPortrait 支援使用多個單人影片或單一多人影片驅動多個角色，產生細緻的表情和逼真的肖像動畫。

從靜態圖像中製作富有表現力的臉部動畫是一項極具挑戰性的任務。現有方法缺乏對多角色動畫的支持，因為不同個體的驅動特徵經常相互幹擾，使任務變得複雜。FantasyPortrait 提出了 Multi-Expr 資料集和 ExprBench，它們是專門為訓練和評估多角色肖像動畫而設計的資料集和基準。大量實驗表明，FantasyPortrait 在定量指標和定性評估方面均顯著超越了最先進的方法，尤其是在具有挑戰性的交叉重現和多角色情境中表現出色。

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion

Watch this video on YouTube

Categories: 開源, 數字人, 阿里巴巴, 視頻模型, 影像處理

Story2Board：無需訓練且有表現力的故事板

Story2Board 是個無需訓練的框架，用於從自然語言中生成富有表現力的故事板。目標是將敘事呈現為一系列連貫的故事板面板——每個面板描繪不同的場景，同時保留主要角色的身份和外觀。

Categories: 開源, 影像處理, Python

Omni-Effects：統一可控的視覺效果

Omni-Effects 是一套針對視覺特效（VFX）生成的統一框架，主打多效果合成和空間可控性。這項技術突破了以往僅能針對單一特效單獨訓練（如 per-effect LoRA）的限制，可同時在指定區域生成多種特效，極大拓展了在影視製作及創意領域的應用可能性。

框架的核心包含兩項關鍵創新：(1) 基於 LoRA 的混合專家 (LoRA-MoE)，將多種效果整合到統一模型中，同時有效地減少跨任務幹擾。 (2) 空間感知提示 (SAP)將空間遮罩資訊合併到文字標記中，從而實現精確的空間控制。

Categories: 開源, 視頻模型, 影像模型, 影像處理

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

Watch this video on YouTube

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit，在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上，訓練一個基於 Qwen-Image 模型的 LoRA（Low-Rank Adaptation）風格模型。Qwen-Image 是一個 20 億參數的巨型模型，通常需要更高規格的硬體（如 32 GB VRAM 的 RTX 5090），但作者透過創新技術（如量化與 Accuracy Recovery Adapter）實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續，先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA，而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 開源, 視頻模型, 教學, 影像模型, 影像處理, 多模態模型, 模型, 模型訓練

n8n 與 ComfyUI 自動化生成本地 AI 視頻

教程展示了AI工具鏈整合的未來趨勢，將碎片化任務轉爲端到端自動化系統，適合想提升創作效率的技術型用戶。若需實作細節，可參考影片中的Docker指令與節點配置截圖。

n8n with ComfyUI AI Video Automation Local Setup Walkthrough

Watch this video on YouTube

Categories: ComfyUI, 教學, 影像模型, 影像處理, txt2img

Page 2 of 8

« Previous 1 2 3 4 … 8 Next »