ComfyUI Fusion LoRA 教學

ComfyUI Tutorial Fusion LoRA Easy Compositing

Watch this video on YouTube

Categories: ComfyUI, 開源, 影像模型, 影像處理

视频也能 P Comfyui 最强视频工作流

视频也能P Comfyui最强视频工作流三连发

Watch this video on YouTube

Categories: ComfyUI, 開源, 影像模型, 影像處理

Nano Banana 貼士

30 Nano Banana Issues FIXED! 30 Pro Tips You Can’t Afford to Miss 🚀

Watch this video on YouTube

Categories: 免費試用, 教學, 影像模型, 影像處理

USO：統一風格的生成模型

USO 全稱為「Unified Style-Subject Optimized customization model」，能將任何影像主體融入任何風格，開啟創作新紀元並在各種情境中自由揮灑創意。

傳統上，風格驅動生成模型側重於風格相似性，而主體驅動生成模型則強調主體的一致性，這兩者往往難以兼顧。USO 模型的誕生，打破了這種壁壘，它提出了一種統一的框架，透過對「內容」與「風格」的解耦與重組，實現了兩者的自由組合。無論您想將特定人物融入動漫風格，或是為靜物照片賦予水彩畫的韻味，USO 都能輕鬆應對。

(more…)

Categories: 字節跳動, 開源, 影像模型, 影像處理

ROSE2025 移除影片中任何物件

ROSE2025，全名為「可靠且開放集事件修補（Remove Objects with Side Effects）」。旨在推動電腦視覺領域，為處理複雜、動態的視覺數據缺失問題提供更穩健、更智能的解決方案。在不斷演進的電腦視覺領域，事件修補（Event Inpainting）正成為一項引人注目的新興研究方向。

ROSE2025 涵蓋了多個關鍵研究主題，包括但不限於：基於生成式模型的事件修補方法、深度學習在事件資料恢復的應用、新穎的損失函數與評估指標、開源數據集與基準的創建、以及與機器人、自動駕駛、監控等實際應用場景的結合。

Categories: 香港大學, 開源, 視頻模型, 視覺模型, 影像模型, 影像處理

MoC 突破時空限制：AI 長影片生成

AI 不僅能創造出栩栩如生的圖片，還能生成數分鐘、甚至更長，且故事連貫、情節流暢的影片。這曾是生成式AI領域一個巨大的挑戰。然而，一項名為「上下文混合」(Mixture of Contexts, MoC) 的創新技術，正逐步將這個夢想變為現實。這項由 Shengqu Cai 等研究人員提出的最新進展，為長影片生成帶來了革命性的解決方案，有效克服了現有模型在處理「長期上下文記憶」上的瓶頸。

生成長影片的核心挑戰，在於模型必須能夠在漫長的時間序列中，保持並檢索關鍵事件，同時避免資訊崩潰或內容漂移。現有的擴散變換器（diffusion transformers）雖然在短影片生成方面表現出色，但其自注意力（self-attention）機制的二次方成本，使得處理長序列時，記憶體和計算資源的消耗變得難以承受，導致效率低下且難以優化。這意味著，隨著影片時長的增加，AI模型可能會「忘記」影片開頭的人物身份、動作或場景設定，導致影片內容的連貫性、一致性大大降低。

(more…)

Categories: 字節跳動, 香港中文大學, 開源, 影像模型

Nano Banana 的秘密

Logan Kilpatrick 目前在 Google DeepMind 任職資深 AI 團隊成員。主持人與 Logan Kilpatrick 的一次對談與示範，介紹Google最新的圖像生成與編輯AI模型Nano Banana（基於Gemini 2.5 Flash Image 模型）

I got a private lesson on Google's NEW Nano Banana AI Model

Watch this video on YouTube

Categories: 影像模型, 影像處理

LIA-X 肖像動畫器

LIA-X (Interpretable Latent Portrait Animator)強調其控制性，適合 AI 研究者和內容創作者使用，旨在將臉部動態從驅動影片遷移到指定的頭像，並實現精細控制。

LIA-X 功能列表

LIA-X 的可解釋性與細粒度控制能力，使其支援多種實際應用：

圖像動畫 (Image Animation)：能夠將驅動影片的臉部動態轉移到來源肖像上，並可透過控制面板進行編輯。使用者可以上傳來源圖像和驅動影片，然後使用控制面板編輯來源圖像，並生成動畫影片。
圖像編輯 (Image Editing)：允許使用者上傳來源圖像，並透過控制面板對其進行精確編輯。這包括對臉部細節的控制，例如偏航 (yaw)、噘嘴 (pout)、閉眼和眼球移動。
影片編輯 (Video Editing)：支援使用者上傳影片，並透過控制面板編輯影片的第一幀，以產生新的編輯後影片。同樣支援細粒度控制，例如頭部偏航和閉眼。
線性操控 (Linear Manipulation)：可以進行諸如偏航 (yaw)、俯仰 (pitch)、眼睛閉合與張開，以及眼球移動等臉部動態的線性控制。
3D 感知肖像影片操控 (3D-aware Portrait Video Manipulation)：這是一個更進階的應用，LIA-X 的可控性質支援此類應用。
動畫化個人資料 (Animating Your Own Data)：支援使用者自行準備圖像和影片資料（例如裁剪），然後進行動畫化處理。
細粒度、使用者引導的圖像和影片編輯：作為其可解釋和可控性質的直接結果，LIA-X 能夠實現這種精確的編輯。

Categories: 開源, 數字人, 視頻模型, 動畫, 影像模型, 影像處理

Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本，基於20B模型進一步訓練，支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢：

精準文字編輯：支援中英文文字的增、刪、改，並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
雙重語義/外觀編輯：不僅能進行風格轉換、物件增刪等視覺外觀編輯，也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL（語義控制）和 VAE 編碼器（外觀控制）實現。
強大跨基準效能：在多個公開基準測試中，Qwen-Image-Edit 在編輯任務上取得了最先進（SOTA）成果。

This new AI image editor is a BEAST. Qwen Image Edit tutorial

Watch this video on YouTube

Categories: 開源, 阿里巴巴, 教學, 影像模型, 影像處理

ToonComposer：簡化動畫製作

傳統的卡通/動漫製作耗時耗力，需要技藝精湛的藝術家進行關鍵影格、中間畫和上色。 ToonComposer 利用生成式 AI 簡化了這個流程，將數小時的中間畫和上色手動工作簡化為一個無縫銜接的流程。

ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

Watch this video on YouTube

Categories: 香港中文大學, 視頻模型, 動畫, 影像模型, 影像處理

Page 1 of 3

1 2 3 Next »