Omni-Effects:統一可控的視覺效果

Omni-Effects 是一套針對視覺特效(VFX)生成的統一框架,主打多效果合成和空間可控性。這項技術突破了以往僅能針對單一特效單獨訓練(如 per-effect LoRA)的限制,可同時在指定區域生成多種特效,極大拓展了在影視製作及創意領域的應用可能性。

框架的核心包含兩項關鍵創新:(1) 基於 LoRA 的混合專家 (LoRA-MoE),將多種效果整合到統一模型中,同時有效地減少跨任務幹擾。 (2) 空間感知提示 (SAP)將空間遮罩資訊合併到文字標記中,從而實現精確的空間控制。

Categories: 開源, 視頻模型, 影像模型, 影像處理

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音(paralinguistic vocalizations),包括非語言聲音(如笑聲、呼吸)和詞彙化插入語(如「uhm」、「oh」)。這些元素在自然對話中至關重要,能傳達情感、意圖和互動線索,但傳統自動語音辨識(ASR)和文字轉語音(TTS)系統往往忽略它們。

Categories: 香港中文大學, 開源, 聲效, Mac, Win, 模型, 語音


Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit,在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上,訓練一個基於 Qwen-Image 模型的 LoRA(Low-Rank Adaptation)風格模型。Qwen-Image 是一個 20 億參數的巨型模型,通常需要更高規格的硬體(如 32 GB VRAM 的 RTX 5090),但作者透過創新技術(如量化與 Accuracy Recovery Adapter)實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續,先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA,而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 開源, 視頻模型, 教學, 影像模型, 影像處理, 多模態模型, 模型, 模型訓練

Media Services Setup

Share ComfyUI as an Online Link in Minutes

Categories: ComfyUI, 開源

LongVie – 可控超長影片生成

可控的超長影片生成是一項基礎但具有挑戰性的任務,因為現有的方法雖然對短片段有效,但由於時間不一致和視覺品質下降等問題而難以擴展。

LongVie 的核心設計可確保時間一致性:
1)統一雜訊初始化策略,在各個片段之間保持一致的生成;
2)全域控制訊號歸一化,可在整個視訊的控制空間中強制對齊。為了減輕視覺品質下降,LongVie 採用密集(例如深度圖)和稀疏(例如關鍵點)控制訊號,並輔以一種退化感知訓練策略,可以自適應地平衡模態貢獻以保持視覺品質。

Categories: 開源, 視頻模型, 影像模型, 多模態模型, 模型


pyvideotrans 指南

【2025】别再“啃生肉”了!免费开源!这个AI视频翻译神器,一键搞定字幕&配音,让外语视频秒变“中文版”!| pyvideotrans教程

Categories: 開源, 教學, 語音

JAM – 基於串流的微型歌曲生成器

近年來,擴散模型和流匹配模型徹底改變了文字轉音頻的自動生成。這些模型產生高品質、忠實的音訊輸出的能力日益增強,能夠捕捉語音和聲學事件。然而,在主要涉及音樂和歌曲的創意音訊生成方面,仍有很大改進空間。近期推出的開放式歌詞轉歌曲模型,例如 DiffRhythm、ACE-Step 和 LeVo,已經為娛樂用途的自動歌曲生成樹立了可接受的標準。然而,這些模型缺乏音樂家在工作流程中經常需要的細粒度的詞級控制能力。他們基於流匹配的 JAM 是首次在歌曲生成中引入詞級時間和時長控制,從而實現細致度的人聲控制。為了提高生成的歌曲質量,使其更符合人類的偏好,我們透過直接偏好優化 (Direct Preference Optimization) 實現了美學一致性,該方法使用合成資料集迭代地優化模型,從而無需手動進行資料註釋。此外,他們旨在透過公開評估資料集 JAME 來標準化此類歌詞到歌曲模型的評估。他們證明,JAM 在音樂特定屬性方面的表現優於現有模型。

JAM 建構於一個緊湊的 530M 參數架構之上,並以 16 個 LLaMA 風格的 Transformer 層作為 Diffusion Transformer (DiT) 的主幹,從而實現了音樂家在工作流程中所需的精準人聲控制。與先前的模型不同,JAM 提供詞級和音素級的時序控制,使音樂家能夠指定每個人聲的精確位置,從而提高節奏的靈活性和表現力。

Categories: 開源, 音樂

Page 5 of 13
1 3 4 5 6 7 13