Infer News

Omni-Effects：統一可控的視覺效果

Omni-Effects 是一套針對視覺特效（VFX）生成的統一框架，主打多效果合成和空間可控性。這項技術突破了以往僅能針對單一特效單獨訓練（如 per-effect LoRA）的限制，可同時在指定區域生成多種特效，極大拓展了在影視製作及創意領域的應用可能性。

框架的核心包含兩項關鍵創新：(1) 基於 LoRA 的混合專家 (LoRA-MoE)，將多種效果整合到統一模型中，同時有效地減少跨任務幹擾。 (2) 空間感知提示 (SAP)將空間遮罩資訊合併到文字標記中，從而實現精確的空間控制。

Categories: 影像模型, 影像處理, 視頻模型, 開源

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音（paralinguistic vocalizations），包括非語言聲音（如笑聲、呼吸）和詞彙化插入語（如「uhm」、「oh」）。這些元素在自然對話中至關重要，能傳達情感、意圖和互動線索，但傳統自動語音辨識（ASR）和文字轉語音（TTS）系統往往忽略它們。

Categories: 香港中文大學, Mac, Win, 模型, 聲效, 語音, 開源

Matrix-3D：可探索的3D 世界

相較於最先進的 360 度影片生成方法，Matrix-3D 在全景影片的視覺品質與合理幾何結構上更優越。同時，在視覺品質與相機可控性上，也超越先前的相機控制影片生成方法。廣泛實驗證明其在全景影片生成與 3D 世界生成上的最先進效能。香港科技大學(廣州分校)有份參預！

Categories: 香港科技大學, 3D, Linux, Mac, Win, 模型, 視頻模型, 開源

Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

Watch this video on YouTube

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit，在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上，訓練一個基於 Qwen-Image 模型的 LoRA（Low-Rank Adaptation）風格模型。Qwen-Image 是一個 20 億參數的巨型模型，通常需要更高規格的硬體（如 32 GB VRAM 的 RTX 5090），但作者透過創新技術（如量化與 Accuracy Recovery Adapter）實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續，先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA，而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 多模態模型, 影像模型, 影像處理, 教學, 模型, 模型訓練, 視頻模型, 開源

Media Services Setup

GitHub – Comfy-Org/comfy-cli: Command Line Interface for Managing ComfyUI

Command Line Interface for Managing ComfyUI. Contribute to Comfy-Org/comfy-cli development by creating an account on GitHub.

Share ComfyUI as an Online Link in Minutes

Watch this video on YouTube

GitHub – ostris/ai-toolkit: The ultimate training toolkit for finetuning diffusion models

The ultimate training toolkit for finetuning diffusion models – ostris/ai-toolkit

Categories: ComfyUI, 開源

HPSv3 基於視覺語言模型

HPSv3（Human Preference Score v3）是一個由 Mizzen AI、香港中文大學 MMLab、倫敦國王學院、上海交通大學及上海人工智能實驗室等機構合作開發的項目，目標是建立一個全面的人類偏好評估系統，用於評估文本到圖像生成模型的表現。

HPSv3 旨在解決現有圖像生成模型評估中與人類感知對齊的問題，現有方法常受限於數據覆蓋範圍不足、特徵提取不佳及損失函數效率低下的問題

Categories: 香港, 香港中文大學

由 AI 講 AI 的未來

AI Made a Movie About Its Own Future

Categories: AI productions

OpenAI 的開放權重模型 gpt-oss 系列

GitHub – openai/gpt-oss: gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI

專為強大的推理、代理任務和多功能開發人員用例而設計。

Categories: Ollama, 推理引擎, 開源

pyvideotrans 指南

【2025】别再“啃生肉”了！免费开源！这个AI视频翻译神器，一键搞定字幕＆配音，让外语视频秒变“中文版”！| pyvideotrans教程

Watch this video on YouTube

pyvideotrans: 将视频从一种语言翻译为另一种语言，同时支持语音识别转录、语音合成、字幕翻译。

Categories: 教學, 語音, 開源

JAM – 基於串流的微型歌曲生成器

近年來，擴散模型和流匹配模型徹底改變了文字轉音頻的自動生成。這些模型產生高品質、忠實的音訊輸出的能力日益增強，能夠捕捉語音和聲學事件。然而，在主要涉及音樂和歌曲的創意音訊生成方面，仍有很大改進空間。近期推出的開放式歌詞轉歌曲模型，例如 DiffRhythm、ACE-Step 和 LeVo，已經為娛樂用途的自動歌曲生成樹立了可接受的標準。然而，這些模型缺乏音樂家在工作流程中經常需要的細粒度的詞級控制能力。他們基於流匹配的 JAM 是首次在歌曲生成中引入詞級時間和時長控制，從而實現細致度的人聲控制。為了提高生成的歌曲質量，使其更符合人類的偏好，我們透過直接偏好優化 (Direct Preference Optimization) 實現了美學一致性，該方法使用合成資料集迭代地優化模型，從而無需手動進行資料註釋。此外，他們旨在透過公開評估資料集 JAME 來標準化此類歌詞到歌曲模型的評估。他們證明，JAM 在音樂特定屬性方面的表現優於現有模型。

JAM 建構於一個緊湊的 530M 參數架構之上，並以 16 個 LLaMA 風格的 Transformer 層作為 Diffusion Transformer (DiT) 的主幹，從而實現了音樂家在工作流程中所需的精準人聲控制。與先前的模型不同，JAM 提供詞級和音素級的時序控制，使音樂家能夠指定每個人聲的精確位置，從而提高節奏的靈活性和表現力。

Categories: 開源, 音樂

Page 17 of 66

« Previous 1 … 15 16 17 18 19 … 66 Next »