開源 Archives - Page 35 of 43 - InferNews

StableAvatar：無限長音訊驅動的頭像影片生成

2025 年 8 月 17 日

用於音訊驅動頭像視訊產生的擴散模型難以合成具有自然音訊同步和身份一致性的長視訊。基於 Wan2.1-1.3B 的 StableAvatar 音訊驅動的頭像視訊效果，是首個端到端視訊擴散變換器，無需後製即可合成無限長的高品質視訊。

Categories: 開源, 騰訊, 微軟, 數字人

FantasyPortrait

2025 年 8 月 17 日

FantasyPortrait 支援使用多個單人影片或單一多人影片驅動多個角色，產生細緻的表情和逼真的肖像動畫。

從靜態圖像中製作富有表現力的臉部動畫是一項極具挑戰性的任務。現有方法缺乏對多角色動畫的支持，因為不同個體的驅動特徵經常相互幹擾，使任務變得複雜。FantasyPortrait 提出了 Multi-Expr 資料集和 ExprBench，它們是專門為訓練和評估多角色肖像動畫而設計的資料集和基準。大量實驗表明，FantasyPortrait 在定量指標和定性評估方面均顯著超越了最先進的方法，尤其是在具有挑戰性的交叉重現和多角色情境中表現出色。

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion

Watch this video on YouTube

Categories: 開源, 阿里巴巴, 影像處理, 數字人, 視頻模型

Chrome MCP

2025 年 8 月 16 日

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的模型上下文協定 (MCP) 伺服器，它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手，從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具（例如 Playwright）不同，Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器，利用現有的使用者習慣、配置和登入狀態，讓各種大型模型或聊天機器人控制您的瀏覽器，真正成為您的日常助理。

Playwright Can't Do This... But This MCP Can.

Playwright Can't Do This... But This MCP Can.

Watch this video on YouTube

Categories: 開源, API, MCP, Python

本地語音聊天機器人

2025 年 8 月 15 日

Local Talking LLM - Jarvis mark1 Speech | Whisper STT - Ollama - Chatterbox TTS

Local Talking LLM - Jarvis mark1 Speech | Whisper STT - Ollama - Chatterbox TTS

Watch this video on YouTube

🎯語音克隆：只需一段簡短的音訊樣本即可克隆任何聲音
🎭情緒控制：調整回應的情緒表達
🚀效能更佳：0.5B 參數模型，推理速度更快
💧音頻浮水印：內建神經浮水印，確保真實性

Github Repository

Categories: 開源, 語音

Story2Board：無需訓練且有表現力的故事板

2025 年 8 月 15 日

Story2Board 是個無需訓練的框架，用於從自然語言中生成富有表現力的故事板。目標是將敘事呈現為一系列連貫的故事板面板——每個面板描繪不同的場景，同時保留主要角色的身份和外觀。

Categories: 開源, Python, 影像處理

Archon：AI編程革命性操作系統

2025 年 8 月 14 日

Archon 是一款為所有 AI 編程人量身打造，強調知識檢索、專案協作、即時上下文整合的開源編程操作系統，無論是個人或團隊都可極大提升 AI coding 助手的效能、協同與上下文管理力，非常適合想全面解鎖 AI 編程革命的人嘗試使用。

Introducing Archon - The Revolutionary Operating System for AI Coding

Introducing Archon - The Revolutionary Operating System for AI Coding

Watch this video on YouTube

Categories: 開源, 編程

Matrix-Game 2.0 互動世界生成系統

2025 年 8 月 14 日

Matrix-Game 2.0 是一套高效、強大的互動世界生成系統，專注於視覺與行動融合，能夠在多種遊戲場景下生成高質量、流暢並可交互的視頻內容，領先於現有主流方案，適合用於前沿AI遊戲和虛擬世界研究。主要由Skywork AI團隊開發。

Categories: 開源, 3D, 多模態模型, 影像模型, 推理引擎, 視覺模型

Omni-Effects：統一可控的視覺效果

2025 年 8 月 14 日

Omni-Effects 是一套針對視覺特效（VFX）生成的統一框架，主打多效果合成和空間可控性。這項技術突破了以往僅能針對單一特效單獨訓練（如 per-effect LoRA）的限制，可同時在指定區域生成多種特效，極大拓展了在影視製作及創意領域的應用可能性。

框架的核心包含兩項關鍵創新：(1) 基於 LoRA 的混合專家 (LoRA-MoE)，將多種效果整合到統一模型中，同時有效地減少跨任務幹擾。 (2) 空間感知提示 (SAP)將空間遮罩資訊合併到文字標記中，從而實現精確的空間控制。

Categories: 開源, 影像模型, 影像處理, 視頻模型

NVSpeech 處理副語言聲音

2025 年 8 月 13 日

NVSpeech 用於處理副語言聲音（paralinguistic vocalizations），包括非語言聲音（如笑聲、呼吸）和詞彙化插入語（如「uhm」、「oh」）。這些元素在自然對話中至關重要，能傳達情感、意圖和互動線索，但傳統自動語音辨識（ASR）和文字轉語音（TTS）系統往往忽略它們。

Categories: 開源, 香港中文大學, Mac, Win, 模型, 聲效, 語音

Matrix-3D：可探索的3D 世界

2025 年 8 月 13 日

相較於最先進的 360 度影片生成方法，Matrix-3D 在全景影片的視覺品質與合理幾何結構上更優越。同時，在視覺品質與相機可控性上，也超越先前的相機控制影片生成方法。廣泛實驗證明其在全景影片生成與 3D 世界生成上的最先進效能。香港科技大學(廣州分校)有份參預！

Categories: 開源, 香港科技大學, 3D, Linux, Mac, Win, 模型, 視頻模型

Page 35 of 43

« Previous 1 … 33 34 35 36 37 … 43 Next »