Chrome MCP

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。

Playwright Can't Do This... But This MCP Can.

Categories: 開源, API, MCP, Python

本地語音聊天機器人

Local Talking LLM - Jarvis mark1 Speech | Whisper STT - Ollama - Chatterbox TTS
  • 🎯語音克隆:只需一段簡短的音訊樣本即可克隆任何聲音
  • 🎭情緒控制:調整回應的情緒表達
  • 🚀效能更佳:0.5B 參數模型,推理速度更快
  • 💧音頻浮水印:內建神經浮水印,確保真實性

Github Repository

Categories: 開源, 語音


Archon:AI編程革命性操作系統

Archon 是一款為所有 AI 編程人量身打造,強調知識檢索、專案協作、即時上下文整合的開源編程操作系統,無論是個人或團隊都可極大提升 AI coding 助手的效能、協同與上下文管理力,非常適合想全面解鎖 AI 編程革命的人嘗試使用。

Introducing Archon - The Revolutionary Operating System for AI Coding
Categories: 開源, 編程


Omni-Effects:統一可控的視覺效果

Omni-Effects 是一套針對視覺特效(VFX)生成的統一框架,主打多效果合成和空間可控性。這項技術突破了以往僅能針對單一特效單獨訓練(如 per-effect LoRA)的限制,可同時在指定區域生成多種特效,極大拓展了在影視製作及創意領域的應用可能性。

框架的核心包含兩項關鍵創新:(1) 基於 LoRA 的混合專家 (LoRA-MoE),將多種效果整合到統一模型中,同時有效地減少跨任務幹擾。 (2) 空間感知提示 (SAP)將空間遮罩資訊合併到文字標記中,從而實現精確的空間控制。

Categories: 視頻模型, 開源, 影像模型, 影像處理

NVSpeech 處理副語言聲音

NVSpeech 用於處理副語言聲音(paralinguistic vocalizations),包括非語言聲音(如笑聲、呼吸)和詞彙化插入語(如「uhm」、「oh」)。這些元素在自然對話中至關重要,能傳達情感、意圖和互動線索,但傳統自動語音辨識(ASR)和文字轉語音(TTS)系統往往忽略它們。

Categories: 香港中文大學, 開源, 聲效, Mac, Win, 模型, 語音


Qwen-Image 的 LoRA 訓練

Train a Qwen-Image LoRA on 24GB VRAM With AI Toolkit

影片主要介紹如何使用 Ostris AI 開發的 AI Toolkit,在僅有 24 GB VRAM 的 RTX 4090 或 3090 GPU 上,訓練一個基於 Qwen-Image 模型的 LoRA(Low-Rank Adaptation)風格模型。Qwen-Image 是一個 20 億參數的巨型模型,通常需要更高規格的硬體(如 32 GB VRAM 的 RTX 5090),但作者透過創新技術(如量化與 Accuracy Recovery Adapter)實現了在消費級 GPU 上的訓練。影片強調這是對先前影片的延續,先前影片曾在 5090 上使用 6-bit 量化訓練角色 LoRA,而本次聚焦於更常見的 24 GB VRAM 硬體。

Categories: 視頻模型, 開源, 影像模型, 影像處理, 多模態模型, 教學, 模型, 模型訓練

Media Services Setup

Share ComfyUI as an Online Link in Minutes

Categories: ComfyUI, 開源

Page 1 of 9
1 2 3 9