Qwen-Image-Edit

Qwen-Image-Edit 是 Qwen-Image 的圖像編輯版本,基於20B模型進一步訓練,支持精准文字編輯和語義/外觀雙重編輯能力。它具備多項關鍵功能與技術優勢:

  • 精準文字編輯:支援中英文文字的增、刪、改,並能保留原始文字的大小、字體與樣式。這得益於 Qwen-Image 獨特的文字渲染能力被擴展至編輯任務。
  • 雙重語義/外觀編輯:不僅能進行風格轉換、物件增刪等視覺外觀編輯,也支援 IP 創作、物件旋轉等高層次語義編輯。這透過將輸入影像同時饋入 Qwen2.5-VL(語義控制)和 VAE 編碼器(外觀控制)實現。
  • 強大跨基準效能:在多個公開基準測試中,Qwen-Image-Edit 在編輯任務上取得了最先進(SOTA)成果。
This new AI image editor is a BEAST
Categories: 開源, 阿里巴巴, 影像模型, 影像處理, 教學

建立一個本機語音 AI 代理

影片展示了如何利用 FastRTC 建立一個免費且本地運行的語音 AI 代理。這個系統的關鍵優勢在於它無需昂貴的 GPU 即可在 CPU 上運行,並確保使用者資料的 100% 私密性。它結合了 FastRTC 作為即時通訊庫、Gemma 作為語言模型 (LLM) 和 Coqui 作為文本轉語音 (TTS) 引擎,全部皆為開源工具。儘管存在回應延遲和語音自然度等局限性,但此設定在隱私性、成本效益和易用性方面表現出色,尤其適用於語言練習、互動式日記和講故事等不需要即時回應的應用場景。

Build A Free & Local Voice AI Agent Using FastRTC
Categories: 教學



FantasyPortrait

FantasyPortrait 支援使用多個單人影片或單一多人影片驅動多個角色,產生細緻的表情和逼真的肖像動畫。

從靜態圖像中製作富有表現力的臉部動畫是一項極具挑戰性的任務。現有方法缺乏對多角色動畫的支持,因為不同個體的驅動特徵經常相互幹擾,使任務變得複雜。FantasyPortrait 提出了 Multi-Expr 資料集和 ExprBench,它們是專門為訓練和評估多角色肖像動畫而設計的資料集和基準。大量實驗表明,FantasyPortrait 在定量指標和定性評估方面均顯著超越了最先進的方法,尤其是在具有挑戰性的交叉重現和多角色情境中表現出色。

FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion
Categories: 數字人, 視頻模型, 開源, 阿里巴巴, 影像處理

Chrome MCP

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。

Playwright Can't Do This... But This MCP Can.

Categories: 開源, API, MCP, Python

讓 AI 說出不當言論

邀請了知名 AI 安全專家 Jason Haddix,深入探討了駭客如何滲透、操控 AI 驅動的應用程式,能讓 AI 說出不當言論,更能竊取企業敏感數據如客戶資料或商業機密。

Hacking AI is TOO EASY (this should be illegal)
Categories: 安全

本地語音聊天機器人

Local Talking LLM - Jarvis mark1 Speech | Whisper STT - Ollama - Chatterbox TTS
  • 🎯語音克隆:只需一段簡短的音訊樣本即可克隆任何聲音
  • 🎭情緒控制:調整回應的情緒表達
  • 🚀效能更佳:0.5B 參數模型,推理速度更快
  • 💧音頻浮水印:內建神經浮水印,確保真實性

Github Repository

Categories: 開源, 語音

Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1
(more…)
Categories: 編程, , 教學, 深度學習, Embedding


Page 1 of 52
1 2 3 52