TVEdit:文字與點拖軌跡合一的圖片編輯項目

TV-Edit Gradio demo

TVEdit 是一個圖像編輯項目,目標是解決「只靠文字講意思,或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意,但難控制空間;點拖軌跡可以指位置,卻容易令語意變得含糊,所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練,資料超過 23K 筆,來源與動態影片有關。再配合 TV-Edit 框架,把拖曳或點選等視覺指令轉成更有語意的控制表示,然後接到預訓練編輯骨幹上,例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」,而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench,專門看語意忠實度、空間對齊同畫面一致性,這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit,再配 TV-Edit 權重,之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令,再調 CFG 同步數生成結果。若有加速 LoRA,步數可以大幅減少,適合想快速試驗互動式編輯的人。

  • 結合文字語意與點拖軌跡,令空間控制更細
  • 用 23K+ 配對資料補足跨模態指令訓練
  • TV-Edit-Bench 同時看語意、位置、畫面一致性
  • 目前已提供推理程式、模型權重同網頁示範
  • 適合做互動式圖片編輯、研究評測或模型整合

GitHub: https://github.com/PolyU-VCLab/TVEdit

Paper: https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

PhoneHarness:重新量度手機代理能力

PhoneHarness CLI status demo

PhoneHarness 是一個混合動作的手機代理評測框架與基準,解決只靠 GUI 點按去評分、卻量不到真實副作用的問題。論文指出,手機任務往往需要在 GUI、CLI 與 structured tools 之間切換,單看最後畫面會漏掉很多關鍵步驟。

它的做法是把行動路由、GUI 委派和可追蹤執行記錄放進同一個流程。當任務有明確可執行路徑時,系統會優先走 CLI 或 MCP 完成;只有必要時才交由 GUI worker 透過截圖互動,令評測更貼近真正手機工作流。

這個項目的新意在於把「能否完成」和「是否留下可驗證證據」綁在一起。JSONL traces 和 HTML viewer 令失敗可以被拆成模型推理、GUI 對齊、環境、工具或 verifier 不一致幾類,方便找出問題來源,而不是只見到一個分數。

論文中的 PhoneHarness Bench 在 annotated evaluation split 上取得 75.0% pass rate,較最強的非 PhoneHarness 設定高 12.9 個百分點。這表示它不只是測試介面操作,還在測試代理怎樣選擇動作面,對做手機自動化、裝置測試、或需要可審計流程的團隊都幾有參考價值。

  • 混合支援 GUI、CLI、MCP tools,適合手機工作流評測
  • 優先 deterministic 路由,減少不必要的畫面操作
  • 可追蹤 traces,方便定位錯誤來源
  • 適合研究 phone agents、裝置自動化與安全副作用檢查

相關模型/基準可一併留意:PhoneHarness、PhoneHarness Bench、AndroidWorld、AppAgent、Mobile-Agent-v2、MobileAgentBench、AndroidLab。

GitHub: https://github.com/PhoneHarness/PhoneHarness

項目: https://phoneharness.github.io/

Categories: 開源, Agentic, MCP, 軟件, 工具, 安全, 模型, 框架


Chrome MCP 伺服器

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的
模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,
Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。

ai 编程测试, chrome mcp server ,自动化必备,web 开发必备工具!
Categories: 開源, MCP, Linux, Mac, Win, 編程


Chrome MCP

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。

Playwright Can't Do This... But This MCP Can.

Categories: 開源, API, MCP, Python

TRAE 1.35 新版整合 MCP

Trae 令我放棄了 Cursor,放棄了 WindSurf,甚至 Cline 等等。因為它擁有更加直觀的操作介面,除了提供傳統的 IDE 功能,亦包括自動編寫代碼、項目管理、插件管理,同時,最新版本亦都直接整合了 MCP 同 MCP 市場。當然亦唔少得 AI Agent。

📢Breaking News TRAE.AI Just Added GAME CHANGING Features!
Trae 大更新!免費 AI IDE 終於支援 MCP,自訂智能體、強大模型 (GPT-4.1/Claude 3.7) 全面進化!
Categories: MCP, Vibe Coding, 編程

MCP vs A2A 技術比較

Categories: MCP

MiniMax MCP server

MiniMax 模型上下文協定 (MCP) 伺服器,可與強大的文字轉語音和視訊/圖像生成 API 進行互動。此伺服器允許 MCP 用戶端(如 Claude Desktop 、 Cursor 、 Windsurf 、 OpenAI Agents 等)產生語音、複製聲音、產生視訊、產生影像等。

Categories: 開源, MCP

GitHub 官方 MCP 伺服器

GitHub MCP 伺服器是一個模型上下文協定 (MCP) 提供與 GitHub API 無縫整合的伺服器,為開發人員和工具提供自動化和互動功能。提供一鍵安裝。完成後,切換代理模式,伺服器將會自動啟動。

Introducing the GitHub MCP Server: AI interaction protocol | GitHub Checkout
Categories: 開源, MCP

Page 1 of 2
1 2