MCP – InferNews

Reasonix：DeepSeek AI 編碼 agent，用 cache-first 降低長會話嘅 token 成本

2026 年 8 月 2 日

Reasonix 是 DeepSeek 一個面向桌面及終端的 AI coding agent，核心價值唔係花巧介面，而係將長會話裡不斷累積的上下文成本壓低。它適合要一路改檔、一路試工具、一路追問模型的人，特別是團隊日常做修補、重構同埋持續迭代時，對 token 成本同回合延遲都會有明顯感受。

Reasonix 主打 cache-first loop，令 prompt 前綴保持 byte-identical，配合 DeepSeek 的 prefix cache 去提升長會話命中率。項目同時提供 CLI/TUI、桌面端、local browser UI，同埋支援 ACP-compatible editor integration，部署方式亦算直接：CLI 可用 npm 安裝，桌面版則有 macOS、Windows、Linux 套件可選。

Deepseek's ~OFFICIAL Code: RIP Claude,Codex! This is CRAZY GOOD!

Watch this video on YouTube

Reasonix 唔係純粹包住模型嘅殼，而係圍繞工具呼叫修正、成本控制同 sandbox 權限去設計。/plan 會先要求模型規劃，再進入實作；MCP（Model Context Protocol, MCP）亦作為一等入口，方便把外部工具合入同一個 registry。這種做法較適合重視可控性、可追蹤性，亦需要長時間跑 session 的開發流程。

要留意嘅係，呢條 TypeScript 線已經進入 maintenance mode，主力開發搬去 Go rewrite，同步文件亦指向 main-v2 同 migration guide。現時更合理嘅理解方式，係將佢視為一個仍可用但已凍結方向的終端編碼 agent 版本，重點價值在 cache 效率、工具整合與成本壓縮，而唔係追求最新功能擴張。

長會話下，prefix cache 命中率可維持在 90%+，輸入 token 成本可明顯下降
同一套引擎可喺 CLI/TUI、桌面端、Web UI 同編輯器接入使用
/plan、權限控制同 workspace sandbox 一齊限制工具呼叫，取向偏向可控
適合經常改碼、反覆驗證、又在意推理成本嘅個人或團隊

項目主頁 · GitHub

Categories: 開源, DeepSeek, Agentic, MCP, Linux, Mac, Vibe Coding, 編程

CodeNib 把代碼庫上下文交到 Coding Agent 手上

2026 年 8 月 1 日

CodeNib 核心處理 Coding Agent 在大型項目裡最常卡住的問題：資料太散、脈絡太長、引用不清。它把倉庫編譯成 lexical、semantic、structural 同 static-navigation 多個視圖，再經 MCP、LSP-shaped providers、Python 或 HTTP API 交出去，讓工具直接拿到有來源位置的證據。

這個設計不只是做索引，而係重視增量更新同可追溯性。倉庫變動後，只會修補受影響的視圖；不適合保留的轉換才會重建。每個 view 都有獨立 manifest，記錄來源、狀態、能力同 artifact 位置，方便確認目前供緊咩上下文。

主要解決 Coding Agent 讀懂倉庫時的上下文供應問題
以 MCP 為核心接口，兼容 agent-native 工作流
Wiki、Ask view、Dependency Map 都係同一 runtime 的檢視層
依賴 SCIP symbol resolution 生成 dependency map，唔靠模型猜測
回答會附 file 同 line citation，方便核對

同類做法常見只係把檔案切片再丟入檢索，CodeNib 則把 lexical、dense、graph 同導航視圖放到同一個編譯流程裡。Docs 提到 live demo 支援 Python、C/C++、Go、Rust 同 TypeScript，亦展示咗一個針對 codebase 的實用取向，而唔係停留喺概念層面。

項目主頁 · GitHub

Categories: 開源, Agentic, API, MCP, Python, Vibe Coding, 編程

MiniMax H3 頂級高清影片生成

2026 年 7 月 31 日

做影片內容時，最麻煩往往不只是「生成一段片」，而係點樣令角色、鏡頭起承轉合同參考素材保持一致。MiniMax H3 屬於多模態影片模型，處理的正正係呢類控制力需求：除咗 Text-to-Video，亦支援以首幀、尾幀、參考圖片、參考影片同音訊去引導生成結果。

對內容團隊、短片創作者同需要自動化出片流程的開發者而言，呢個項目的吸引力在於輸入方式夠彈性。你可以由一段 prompt 起步，也可以加入第一張或最後一張畫面去約束開場與收尾；當需要保留人物、動作、鏡頭風格、聲線或剪接節奏，則可改用 Reference Generation。

MiniMax Just Dropped a "Seedance Killer" with a Twist

Watch this video on YouTube

支援 Text-to-Video、First/Last-Frame Image-to-Video、Reference Generation
統一理解 text、image、video、audio，多種素材可混合輸入
輸出最高為 2K，片長 4 至 15 秒，只接受整數秒
參考輸入上限包括最多 9 張圖片、3 段影片、3 段音訊，混合檔案總數上限 12

規格上，MiniMax H3 支援常見長闊比，圖片、影片與音訊都有清晰的格式及大小限制，例如影片可用 H.264/AVC、H.265/HEVC，圖片可用 JPG、PNG、WEBP，音訊則支援 WAV、MP3。音訊不能單獨提交，必須配合圖片或影片一齊使用；而較大的素材更建議用 URL 方式傳入，避免 API request body 超出 64 MB。

現有資料集中在能力範圍、輸入限制同 API 使用方向，能夠幫你快速判斷適唔適合接入工作流。

項目主頁

Categories: API, Video, MCP, Image, Audio, 多模態模型, 視頻模型, 語音, MiniMax

OpenWorker – Andrew Ng 開發桌面 AI 龍蝦

2026 年 7 月 26 日

對好多打工仔嚟講，最大嘅困擾唔係 AI 唔夠聰明，而係佢只識得「答問題」而唔識得「做完件事」。OpenWorker 嘅切入點正正喺呢度：佢定位係一個會跑喺你電腦上面嘅 AI 同事，可以幫你整理 calendar、寫 follow-up email、甚至自動出一份 customer brief，最後畀你一份可以直接開嚟用嘅文件，唔係一串對話。

OpenWorker 由 Andrew Ng（吳恩達）相關團隊推出，引擎建基於佢哋自己開發嘅 Python 開源庫 aisuite，呢個庫提供統一嘅 chat-completions API 以及支援工具調用（tool calling）、MCP 等功能。簡單講，OpenWorker 唔係從零寫起嘅 wrapper，而係將 aisuite 包成一個真正面向桌面用戶嘅應用，並且喺原本 aisuite 倉庫入面開發咗一段時間之後，先搬出嚟獨立成 repo。

目前支援 macOS（Apple Silicon）以及 Windows 10/11，用家可以貼上自己嘅 API key 去用 OpenAI、Anthropic、Google Gemini、DeepSeek、Kimi、Qwen、Mistral 等模型，亦可以經 Ollama 完全本地跑開源模型。所有嘢都喺本機行，只有用家授權嘅 model call 或者連接工具先會接觸到網絡。對於注重私隱或者公司政策唔畀數據出 cloud 嘅人，呢個係一個幾實際嘅選擇。

OPENWORKER: The Free AI Desktop Agent That Isn't Locked to One Model

Watch this video on YouTube

佢亦內建 25+ 個整合，包括 GitHub、Slack、Jira、Notion、Linear、HubSpot、Outlook、Gmail、Google Calendar 等，亦支援任何可以經 MCP（Model Context Protocol）接駁到嘅工具。最令筆者欣賞嘅係佢嘅審批機制：寫訊息、發送郵件、執行 shell 指令呢類「對外有影響」嘅動作，全部都要先經你確認先至會執行，唔會自己靜靜雞撳掣。

以下係幾個用家會比較關心嘅重點：

定位係桌面 AI 同事，目標係交到「成品」而唔止係聊天回覆，例如 HTML brief、Markdown 報告、排好嘅 calendar 更新等。
完全開源、MIT 授權，由 Andrew Ng 團隊開發，引擎建基於佢哋嘅 aisuite 開源庫。
模型自選，支援多間主流 cloud provider，亦可以經 Ollama 完全本地執行開源模型。
重視私隱，對話、token、API key 都儲喺本機 secret store，唔需要登入亦可以用。
MCP + 審批機制，所有對外動作（發訊息、執行指令）都會先問過你先做，減低「AI 自行撳掣」嘅風險。

如果你係一個人或者小型團隊，想搵一個可以幫你「跑手」而唔係淨係「傾偈」嘅 AI 工具，又唔想將公司敏感資料送去閉源服務，OpenWorker 算係一個值得試嘅選擇。佢而家仲喺 open beta，官方表示會自動更新、不斷執吓啲 bugs，畀用家提交 issue。適合想認真將 AI 融入日常工作流、對私隱同可控性有要求嘅人。

項目主頁 · GitHub

Categories: 開源, Qwen, Google, Gemini, DeepSeek, OpenAI, API, MCP, 工具, Mac, Ollama, Python, Anthropic, 蘋果, Kimi

FunASR 工業級語音辨識：支援廣東話

2026 年 7 月 19 日

如果你做過語音相關項目，大概率遇過呢種情況：開源模型散落喺唔同倉庫、部署方式各異、要接入 Agent 仲要自己寫 WebSocket 中間層。FunASR 就係針對呢類工程痛點嘅工業級語音識別工具包，屬於開源框架，由阿里達摩院維護，提供統一 Python 接口，將 ASR、VAD、標點恢復、說話人分離、情感偵測同音訊事件辨識串成一條流水線。

旗艦模型 Fun-ASR-Nano 係基於 LLM 嘅解碼架構，覆蓋中、英、日三語以及中文方言群組；針對 31 種語言嘅場景可以用 Fun-ASR-MLT-Nano-2512；鍾意多語言又有 LLM 解碼能力嘅，亦有 Qwen3-ASR（52 種語言、0.6B/1.7B 參數）。如果想要更輕量、非自迴歸嘅選擇，Paraformer 同 SenseVoice 仍係穩陣起點，前者適合生產線串流，後者額外送情感同音訊事件標籤。

funasr-server 一行指令就可以拉起 OpenAI 相容嘅轉寫 API，本地聽返 localhost:8000，配合 vLLM 仲可以做到 2-3 倍 LLM 解碼加速同 tensor parallel 批次推理。Agent 整合係另一個重點：MCP Server 可以直接接入 Claude 或 Cursor，OpenAI API 接口又同 LangChain、Dify、AutoGen 無縫對齊。最近幾個版本（v1.3.18 至 v1.3.22）就專門執緊 SRT/字幕分段、長時 WebSocket 連線、verbose_json 回傳呢啲工程細節。

要留意嘅取捨係：Fun-ASR-Nano 需要 GPU；新環境第一次 import funasr 已唔再強行依賴 PyTorch，但用 AutoModel 仍然要先裝 torch。FunASR 比較適合需要私有語音 API、字幕生成、長會議轉寫、或想將語音能力塞入 Agent 工作流嘅團隊開發者。

重點摘要：

統一 Python 接口整合 ASR、VAD、標點、說話人分離、情感偵測
Fun-ASR-Nano 旗艦模型支援 31 種語言及中文方言，Fun-ASR-MLT-Nano 覆蓋更廣
funasr-server 提供 OpenAI 相容 API，搭配 vLLM 可達 2-3 倍加速
內建 MCP Server 支援 Claude/Cursor，亦可接入 LangChain、Dify、AutoGen
近期版本持續優化字幕分段、WebSocket 長連線、verbose_json 回傳等工程細節

以下是其對粵語支持的詳細信息：

UniASR模型：這是一個專為粵語設計的語音識別模型，能夠處理簡體中文的粵語語音識別任務。
ITN模型：用於對粵語語音識別結果進行擬文本正則化後處理，以提高識別結果的準確性。
VAD模型：語音端點檢查模型，用於檢測長語音片段中有效語音的起止時間點，這對於粵語方言的語音識別同樣重要。
訓練語料：為了提高模型的準確性和適用性，通常會使用大量的粵語語料進行訓練，以便模型能夠更好地理解和識別粵語中的特有詞彙和表達方式。
離線功能：Funasr提供了離線語音識別模型，這意味著即使在沒有網絡連接的情況下，也能夠進行粵語語音識別。

項目主頁 · GitHub

Categories: 開源, Qwen, NVIDIA, Agentic, API, MCP, IDE, LangChain, Python, 語音, Dataset 數據集

Grok Build 開源後，編碼代理點樣運作一目了然

2026 年 7 月 18 日

想追到 AI 編碼代理點樣一步步理解程式碼、決定用咩工具，再把結果送回終端，Grok Build 而家提供了一個相當直接的入口。這個由 SpaceXAI 公開的 coding agent 與 TUI，不只方便試用，還把整個運作骨架開源，重點是讓人真正查清楚代理在處理什麼、又可以改到什麼。

對開發者而言，價值不止在「可用」，而是在「可驗證」。你可以直接查看它怎樣組裝 context、解析模型回應、分派 tool calls，也可以理解它怎樣讀寫程式碼、搜尋內容與執行指令。做緊技能擴充、插件整合，或者研究 MCP servers、subagents 工作流的人，這份原始碼會比單靠文件更有參考價值。

開源範圍涵蓋 agent loop、tools、terminal UI 與 extension system
可研究 skills、plugins、hooks、MCP servers、subagents 的載入與呼叫方式
支援 local-first 用法，可自行編譯並接上本地 inference
主要透過 config.toml 控制整體執行流程

和常見只提供託管服務或有限介面的工具相比，Grok Build 把關鍵細節直接攤開。使用時不一定要綁定雲端環境，亦可以自己編譯、指向本地推理後端，令測試、除錯、客製化與安全審視都有更大空間；代價是你要自己處理部署與整合，門檻自然較高。

對需要打造自訂 coding agent、終端工作流，或研究代理工具調度方式的人來說，這次開源相當有參考價值。

項目主頁

Categories: 開源, Agentic, API, MCP, Vibe Coding, 安全, 編程, Skill 技能

Qwen3.6 全新的動態 NVFP4 量化器

2026 年 7 月 10 日

想喺自己電腦上跑到規模較大的多模態模型，最大卡位通常唔係功能，而係記憶體同速度。Qwen3.6 屬於阿里巴巴的新一代多模態 hybrid-thinking 模型系列，重點在於用相對可控的硬件需求，處理 agentic coding、vision 同 chat 等工作。

現有資料提到兩個主力型號：Qwen3.6-27B 同 35B-A3B。前者可在約 18GB 記憶體配置下運行，後者約需 22GB 至 23GB 左右，並支援 256K context 及 201 種語言。對想喺本地做長內容理解、跨語言對話，或者配合工具調用工作流的人來說，這個取向幾實用。

相比只講「可量化、可本地跑」的常見做法，Unsloth 這邊更著重點樣揀到速度與準確度較平衡的版本。Qwen3.6 GGUFs 採用 Unsloth Dynamic 2.0，會按真實使用資料做 calibration，並把重要 layers upcast；另外新推出的 NVFP4 quants 主打在 GPU 上帶來約 2.5 倍更快速度，MTP 則標示可把 inference 再加快 1.4 至 2.2 倍，同時不犧牲準確度。

適合本地部署多模態模型，兼顧編碼、視覺與對話
27B、35B-A3B 記憶體需求相對克制，較易在個人設備起步
GGUF 格式配合 Unsloth Dynamic 2.0，重點是量化後仍保持可用表現
NVFP4 與 MTP 主要改善推理速度，幫助減少等待時間

使用上仍有幾點要留意：總可用記憶體最好高於下載的量化模型大小，否則雖然可經 llama.cpp 用 SSD/HDD offloading 繼續運行，但推理會慢得多；文件亦明確提醒不要使用 CUDA 13.2，以免輸出異常。整體來看，這不是單純把 Qwen3.6 搬到本地，而是把「跑得動、跑得快、精度仍可接受」這幾個取捨整理得更清楚。

所引用的模型列表：Qwen3.6-27B、Qwen3.6-35B-A3B。

項目主頁 · 模型

Categories: 開源, 阿里巴巴, Qwen, NVIDIA, Agentic, API, MCP, Medical醫學, Python, 多模態模型, 模型, 教學, 編程, Anthropic, OpenClaw

open-design：本地優先的開源設計工具

2026 年 7 月 7 日

open-design 是一款本地優先（local-first）的開源桌面應用程式，主打讓 AI 編碼代理（coding agent）直接充當設計引擎，協助用戶快速產出原型設計（prototypes）、登陸頁面（landing pages）、儀表板（dashboards）、投影片、圖片甚至影片等各種多媒體素材，並輸出真實可用的檔案。這個項目的定位是 Claude Design 的開源替代方案，強調在桌面環境中本地執行，無需依賴雲端服務即可完成設計工作。

與傳統的設計工具相比，open-design 的最大差異在於將 AI 編碼代理作為核心驅動力，用戶可以透過自然語言指令讓代理直接生成設計內容，省去手動拖拽元件的繁瑣流程。從 GitHub 上的數據可見，該項目已獲得超過 7.5 萬顆星及 8 千多次 fork，社群關注度相當高，顯示開源社群對本地化 AI 設計工具的強烈需求。

這個項目最適合需要快速產出網頁原型或行銷素材的開發者、設計師及內容創作者。對於重視資料隱私、希望在本地環境完成設計工作的人來說，local-first 的架構尤為吸引。開發者亦可將其整合到現有的編碼工作流中，讓 AI 代理同時負責程式碼與設計兩個層面。

以下是這個項目的重點摘要：

屬於本地優先的開源桌面應用，定位為 Claude Design 的替代方案
核心功能是讓 AI 編碼代理生成設計稿、頁面、儀表板及多媒體內容
強調本地執行，無需依賴雲端服務，保障資料私隱
適用於開發者、設計師及內容創作者快速產出原型與行銷素材
社群關注度高，GitHub 上已累積超過 7.5 萬顆星

由於該項目仍處於活躍開發階段，功能成熟度與跨平台支援等細節尚未完全明朗，建議有興趣的使用者持續關注其更新進度。

項目主頁

以下是該網頁主要內容（麻省理工學院電子工程與計算機科學系 MIT EECS 的訪談文章）的繁體中文翻譯：

(more…)

Categories: 開源, Agentic, MCP, Vibe Coding, 安全, 編程, Skill 技能

MCP 點解比 API 更啱 AI agents

2026 年 7 月 5 日

項目主頁

Categories: Google, Agentic, API, MCP, 安全, OpenClaw

Google A2UI 想讓 AI Agent 直接講出介面

2026 年 7 月 4 日

A2UI 是一個開源框架／協定格式項目，核心是讓 AI agent 用宣告式 JSON 產生可更新的互動介面。它要解決的問題很直接：agent 不只回文字，還可以安全地把表單、卡片、按鈕等 UI 交畀前端或原生客戶端渲染。

這個項目的取向，和直接讓 LLM 輸出 HTML、JavaScript，或者在前端執行 agent 生成程式碼很不同。A2UI 把介面描述同實際元件庫分開，client 只會渲染已預先信任的元件 catalog，安全性較高，但代價是自由度受 catalog 和 renderer 能力限制，並非想畫甚麼介面都可以即時做到。

現有資料顯示，A2UI 仍屬 early stage public preview，目前生產版本為 v0.9.1，v1.0 specification 則是 release candidate。部署與理解方式上，它較像一個要接入現有產品的基礎層：agent 端輸出 A2UI JSON，client 端用對應 renderer 轉成 Flutter、Angular、Lit、Web 或其他原生 UI；官方網站有 Quickstart、Client Setup、Agent Development 同 renderer 文件，但這份資料未列出完整安裝流程，亦看不到一鍵接入 OpenClaw、OpenCode、Codex、Hermes Agent、Copilot、Pi 的管理介面整合資訊。

它的優勢，在於增量更新和跨框架可攜性。README 提到 UI 會以扁平元件清單加 ID 關聯表示，這種結構對 LLM 較友善，也方便串流更新；同一份 A2UI payload 理論上可以映射到不同客戶端。相比綁死某一個前端框架的做法，這更適合多端產品、內部工具平台，或者需要跨信任邊界把 agent 能力交到用戶手上的團隊。

重點可概括為：
– 不是模型，而是讓 agent「講 UI」的協定與函式庫
– 核心賣點是安全渲染，避免直接執行 LLM 生成程式碼
– 支援增量更新，較適合串流式互動介面
– 可對接多種前端技術，但前提是要先有 renderer 和元件 catalog
– 文件已見版本演進與示範場景，公開資料未提供明確性能跑分

性能與現有內容較著重設計理念、版本演進與示範，而不是基準測試數字，所以不宜把它理解成追求速度排行榜的項目。較可能受益的是正在做 agent 產品的前端團隊、平台工程團隊，以及需要把資料收集、任務委派、跨端 UI 呈現整合起來的企業應用；相關技術脈絡則包括 AI agents、MCP、Flutter、Angular、Lit、React、SwiftUI，以及 A2A extension。

項目主頁 · GitHub

Categories: 開源, Google, Agentic, MCP, OpenClaw, 框架

Page 1 of 3

1 2 3 Next »