Vibe Coding

Reasonix：DeepSeek AI 編碼 agent，用 cache-first 降低長會話嘅 token 成本

2026 年 8 月 2 日

Reasonix 是 DeepSeek 一個面向桌面及終端的 AI coding agent，核心價值唔係花巧介面，而係將長會話裡不斷累積的上下文成本壓低。它適合要一路改檔、一路試工具、一路追問模型的人，特別是團隊日常做修補、重構同埋持續迭代時，對 token 成本同回合延遲都會有明顯感受。

Reasonix 主打 cache-first loop，令 prompt 前綴保持 byte-identical，配合 DeepSeek 的 prefix cache 去提升長會話命中率。項目同時提供 CLI/TUI、桌面端、local browser UI，同埋支援 ACP-compatible editor integration，部署方式亦算直接：CLI 可用 npm 安裝，桌面版則有 macOS、Windows、Linux 套件可選。

Deepseek's ~OFFICIAL Code: RIP Claude,Codex! This is CRAZY GOOD!

Watch this video on YouTube

Reasonix 唔係純粹包住模型嘅殼，而係圍繞工具呼叫修正、成本控制同 sandbox 權限去設計。/plan 會先要求模型規劃，再進入實作；MCP（Model Context Protocol, MCP）亦作為一等入口，方便把外部工具合入同一個 registry。這種做法較適合重視可控性、可追蹤性，亦需要長時間跑 session 的開發流程。

要留意嘅係，呢條 TypeScript 線已經進入 maintenance mode，主力開發搬去 Go rewrite，同步文件亦指向 main-v2 同 migration guide。現時更合理嘅理解方式，係將佢視為一個仍可用但已凍結方向的終端編碼 agent 版本，重點價值在 cache 效率、工具整合與成本壓縮，而唔係追求最新功能擴張。

長會話下，prefix cache 命中率可維持在 90%+，輸入 token 成本可明顯下降
同一套引擎可喺 CLI/TUI、桌面端、Web UI 同編輯器接入使用
/plan、權限控制同 workspace sandbox 一齊限制工具呼叫，取向偏向可控
適合經常改碼、反覆驗證、又在意推理成本嘅個人或團隊

項目主頁 · GitHub

Categories: 開源, DeepSeek, Agentic, MCP, Linux, Mac, Vibe Coding, 編程

CodeNib 把代碼庫上下文交到 Coding Agent 手上

2026 年 8 月 1 日

CodeNib 核心處理 Coding Agent 在大型項目裡最常卡住的問題：資料太散、脈絡太長、引用不清。它把倉庫編譯成 lexical、semantic、structural 同 static-navigation 多個視圖，再經 MCP、LSP-shaped providers、Python 或 HTTP API 交出去，讓工具直接拿到有來源位置的證據。

這個設計不只是做索引，而係重視增量更新同可追溯性。倉庫變動後，只會修補受影響的視圖；不適合保留的轉換才會重建。每個 view 都有獨立 manifest，記錄來源、狀態、能力同 artifact 位置，方便確認目前供緊咩上下文。

主要解決 Coding Agent 讀懂倉庫時的上下文供應問題
以 MCP 為核心接口，兼容 agent-native 工作流
Wiki、Ask view、Dependency Map 都係同一 runtime 的檢視層
依賴 SCIP symbol resolution 生成 dependency map，唔靠模型猜測
回答會附 file 同 line citation，方便核對

同類做法常見只係把檔案切片再丟入檢索，CodeNib 則把 lexical、dense、graph 同導航視圖放到同一個編譯流程裡。Docs 提到 live demo 支援 Python、C/C++、Go、Rust 同 TypeScript，亦展示咗一個針對 codebase 的實用取向，而唔係停留喺概念層面。

項目主頁 · GitHub

Categories: 開源, Agentic, API, MCP, Python, Vibe Coding, 編程

DeepSeek-V4-Flash 公測版重點更新

2026 年 7 月 31 日

想用同一個 API 入口處理寫碼、自動化操作同工具調用，2026-07-31 呢次更新最值得留意。DeepSeek-V4-Flash 正式版已經開放 API 公測，調用方式維持不變，只要把模型名稱設為 deepseek-v4-flash，就可以切換到最新版本，對現有接入項目來講改動相對少。

今次更新的重點唔係介面改版，而係 Agent 能力明顯加強。官方列出的 Terminal Bench 2.1、NL2Repo、Cybergym、DeepSWE、Toolathlon verified 同 Automation Bench (Public) 等基準分數，都指向同一件事：V4-Flash 針對 Coding Agent、終端操作、工具使用同全棧開發場景做咗強化，而且公開測試成績已經高過 V4-Pro-Preview。

技術上，DeepSeek-V4-Flash-0731 的模型結構、尺寸都同 DeepSeek-V4-Flash-Preview 一致，更新集中在後訓練，意味住提升主要來自調整模型行為，而唔係換咗一個更大架構。它同時原生支援 Responses API 格式，亦有針對 Codex 做適配，對已經圍繞 API 建立 Agent 工作流的團隊會更易接入。

幾個重點可以直接整理如下：
– deepseek-v4-flash 已可直接使用正式版 API 公測
– API 調用方式不變，現有項目遷移成本較低
– Agent 能力是今次更新核心，涵蓋 coding、terminal 同 tool use
– Responses API 已原生支援，並針對 Codex 做咗適配
– 今次只更新 V4-Flash API，DeepSeek-V4-Pro API 以及 APP/WEB 端模型未有改動

使用上亦要留意邊界。現有資料有提供模型名、相容格式同基準測試結果，但未見更完整的安裝步驟、下載方式或者端到端接入流程；另外，官方亦講明今次並未更新 DeepSeek-V4-Pro API。對想盡快把 Agent 能力接入現有產品的人，V4-Flash 呢次公測比較像一次低改動、偏向工作流升級的更新。

項目主頁

Categories: DeepSeek, Agentic, API, 工具, Vibe Coding, 模型, 編程

Grok Build 開源後，編碼代理點樣運作一目了然

2026 年 7 月 18 日

想追到 AI 編碼代理點樣一步步理解程式碼、決定用咩工具，再把結果送回終端，Grok Build 而家提供了一個相當直接的入口。這個由 SpaceXAI 公開的 coding agent 與 TUI，不只方便試用，還把整個運作骨架開源，重點是讓人真正查清楚代理在處理什麼、又可以改到什麼。

對開發者而言，價值不止在「可用」，而是在「可驗證」。你可以直接查看它怎樣組裝 context、解析模型回應、分派 tool calls，也可以理解它怎樣讀寫程式碼、搜尋內容與執行指令。做緊技能擴充、插件整合，或者研究 MCP servers、subagents 工作流的人，這份原始碼會比單靠文件更有參考價值。

開源範圍涵蓋 agent loop、tools、terminal UI 與 extension system
可研究 skills、plugins、hooks、MCP servers、subagents 的載入與呼叫方式
支援 local-first 用法，可自行編譯並接上本地 inference
主要透過 config.toml 控制整體執行流程

和常見只提供託管服務或有限介面的工具相比，Grok Build 把關鍵細節直接攤開。使用時不一定要綁定雲端環境，亦可以自己編譯、指向本地推理後端，令測試、除錯、客製化與安全審視都有更大空間；代價是你要自己處理部署與整合，門檻自然較高。

對需要打造自訂 coding agent、終端工作流，或研究代理工具調度方式的人來說，這次開源相當有參考價值。

項目主頁

Categories: 開源, Agentic, API, MCP, Vibe Coding, 安全, 編程, Skill 技能

Kimi K3 把開源大模型推到 3T 級別

2026 年 7 月 17 日

長上下文、程式開發同知識工作往往要分開交畀不同模型處理，Kimi K3嘗試把這幾件事收在同一個開放模型內。它屬於大型多模態模型，重點是處理長流程 coding、長篇資料閱讀與推理之間的切換成本，並提供原生 vision 能力與 1M context。

Kimi K3 的定位，不是單靠參數規模取勝，而是想在開源路線上逼近 frontier intelligence。資料提到它有 2.8T parameters，屬於首個 open 3T-class model，整體表現仍落後於 Claude Fable 5 和 GPT 5.6 Sol，但在自家 evaluation suite 內已持續超過其他被測模型，顯示它在開源陣營有明顯競爭力。

技術上，這個模型建基於 Kimi Delta Attention（KDA）同 Attention Residuals（AttnRes），目的是改善資訊在長序列與深層網絡中的流動方式；同時也擴大了 Mixture of Experts（MoE）sparsity。這種做法反映它要處理的核心矛盾：一邊維持超長 context 與多類任務能力，一邊控制推理與訓練效率。

首個 open 3T-class model，規模達 2.8T parameters
原生支援 vision，並提供 1M context window
目標場景包括 long-horizon coding、knowledge work 同 reasoning
採用 Kimi Delta Attention（KDA）、Attention Residuals（AttnRes）與 Mixture of Experts（MoE）
已在 Kimi.com、Kimi Work、Kimi Code 同 Kimi API 提供使用

對開發者、研究者同需要長文檔工作流的人來說，Kimi K3最有吸引力的地方，在於它把「夠長、夠廣、夠開放」放在同一個項目裡。現階段可確認的限制也很清楚：它未到最強閉源模型的水平，而完整權重、架構與訓練細節仍要等後續 technical report 與正式釋出。

項目主頁

Categories: 開源, Agentic, API, 線上服務, IDE, Mac, Vibe Coding, 多模態模型, 教學, 編程, OpenClaw

用行為地圖看懂 Agent Harness

2026 年 7 月 17 日

想理解 coding agent 點樣真正執行、點樣做安全檢查，或者想改成自己團隊用得上的流程，卡位通常唔在於缺少文件，而在於行為分散喺大量程式碼之中。Harness Handbook 就是針對 agent harness 的整理方法，把「某個行為點樣發生」變成可導航、可核對、可修改的路徑。

它處理的是行為同實作之間斷開的問題。像「刪除檔案前會否先詢問」這類問題，往往涉及多個 implementation sites，不是搜 delete、permission、confirm 就能直接還原全貌。Harness Handbook 以 behavior-level manual 方式重組這些零散位置，讓人可以由問題出發，一步步找到對應的 behavior units、相關程式碼證據，以及可能受影響的修改位置。

把分散程式碼整理成可閱讀的 behavior map
每個行為步驟都連到可驗證的 code evidence
支援理解、審核與修改共用同一套入口
著重 human in the loop，方便持續檢查系統變化

這種做法同一般 code index 或關鍵字搜尋的差異，在於它不是單純列出檔案，而是直接對應「系統會點做」。對開發者、維護大型 agent 項目的人，或者要審視安全邏輯的團隊，都會比較實用；連 coding agents 也可借這份 Handbook 更準確找到相關程式碼。

資料顯示，項目還提供 Handbook Studio，將這套 behavior map 變成可操作的入口。現階段重點不在推出另一個模型，而是為複雜 agent harness 建立一層可解釋、可審核的結構，令系統隨版本演進時，仍然保留清晰的行為脈絡。

項目主頁

Categories: 開源, 騰訊, Agentic, Vibe Coding, 編程, 框架

AgentCanvas：把 embodied agent 變成可編輯圖譜

2026 年 7 月 10 日

AgentCanvas editor: the MapGPT executor loads as a node-and-wire graph, then a live R2R episode runs end-to-end

卡位不在模型夠唔夠新，而在整個 embodied agent 系統太厚：simulator、perception、memory、planning 同 control 全都要接通。AgentCanvas 把這件事收斂成可執行的 typed graph 平台，用單一 JSON 保存一個 agent 結構，讓 VLN、EQA、VLA 一類工作不再每次都由 execution layer 重搭起步。

這個項目是把 embodied agent 改寫成可視化、可重播、可修改的圖譜程式。現有做法多數靠手寫 imperative code 逐層綁死 simulator、工具與 foundation models，作者認為這種範式難以比較、難以重現，也不利 architecture search；所以 AgentCanvas 先提供 substrate，再用 KDLoop 與 AAS 讓 coding agent 反覆改圖、驗證、再分析。

AgentCanvas 重點放在把 agent 結構標準化，而不是只交一份論文內部 executor。你可以在 editor 直接載入節點圖，跑真實 R2R episode，也可接 Habitat-Sim、MatterSim、SAPIEN/ManiSkill2、MuJoCo/robosuite 這些 simulator；新加入的 Source tab 還可就選定 node 回看 source slice，改完再 syntax-checked hot-reload，這對反覆試設計特別有用。

支援 hand-built graphs，也支援 AAS 自動搜尋 agent 架構
已接入 29 個 foundation models，包括 Qwen3-VL、InternVL3、Gemma 3、SmolVLM2、SigLIP2、OWLv2、Grounding DINO
可覆蓋 VLN、EQA、VLA 與鄰近 embodied 任務
研究預覽版已開源，環境基礎要求為 Python 3.10+

受益最明顯的，會是做 embodied AI 的研究團隊、要重現論文 executor 的學生，以及想比較不同 graph 設計而不是重寫整個系統的人。現階段它仍是 pre-1.0 research preview，性能數字應結合原論文結果閱讀；但單看定位，AgentCanvas 最有價值的地方，是把「難以維護的 agent 系統工程」變成「可被搜尋與修改的圖譜工作流」。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, Agentic, Python, Vibe Coding, 多模態模型, 編程, Anthropic, Dataset 數據集, 框架, VLA

Antigravity 與 OmniRoute 整合

2026 年 7 月 9 日

Antigravity + OmniRoute: Get FREE Unlimited AI Access (Never Run Out of Credits Again)

Categories: Vibe Coding, 教學, 編程

OmniRoute：免費 AI 路由閘道值唔值得用

2026 年 7 月 9 日

寫程式最怕做到一半先撞到配額上限，或者工具只綁死某一個模型。OmniRoute 把自己放在 AI gateway 呢個位置，直接處理多個 AI coding 工具同多個模型供應商之間的路由問題，重點唔係再造一個聊天介面，而係幫你維持請求可用、控制成本，並用 auto-fallback 減少中斷。

同類做法通常會主打單一 API 聚合，OmniRoute 的取向明顯更偏向「免費額度整合 + 路由策略 + 壓縮節流」。它聲稱可接到 237 個 providers，當中 90+ 提供 free tiers，並以 RTK + Caveman compression 把 token 消耗壓低 15% 至 95%。呢個方向的好處係對長提示、程式碼上下文同重複輸出較有幫助，但壓縮始終係取捨，所以它加咗 inflation guard，遇到壓縮後反而變長，就會送回原文。

OmniRoute + OpenCode: 100% Free AI Coding Setup, Free AI Gateway

Watch this video on YouTube

New FREE Unlimited AI Coder | OmniRoute

Watch this video on YouTube

你可以把它理解成放在 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity 後面的中介層。部署後，工具經同一個 endpoint 出請求，再由 OmniRoute 分配到 Claude、GPT、Gemini 及其他供應商；README 也提到每個模型會列出本月已用與剩餘額度，並標示 provider terms，這點對團隊控管比較有用。

幾個值得留意的重點：
– 定位屬於工具 / 閘道型軟件，解決的是多模型切換、免費額度整合同配額中斷
– 支援 Claude Code、Codex、Cursor、Cline、Copilot、Antigravity，適合多工具並行的開發流程
– 以 documented free tokens/month 作招徠，現有資料提到穩定約 1.6B，首月可到 2.1B
– 內建 17 routing strategies，並加入 auto-fallback，減少單一 provider 失效帶來的停頓
– 壓縮模組已針對 German、French、Japanese、Chinese，以及 Gradle、.NET 輸出做過強化

受益最大的一般會係重度依賴 AI 編碼助手的個人開發者、細團隊，同想把成本壓到最低的實驗性項目。要留意的是，免費池本身受各 provider 條款影響，OmniRoute 雖然強調統計方式較透明，但效能與穩定性仍然建基於外部服務；它較像一個把資源調度做得更聰明的控制層，而唔係保證品質一致的模型平台。

GitHub

Categories: 開源, 微軟, Gemini, API, 工具, IDE, Vibe Coding, 編程, Anthropic

SkillOpt-Lite：幫 coding agent 自我改良

2026 年 7 月 8 日

不少人用 coding agent 時，卡位不在模型本身，而在 prompt、skill 文件同執行流程點樣一路修正。SkillOpt-Lite 連同 HarnessOpt 就是針對這個位置而來的 Agentic 工具：把評測、修改、驗證同回滾包成兩個 slash command，讓 coding agent 在對話環境內自動迭代改善。

它反對一種常見範式：每次表現不好，就手動改 prompt、重跑少量樣本，再憑感覺決定有沒有進步。作者改用 looped improvements 配合 validation-gated rollback，先跑一批 scored rollouts，將失敗樣本交回 coding agent 修補，再用 val split 決定保留還是還原；焦點不是 fine-tuning，也不是增加 inference-time overhead，而是把現有 agent workflow 系統化地優化。

部署理解上，這個項目不是叫你在 shell 逐步砌環境，而是把 repo 資料夾直接開進支援 .github/prompts/*.prompt.md 的 coding agent，例如 VS Code Copilot Chat、Codex CLI、Claude Code。環境安裝、驗證、資料下載由 agent 協助處理；現成 benchmark 包括 LiveMath、SpreadsheetBench、ALFWorld、DocVQA、OfficeQA 同 SearchQA，亦支援帶入自家 repo 與資料格式。

SkillOpt-Lite 只改 skill.md，適合先驗證 prompt/skill 層面的改善
HarnessOpt 連 agent harness 一起改，包括 rollout、react-agent、executor 等程式部分
以 val gate 決定保留或回滾，比單看一次 train 結果更穩陣
官方重點是「no fine-tuning, no inference-time overhead」，取向明顯偏向低成本迭代

跟同類做法相比，它的差異不在於推出新模型，而是把「由 agent 自己根據失敗紀錄修補自己」做成可重覆流程。公開內容提到在 6 個 benchmarks 有結果，亦展示過 GPT-5.4-nano 配合 HarnessOpt 可超過較高階模型配標準 harness 的情況；不過現時較依賴 coding agent 工作流，最適合做 agent 評測、提示工程、內部工具自動化的團隊，而不是單純想下載一個模型即用的人。相關模型與目標例子則包括 GPT-5.4-nano、GPT-5.5，以及各種可讀取 prompt 檔的 coding agents。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Vibe Coding, 編程, Dataset 數據集, Skill 技能

Page 1 of 3

1 2 3 Next »