編程 – InferNews

Reasonix：DeepSeek AI 編碼 agent，用 cache-first 降低長會話嘅 token 成本

2026 年 8 月 2 日

Reasonix 是 DeepSeek 一個面向桌面及終端的 AI coding agent，核心價值唔係花巧介面，而係將長會話裡不斷累積的上下文成本壓低。它適合要一路改檔、一路試工具、一路追問模型的人，特別是團隊日常做修補、重構同埋持續迭代時，對 token 成本同回合延遲都會有明顯感受。

Reasonix 主打 cache-first loop，令 prompt 前綴保持 byte-identical，配合 DeepSeek 的 prefix cache 去提升長會話命中率。項目同時提供 CLI/TUI、桌面端、local browser UI，同埋支援 ACP-compatible editor integration，部署方式亦算直接：CLI 可用 npm 安裝，桌面版則有 macOS、Windows、Linux 套件可選。

Deepseek's ~OFFICIAL Code: RIP Claude,Codex! This is CRAZY GOOD!

Watch this video on YouTube

Reasonix 唔係純粹包住模型嘅殼，而係圍繞工具呼叫修正、成本控制同 sandbox 權限去設計。/plan 會先要求模型規劃，再進入實作；MCP（Model Context Protocol, MCP）亦作為一等入口，方便把外部工具合入同一個 registry。這種做法較適合重視可控性、可追蹤性，亦需要長時間跑 session 的開發流程。

要留意嘅係，呢條 TypeScript 線已經進入 maintenance mode，主力開發搬去 Go rewrite，同步文件亦指向 main-v2 同 migration guide。現時更合理嘅理解方式，係將佢視為一個仍可用但已凍結方向的終端編碼 agent 版本，重點價值在 cache 效率、工具整合與成本壓縮，而唔係追求最新功能擴張。

長會話下，prefix cache 命中率可維持在 90%+，輸入 token 成本可明顯下降
同一套引擎可喺 CLI/TUI、桌面端、Web UI 同編輯器接入使用
/plan、權限控制同 workspace sandbox 一齊限制工具呼叫，取向偏向可控
適合經常改碼、反覆驗證、又在意推理成本嘅個人或團隊

項目主頁 · GitHub

Categories: 開源, DeepSeek, Agentic, MCP, Linux, Mac, Vibe Coding, 編程

beautify-github-readme：GitHub README 也可以做成精美首頁

2026 年 8 月 2 日

Beautify GitHub README: help visitors understand a repository at first glance.

讀者未打開程式前，往往先被 README 決定去留；beautify-github-readme 正正針對呢一步，屬於一個 README 設計與寫作 Skill，重點唔係美化排版，而係令訪客一眼睇明項目做乜、成果去到邊、應該點開始理解。

佢同常見 README 範本最大分別，在於唔追求統一風格。呢個方法會由項目自身延伸出字體、配色、構圖同證據展示，連 opening screen 都強調真實輸出，而唔係抽象口號。README 入面列出八個公開儲存庫案例，涵蓋 AI 產品、設計資源、研究與開源庫，證明佢不只是概念展示。

重點唔係套版：每個 README hero 都按項目內容重新設計
強調真實證據：用實際 UI、圖示、地圖、角色圖或 dashboard 截圖說明能力
適合公開展示型項目：尤其係要吸引首次訪客、招募協作者或交代成果脈絡嘅團隊
門檻在內容整理：要先有清楚成果、流程同視覺素材，效果先會成立

部署方式比較似參考方法而唔係可直接安裝嘅工具套件；你應該將佢理解成一套可複用的表達框架，再按自己項目改寫。對獨立開發者、開源維護者同想提升 GitHub 展示面的團隊尤其有幫助，因為佢補強咗「功能存在，但讀者三秒內睇唔明」呢個常見卡位。

限制亦相當明顯：佢未提供量化成效、A/B 測試結果或者自動化生成流程，價值主要來自案例說服力，而唔係可驗證指標。當你已經有一定內容資產，同時希望 README 更似產品入口而不只是說明文件，呢個項目比一般範本更值得參考。

GitHub

Categories: 開源, 編程, Skill 技能

CodeNib 把代碼庫上下文交到 Coding Agent 手上

2026 年 8 月 1 日

CodeNib 核心處理 Coding Agent 在大型項目裡最常卡住的問題：資料太散、脈絡太長、引用不清。它把倉庫編譯成 lexical、semantic、structural 同 static-navigation 多個視圖，再經 MCP、LSP-shaped providers、Python 或 HTTP API 交出去，讓工具直接拿到有來源位置的證據。

這個設計不只是做索引，而係重視增量更新同可追溯性。倉庫變動後，只會修補受影響的視圖；不適合保留的轉換才會重建。每個 view 都有獨立 manifest，記錄來源、狀態、能力同 artifact 位置，方便確認目前供緊咩上下文。

主要解決 Coding Agent 讀懂倉庫時的上下文供應問題
以 MCP 為核心接口，兼容 agent-native 工作流
Wiki、Ask view、Dependency Map 都係同一 runtime 的檢視層
依賴 SCIP symbol resolution 生成 dependency map，唔靠模型猜測
回答會附 file 同 line citation，方便核對

同類做法常見只係把檔案切片再丟入檢索，CodeNib 則把 lexical、dense、graph 同導航視圖放到同一個編譯流程裡。Docs 提到 live demo 支援 Python、C/C++、Go、Rust 同 TypeScript，亦展示咗一個針對 codebase 的實用取向，而唔係停留喺概念層面。

項目主頁 · GitHub

Categories: 開源, Agentic, API, MCP, Python, Vibe Coding, 編程

DeepSeek-V4-Flash 公測版重點更新

2026 年 7 月 31 日

想用同一個 API 入口處理寫碼、自動化操作同工具調用，2026-07-31 呢次更新最值得留意。DeepSeek-V4-Flash 正式版已經開放 API 公測，調用方式維持不變，只要把模型名稱設為 deepseek-v4-flash，就可以切換到最新版本，對現有接入項目來講改動相對少。

今次更新的重點唔係介面改版，而係 Agent 能力明顯加強。官方列出的 Terminal Bench 2.1、NL2Repo、Cybergym、DeepSWE、Toolathlon verified 同 Automation Bench (Public) 等基準分數，都指向同一件事：V4-Flash 針對 Coding Agent、終端操作、工具使用同全棧開發場景做咗強化，而且公開測試成績已經高過 V4-Pro-Preview。

技術上，DeepSeek-V4-Flash-0731 的模型結構、尺寸都同 DeepSeek-V4-Flash-Preview 一致，更新集中在後訓練，意味住提升主要來自調整模型行為，而唔係換咗一個更大架構。它同時原生支援 Responses API 格式，亦有針對 Codex 做適配，對已經圍繞 API 建立 Agent 工作流的團隊會更易接入。

幾個重點可以直接整理如下：
– deepseek-v4-flash 已可直接使用正式版 API 公測
– API 調用方式不變，現有項目遷移成本較低
– Agent 能力是今次更新核心，涵蓋 coding、terminal 同 tool use
– Responses API 已原生支援，並針對 Codex 做咗適配
– 今次只更新 V4-Flash API，DeepSeek-V4-Pro API 以及 APP/WEB 端模型未有改動

使用上亦要留意邊界。現有資料有提供模型名、相容格式同基準測試結果，但未見更完整的安裝步驟、下載方式或者端到端接入流程；另外，官方亦講明今次並未更新 DeepSeek-V4-Pro API。對想盡快把 Agent 能力接入現有產品的人，V4-Flash 呢次公測比較像一次低改動、偏向工作流升級的更新。

項目主頁

Categories: DeepSeek, Agentic, API, 工具, Vibe Coding, 模型, 編程

Gemini Spark 登陸香港：AI 代你長時間跟進工作

2026 年 7 月 29 日

最易理解 Gemini Spark 的方式，是把它看成一個會在背景持續運作的 Agentic AI 助手：你先交代目標，它再慢慢把零散工序接起來，處理那些花時間、又不想不停重複提示的工作。Google 已在香港推出這項服務，定位很清楚，就是幫用家把日常行政與資料整理自動化。

它接上的重點，不是單次問答，而是整段工作流。Gemini Spark 運行於 Google 的雲端基礎設施，能原生連接 Workspace 工具，例如 Gmail 和 Docs，毋須另外設定，就可以整理混亂的電郵往來、彙整行業消息、從舊文件抽資料做後續安排，甚至進行網上資料搜集、比較選項與完成預訂。

Google 提到，系統以 tasks、custom skills 和 schedules 這類機制去安排工作，讓用家用自然語言交代規則、例行事項與時間觸發條件，毋須寫程式。另一個分別在於，它不會因為你闔上手提電腦或鎖上手機就停下來，背景流程仍可繼續運作，較適合需要長時間跟進的文書與研究工作。

支援背景持續執行，不用反覆重新提示
可原生連接 Gmail、Docs 等 Workspace 工具
能處理資訊整理、排程準備、網上研究與預訂類工作
高風險動作前會先要求明確同意

控制權仍然留在用家手上。Google 表示，Gemini Spark 會按照用家指示運作，用家可決定何時啟用，以及容許它接觸哪些應用程式；遇到交易或發送電郵等高風險操作，系統亦會先徵求明確授權。現時香港由 Google AI Ultra 訂閱用家率先使用，Google AI Pro 用家的開放時間會在未來數星期逐步擴展。

項目主頁

Categories: 香港, Google, Gemini, Agentic, 工具, 提示詞, 編程, 框架, Skill 技能

OpenCode – 阿里開源 AI Code Review，主打免費私有審查

2026 年 7 月 28 日

當團隊已經用 AI 加快寫 code，真正卡住進度的往往變成 code review。呢次公開嘅 Open Code Review，重點不只是「AI 幫你睇程式」，而係想處理大型變更集難審、人工 review 跟唔上，以及商業工具長期按席位收費呢幾個現實問題；內容亦提到它來自阿里巴巴內部使用背景，定位係開源嘅 AI code review 項目。

現有資料將焦點放喺幾個差異：它採用結合 deterministic pipelines 同 LLM agent 嘅混合架構，目的係補足一般通用 agent 喺大型 changeset 上容易漏看脈絡、穩定性不足嘅情況；同時內建 ruleset，並且強調可以直接整合到 Claude Code。資料亦提到 Apache 2.0 授權、可免費使用，同埋私有化操作係其中一個賣點。

重點可先整理成幾項：
– Open Code Review 屬於開源 AI code review 項目，面向開發團隊審查程式變更流程
– 核心賣點係免費、可私有化，以及針對大規模 code review 場景設計
– 架構結合 deterministic pipelines 與 LLM agent，用意係提升大型變更審查嘅完整度與穩定性
– 內容提到它曾服務大量阿里巴巴開發者，並找出大量缺陷，但未見更完整技術細節與驗證方法
– 可安裝到 Claude Code 之中使用，不過現有資料未提供完整步驟

以讀者角度睇，最受用嘅會係已經開始用 AI 寫 code、但 review 成本持續上升嘅團隊，尤其關心內部程式碼唔想外流，或者想將審查規則固定落流程入面嘅情境。呢類工具值唔值得跟進，關鍵唔只在於它是否「有 AI」，而係能否喺私有環境中穩定處理大變更，並且減少人工逐行追查嘅負擔。

同一時間，原始資料有限。現時只有影片標題、描述同極少量頁面文字，未提供完整安裝流程、下載連結、規則內容、性能數字來源，亦未交代它點樣接入 Claude Code 或本地模型，因此文章只能按已知資訊整理方向，未適合延伸成操作教學。

項目主頁

Categories: 阿里巴巴, Google, Agentic, 安全, 編程

Grok Build 開源後，編碼代理點樣運作一目了然

2026 年 7 月 18 日

想追到 AI 編碼代理點樣一步步理解程式碼、決定用咩工具，再把結果送回終端，Grok Build 而家提供了一個相當直接的入口。這個由 SpaceXAI 公開的 coding agent 與 TUI，不只方便試用，還把整個運作骨架開源，重點是讓人真正查清楚代理在處理什麼、又可以改到什麼。

對開發者而言，價值不止在「可用」，而是在「可驗證」。你可以直接查看它怎樣組裝 context、解析模型回應、分派 tool calls，也可以理解它怎樣讀寫程式碼、搜尋內容與執行指令。做緊技能擴充、插件整合，或者研究 MCP servers、subagents 工作流的人，這份原始碼會比單靠文件更有參考價值。

開源範圍涵蓋 agent loop、tools、terminal UI 與 extension system
可研究 skills、plugins、hooks、MCP servers、subagents 的載入與呼叫方式
支援 local-first 用法，可自行編譯並接上本地 inference
主要透過 config.toml 控制整體執行流程

和常見只提供託管服務或有限介面的工具相比，Grok Build 把關鍵細節直接攤開。使用時不一定要綁定雲端環境，亦可以自己編譯、指向本地推理後端，令測試、除錯、客製化與安全審視都有更大空間；代價是你要自己處理部署與整合，門檻自然較高。

對需要打造自訂 coding agent、終端工作流，或研究代理工具調度方式的人來說，這次開源相當有參考價值。

項目主頁

Categories: 開源, Agentic, API, MCP, Vibe Coding, 安全, 編程, Skill 技能

Kimi K3 把開源大模型推到 3T 級別

2026 年 7 月 17 日

長上下文、程式開發同知識工作往往要分開交畀不同模型處理，Kimi K3嘗試把這幾件事收在同一個開放模型內。它屬於大型多模態模型，重點是處理長流程 coding、長篇資料閱讀與推理之間的切換成本，並提供原生 vision 能力與 1M context。

Kimi K3 的定位，不是單靠參數規模取勝，而是想在開源路線上逼近 frontier intelligence。資料提到它有 2.8T parameters，屬於首個 open 3T-class model，整體表現仍落後於 Claude Fable 5 和 GPT 5.6 Sol，但在自家 evaluation suite 內已持續超過其他被測模型，顯示它在開源陣營有明顯競爭力。

技術上，這個模型建基於 Kimi Delta Attention（KDA）同 Attention Residuals（AttnRes），目的是改善資訊在長序列與深層網絡中的流動方式；同時也擴大了 Mixture of Experts（MoE）sparsity。這種做法反映它要處理的核心矛盾：一邊維持超長 context 與多類任務能力，一邊控制推理與訓練效率。

首個 open 3T-class model，規模達 2.8T parameters
原生支援 vision，並提供 1M context window
目標場景包括 long-horizon coding、knowledge work 同 reasoning
採用 Kimi Delta Attention（KDA）、Attention Residuals（AttnRes）與 Mixture of Experts（MoE）
已在 Kimi.com、Kimi Work、Kimi Code 同 Kimi API 提供使用

對開發者、研究者同需要長文檔工作流的人來說，Kimi K3最有吸引力的地方，在於它把「夠長、夠廣、夠開放」放在同一個項目裡。現階段可確認的限制也很清楚：它未到最強閉源模型的水平，而完整權重、架構與訓練細節仍要等後續 technical report 與正式釋出。

項目主頁

Categories: 開源, Agentic, API, 線上服務, IDE, Mac, Vibe Coding, 多模態模型, 教學, 編程, OpenClaw

GigaWorld-Policy-0.5 推向機械人即時反應

2026 年 7 月 17 日

機械人控制最難受的地方，常常不是動作生成本身，而是模型一邊理解畫面、一邊預測未來場景時，推理成本高到難以閉環運作。GigaWorld-Policy-0.5屬於 World Action Model（WAM），重點是保留未來視覺動態對訓練的幫助，但在執行階段只解碼動作，減少為了生成未來影片而付出的額外開銷。

它延續 action-centered 的路線，再加入 Mixture-of-Transformers 架構，將視覺建模與動作生成分成不同 expert。咁樣做的取捨很清楚：訓練期間仍然利用未來場景演化強化動作學習，推理時則走較輕的 action-only pathway，提升即時控制效率。資料提到，它在本地 RTX 4090 上可做到 85ms inference latency，目標就是支援更接近即時的部署。

另一個值得留意的位置，是它不只改模型結構，亦加入 agent-based AutoResearch pipeline 來搜尋訓練配置。這種做法主要是減少手動調 hyperparameter 的時間，讓實驗設定更有系統地被篩選。對做 Robotic、世界模型或策略學習的人來說，這比單純追求更高指標更實用，因為整個訓練流程的效率同樣影響迭代速度。

保留 future visual dynamics 的訓練收益，但推理時只輸出動作
用 Mixture-of-Transformers 分開 visual expert 與 action expert，降低活躍計算量
以 mixed Action-Conditioned World Modeling（AC-WM）和 WAM 訓練，加強視覺與動作的耦合
引入 agent-based AutoResearch pipeline，提升訓練配置搜尋效率
已公開論文、程式碼與模型，方便研究用途跟進

整體來看，GigaWorld-Policy-0.5處理的是世界模型常見的速度與控制落地矛盾：訓練想要看得多、學得深，部署又要夠快。現有資料顯示，它把重心放在更有效率的 action-centered WAM 路線，適合關注即時機械人控制、閉環部署與本地推理表現的人。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 模型, 模型訓練, 編程, Robotic, 清華大學, 框架

用行為地圖看懂 Agent Harness

2026 年 7 月 17 日

想理解 coding agent 點樣真正執行、點樣做安全檢查，或者想改成自己團隊用得上的流程，卡位通常唔在於缺少文件，而在於行為分散喺大量程式碼之中。Harness Handbook 就是針對 agent harness 的整理方法，把「某個行為點樣發生」變成可導航、可核對、可修改的路徑。

它處理的是行為同實作之間斷開的問題。像「刪除檔案前會否先詢問」這類問題，往往涉及多個 implementation sites，不是搜 delete、permission、confirm 就能直接還原全貌。Harness Handbook 以 behavior-level manual 方式重組這些零散位置，讓人可以由問題出發，一步步找到對應的 behavior units、相關程式碼證據，以及可能受影響的修改位置。

把分散程式碼整理成可閱讀的 behavior map
每個行為步驟都連到可驗證的 code evidence
支援理解、審核與修改共用同一套入口
著重 human in the loop，方便持續檢查系統變化

這種做法同一般 code index 或關鍵字搜尋的差異，在於它不是單純列出檔案，而是直接對應「系統會點做」。對開發者、維護大型 agent 項目的人，或者要審視安全邏輯的團隊，都會比較實用；連 coding agents 也可借這份 Handbook 更準確找到相關程式碼。

資料顯示，項目還提供 Handbook Studio，將這套 behavior map 變成可操作的入口。現階段重點不在推出另一個模型，而是為複雜 agent harness 建立一層可解釋、可審核的結構，令系統隨版本演進時，仍然保留清晰的行為脈絡。

項目主頁

Categories: 開源, 騰訊, Agentic, Vibe Coding, 編程, 框架

Page 1 of 9

1 2 3 … 9 Next »