gemma-chat:離線寫Code助手:Mac本機AI實測

對於重視私隱,或者經常處於無網絡環境的人來說,這個專案最吸引的地方,是把 AI 編程助手完全放到 Mac 本機執行。它屬於 Electron 應用程式,透過 Apple 的 MLX 框架在 Apple Silicon 裝置上運行,首次下載模型後,就算冇 Wi-Fi 亦可繼續使用。
實際使用上,你只要用自然語言描述想做的內容,例如簡單網頁、計算機介面或多檔案小專案,系統就會在沙盒工作區內自動產生程式碼,並提供即時預覽。這種邊生成、邊查看效果的方式,對非專業開發者特別友善,因為可以直接用畫面理解改動。
它的創新不只在「本地化」,而是在本機環境中同時整合了聊天、工具使用與建構模式。除了可作一般對話,還支援語音輸入,以及在不同 Gemma 4 變體之間切換;如果你需要更平衡的速度與能力,README 明確推薦 Gemma 4 E4B,而較大型版本則對記憶體要求更高。
- 全程本機運行,不需 API key,也不用把程式碼送上雲端
- Build Mode 可建立多檔案專案,並即時預覽結果
- Chat Mode 支援工具使用,例如網址擷取、計算及指令操作
- 首次啟動自動配置,包括 Python 虛擬環境與 MLX 執行環境
最適合的場景,包括飛機上、網絡不穩定的地方、內部原型開發,或不想把敏感程式碼交給第三方服務的團隊。要留意的是,它目前明確針對 macOS 與 Apple Silicon,亦需要先下載模型;所以如果你用的是其他平台,或者電腦資源有限,體驗可能會受限制。整體而言,這是一個相當清晰的「離線 AI 編程」示範,也顯示本地小型模型已開始具備實用價值。
coreb:這個 code search 基準有咩特別?

CoREB 係一個針對程式碼 embedding models 搜尋同 reranking 的評測基準,透過 LoRA 在混合重排序器語料庫上對Qwen3-Reranker-4B進行了微調。CoREB 分三種常見場景:用文字搵 code、用 code 搵相似 code,以及由 code 反推題目描述。一般人可以理解成:唔只測「搵唔搵到」,仲測「排位準唔準」。
實際使用上,你可以直接載入資料集,讀取 queries、qrels 同 code/text 語料,再用標準資訊檢索評分工具做評估;如果係模型開發者,亦可以接上兩階段流程,先做 embedding 檢索,再用 cross-encoder 重排。這個設計方便將現有搜尋模型快速放入同一把尺比較。
它最有價值的地方,係用三級相關性標註,將「真正答案」同「同題但錯嘅干擾項」分開,避免只係二元對錯。再加上問題切分唔重疊、涵蓋五種程式語言,令測試更貼近真實開發情境,而唔係只考記憶。
- 支援 Text-to-Code、Code-to-Code、Code-to-Text 三類任務
- 以三級相關性處理 hard negative,對排序更敏感
- 涵蓋 Python、C++、Java、Go、Ruby
- 訓練/測試分割避免題目重疊
- 適合比較檢索模型同 reranker 的整體效果
如果你做的是程式碼搜尋、AI coding assistant,或者想評估向量檢索加重排的完整流程,CoREB 會幾有參考價值。特別係想避免資料污染、又想睇模型喺唔同語言同任務之間的差異,呢個基準算係比較務實的一種選擇。
awesome-llm-mas-rl:用軌跡看懂 LLM 多代理強化學習

這個儲存庫聚焦在 LLM 多代理系統的強化學習與後訓練方法,但它的價值不只在蒐集文獻,更在於用一致的結構整理研究脈絡。相較一般 awesome list 偏向羅列連結,這個專案明顯更重視可稽核性、分類邏輯與後續分析用途。
實際使用上,讀者可以先從保留論文池與分類表快速瀏覽研究全貌,再進一步對照 CSV 與相關腳本確認統計與來源。若你正在做文獻回顧、研究選題,或想建立自己的資料集,這種「README 易讀、資料檔可驗證」的設計會比純手工整理更可靠。
它最值得注意的創新,是把 orchestration trace 當成核心組織概念:不只看單一代理的動作,而是追蹤任務分派、子代理生成、代理間通訊、工具呼叫、結果聚合、獎勵與成本等決策流程。對研究者來說,這讓多代理系統中的訓練訊號、責任歸因與系統證據更容易被明確描述,也更接近真實工作流。
- 收錄 84 筆保留文獻,並附 32 筆排除紀錄,研究邊界相對清楚
- 提供 JSON Schema、範例 trace 與無相依驗證器,方便檢查資料格式
- 涵蓋 reward、credit design、benchmark、安全性與系統證據等面向
- 適合用來建立文獻地圖,而不只是當作連結書籤
整體來看,這個專案最適合研究 LLM agent、multi-agent orchestration、RL 訓練流程的人使用,特別是需要整理證據鏈與實驗描述的學術或工程團隊。若你只是想找熱門論文,它可能稍微學術;但若你在意研究可重現性與結構化分析,這份資源相當有參考價值。
CWM (Code World Model) 32B – Meta 開源編程模型
Meta FAIR 的「Code World Model (CWM)」是一個 32B 參數、專門為「帶世界模型的程式碼生成研究」設計的開放權重 LLM。它的關鍵點是:不只學 code syntax,而是透過大量「執行軌跡」去內化程式執行對系統狀態的影響,並在多任務 RL 下強化 agentic coding 能力。

CWM 是什麼?
- CWM(Code World Model)是一個 32 億參數(32B)、dense、decoder‑only 的 Transformer LLM,主要面向程式碼生成與程式相關推理。
- 它被設計成「世界模型式」的 code LLM:不只預測下一個 token,而是學會在腦中「模擬程式執行過程」及其對環境狀態的影響。
- 官方目標是提供一個強大的開放權重 testbed,讓研究者探索「世界模型 + agentic reasoning/planning」如何提升程式碼生成與軟體工程工作流。
訓練流程與 world modeling 設計
CWM 的訓練 pipeline 不是單純「pretrain → SFT」,而是刻意插入 world‑model mid‑training,再加上多任務 RL:
- 前期:先在一般語言與程式碼資料上做大規模預訓練,建立廣泛的語言、程式知識基礎。
- Mid‑training(世界模型核心):
- 在大量「observation‑action 軌跡」上進一步訓練,這些軌跡來自 Python interpreter 執行 trace,以及在 Docker container 中以 agent 方式操作系統的互動紀錄。
- 這類資料讓模型看到「程式片段/指令 → 執行過程 → 輸出與系統狀態變化」,等於學習一個對應「code → world dynamics」的隱式世界模型。
- 後期 post‑training:
- 先進行 supervised fine‑tuning,引入明確的 reasoning format、step‑by‑step 推理風格等標註資料。
- 再用 multi‑task RL(文中提到使用 GRPO 類型方法)在可驗證的 coding 任務、數學問題、多輪軟體工程環境中進行強化學習,reward 來自於測試通過率、解答正確與任務完成度。
這種設計的重點是:讓 RL 是「從已經具備世界模型的基底」開始,而不是只在純 token LLM 上做 RL,理論上比較容易學到長程規劃與工具使用策略。
模型架構與上下文長度
- CWM 是一個 64 層的 decoder‑only Transformer,採用現代 LLM 常見配置(例如 RoPE 位置編碼、SwiGLU FFN、GQA 等)。
- 參數規模為 32B,詞彙表約 128k token,明顯針對大型 codebase 與多語言程式碼場景設計。
- 上下文長度最高達約 131k tokens,可容納整個專案、多檔案上下文與長程互動軌跡。
- 為了處理這種長上下文,它使用「交錯式注意力」:
基準測試成績
在多個開源 benchmark 上,CWM 以 32B 級別達到非常有競爭力甚至 SOTA 的表現:
- SWE‑bench Verified:pass@1 約 53.9%(不做 test‑time scaling),在採用 test‑time scaling 後可達約 65.8%。
- LiveCodeBench:v5 約 68.6,v6 約 63.5(pass@1)。
- 數學與推理:
- 論文與解讀都提到:在同等或相近參數規模的開放權重 LLM 中,CWM 在一般 coding 與更 agentic 的軟體工程任務上都具有「best‑in‑class」水準,甚至接近或追平一些封閉大模型。
對你這種做 RAG / agent / tools‑calling 工作流的人來說,這顆模型的亮點其實是「在環境中操作和修 bug 的能力」,而不只是單輪 code completion 分數。
權重釋出與取得方式
- Meta 以「開放權重」形式釋出 CWM,提供多個 checkpoint:
- mid‑training 後的 world‑model 版本。
- SFT 後版本。
- RL 後完整版。
方便研究者分析各階段對能力的影響。
- 社群整理指出,CWM 權重目前在 GitHub 與 Hugging Face 上提供,包含 transformers 版權重與推理程式碼;Meta 採用自家訂定的 open‑weights 授權條款,主要定位在研究用途,具體使用限制需看 AI at Meta 官方頁與 HF model card 條款。
- Hugging Face transformers 已內建
CwmForCausalLM與對應 tokenizer。
與一般 code LLM 的本質差異
和傳統只在「靜態 code corpora + 少量程式執行資料」上訓練的 code LLM 相比,CWM 的幾個關鍵差異:
- 訓練核心是「大量程式執行與 agent interaction 的軌跡」,把「程式 → 執行 → 狀態變化」當成序列學習對象,形成隱式世界模型,而不只是 code token 統計模型。
- RL 設計是圍繞「可驗證結果」(例如測試通過、問題解答正確、多輪任務完成),而不僅是人類偏好/指令跟從,這對長程規劃與工具調度尤其重要。
- 長上下文 + 交錯 attention 讓模型可以在一次推理中讀完整個 repo、ticket 歷史與多輪 log,這是很多傳統 code LLM 現階段比較薄弱的地方。
tLLM 推論引擎擴展
tLLM 是 vLLM 推論引擎的運行時擴展層,提供生產者/消費者(Producer/Consumer)架構,能在生產環境中訓練和管理蒸餾器。
tLLM 的角色
- 生產者管道:從 vLLM 推論中即時捕捉 LLM 的深層隱藏狀態(latent representations)
- 消費者管道:非同步訓練輕量 MLP(~1M 參數),這就是 Latent Distiller(潛在蒸餾器)

tLLM 可應用於醫療問答系統中,提升 RAG 生成的多樣性與準確性,特別適合配合 MedGemma 專案。 透過 ESamp (Exploratory Sampling )方法,在高吞吐 vLLM 服務下動態訓練輕量蒸餾器,引導模型探索未見語義區域,避免重複答案。
案例:醫療 RAG 系統
假設您建置一個基於 MedGemma 的繁體中文醫療 RAG 系統,處理患者查詢如「糖尿病併發症預防」。
- 標準 vLLM:依賴檢索文件生成單一答案,易陷入常見模式,Pass@1 低於 60%。
- tLLM + ESamp:啟用生產者管道捕捉隱藏表示,消費者訓練 Latent Distiller(MLP,~1M 參數),使用預測誤差作為新穎度信號。
- 運行流程:批次 32 查詢並行生成,蒸餾器線上更新(<5% 開銷),重新取樣產生多樣候選(如生活調整、藥物、飲食多視角),Pass@k 提升 20-30%。
此案例在 RTX 4090 上吞吐 4000+ tokens/sec,適合部署於 WhatsApp 查詢閘道,提升 Cantonese/繁中醫療 NLP 效能。 程式碼範例:整合 tLLM 至 vLLM Engine,engine = TLlmEngine.from_engine_args(engine_args) 啟動生產者/消費者。
ClawGym 構建高效的 Claw 代理框架
ClawGym 框架的主要用途在於訓練和評估能夠在真實系統上執行任務的 AI 代理。以下是它的核心應用場景:

代理訓練與開發
ClawGym 提供完整的流程讓開發者能夠構建高效的 Claw 代理。框架透過合成大規模任務數據(13.5K 個經過篩選的任務)和智能軌跡收集,使 LLM 模型能夠學習如何在 OpenClaw 框架上自動執行真實任務。
自動化辦公與生產力
- 代碼沙箱運行:自動編寫並執行 Python 腳本,完成非結構化數據的抓取與清洗
- 跨應用自動化:通過自然語言完成複雜的多步驟工作流,例如「幫我設計一個監控面板,每天定時抓取 A 股新上市企業數據」,代理會自主規劃路徑:編寫爬蟲 → 抓取數據 → 自動修正邏輯 → 生成展示頁面
- 辦公助手場景:寫代碼、寫文檔、處理日常流程
企業級多智能體協作
- 多個 AI 分析師並行評估投資價值
- 多智能體深度研究項目和趨勢分析
- 代碼漏洞和架構質量的聯合審查
性能評估與基準測試
ClawGym-Bench 提供了 200 個真實場景的評估基準,測試代理在辦公協同、信息檢索、內容創作、數據處理等場景的表現。
ClawGUI:建立、評估和部署GUI代理

ClawGUI 是一個為研究人員和開發人員設計的堅固框架,專門用於處理GUI代理。它提供了一個統一的解決方案,用於訓練、評估和部署這些代理,使其成為AI和移動自動化領域的無價工具。對於新手來說,最好的起點是ClawGUI-RL,它專注於通過線上強化學習來建立GUI代理。這個模組利用了平行多環境設置和真實設備訓練,確保代理可以在各種場景中高效且有效地進行訓練。
在實踐中,ClawGUI 通過整合三個核心組件來運作:ClawGUI-RL 用於訓練,ClawGUI-Eval 用於評估,以及ClawGUI-Agent 用於部署。訓練階段使用了先進的技術,如GiGPO + PRM來優化策略學習,而評估階段則提供了六個基準測試進行嚴格測試。最後,部署階段允許進行真實世界的應用,透過自然語言來控制移動設備。這種無縫整合確保了GUI代理的整個生命週期可以在單一框架內進行管理。
最能從ClawGUI中受益的是那些從事尖端AI研究和移動自動化的人。研究人員可以使用這個框架來開發和測試新的演算法,而開發人員則可以在真實世界應用中部署這些代理。該框架處理複雜任務的能力,如細粒度步驟級獎勵和訓練期間的自動故障轉移,使其特別適用於需要高可靠性和性能的專案。
然而,也有一些權衡需要考慮。ClawGUI的複雜性意味著用戶需要對強化學習和GUI代理開發有紮實的理解。此外,運行平行環境和真實設備訓練的資源需求可能相當大。用戶在深入之前應確保擁有足夠的計算資源。儘管存在這些挑戰,ClawGUI仍為希望推進GUI代理領域的任何人提供了一個強大且靈活的解決方案。
一些需要關注的關鍵特點包括平行多環境設置,這允許在多個基於Docker的Android環境中進行高效訓練。真實設備訓練能力也至關重要,因為它確保代理可以在真實世界條件下進行測試和優化。對於評估,ClawGUI-Eval提供的六個基準測試提供了一套全面的測試來衡量代理的性能。最後,ClawGUI-Agent中的部署選項,包括跨平台支援和自然語言控制,使得將GUI代理整合到各種應用中變得輕鬆。
ClawGUI是一個全面的框架,涵蓋了GUI代理的整個生命週期。它特別有益於AI和移動自動化領域的研究人員和開發人員,提供了先進的訓練技術、嚴格的評估方法和靈活的部署選項。雖然它需要在相關技術方面有堅實的基礎,但其提供的益處使它成為那些希望推動GUI代理開發邊界的值得投資的選擇。
OpenCook:專案特定的程式開發代理個人化

OpenCook 是一個開創性的工具,旨在彌合強大但通用的程式開發代理與深入個人化程式碼實現之間的差距。對於處理複雜專案並有嚴格規範的開發者來說,這尤其有價值,他們需要能夠無縫整合到現有程式碼庫中的功能。透過利用 實作指南、規範 和多層級 記憶 系統,OpenCook 確保程式開發代理能夠執行尊重每個專案獨特特徵的任務,從樣式指南到構建系統和回歸測試。
誰應該嘗試 OpenCook?主要是處理大型、複雜程式碼庫並需要高度自訂和遵循特定編碼標準的開發者和團隊。這包括涉及資料庫功能、語言運行時和編譯器後端的專案。對於這些使用者,OpenCook 提供了一種自動化新功能實現的方式,同時維護他們程式碼的完整性和品質。
在開始使用 OpenCook 時,首先應該專注於理解和配置 實作指南 和 規範。這些是引導程式開發代理在您專案的特定背景下正確實現功能的核心組件。實作指南提供針對您領域的逐步指示,而規範則編碼代理必須遵循的慣例和約束。透過正確設置這些,您可以確保代理的行動與您的專案需求一致。
在實際操作中,OpenCook 通過 規劃 → 編碼 → 測試 管道運行,由專業代理驅動:CodeAgent、PlanAgent 和 TestAgent。PlanAgent 首先分解任務並識別相關文件和入口點,確保變更正確地範圍化。然後,CodeAgent 在注入的實作指南和規範的指導下編寫程式碼,而 TestAgent 則驗證變更是否編譯並通過所有測試。這個迭代過程持續進行,直到產生一個完全功能齊全且可合併的補丁。
使用 OpenCook 的好處對於經常需要實現新功能或對程式碼庫進行重大變更的團隊來說最為顯著。它減少了確保新程式碼遵循專案慣例並通過所有必要檢查所需的手動工作。這導致更快的開發週期和更高的程式碼品質。此外,持久記憶系統有助於代理在會話之間保留知識,隨著時間的推移提高其性能。
然而,有一些權衡需要考慮。設置 OpenCook 需要對您專案的結構和慣例有良好的理解。創建有效的實作指南和規範可能很耗時,特別是對於複雜的專案。此外,雖然 OpenCook 支援各種 LLM 提供商,但結果的品質可能會根據所選模型而有所不同。開發者應嘗試不同的模型,以找到最適合他們需求的模型。
總之,OpenCook 是一個創新的解決方案,旨在提升程式開發代理的能力。透過專注於專案特定的個人化,它實現了更精確和自動化的程式碼實現。雖然它需要一些初始設置和配置,但在程式碼品質和開發效率方面的益處使其成為複雜專案的寶貴工具。開發者應考慮將 OpenCook 整合到他們的工作流程中,以簡化功能實現並維持高編碼標準。
Code2World 基於動作預測的 GUI 代理
Code2World 本身不是一個「GUI 設計工具」,但它可以用在「優化 GUI 設計」的流程裡,特別是幫你 驗證設計是否好操作、是否容易出錯、是否符合使用者行為預期。Code2World 以靈活的方式顯著提升了下游導航的成功率,在 AndroidWorld 導航方面,其性能比 Gemini-2.5-Flash 提升了 9.5%。
它透過產生可渲染的程式碼來模擬下一個視覺狀態。實驗表明,Code2World-8B 在下一界面 UI 預測方面表現卓越,足以媲美 GPT-5 和 Gemini-3-Pro-Image 等競爭對手。(Huggingface 模型及數據集出現 404)(圖為預測介面的結果)
