ClawGym 構建高效的 Claw 代理框架

ClawGym 框架的主要用途在於訓練和評估能夠在真實系統上執行任務的 AI 代理。以下是它的核心應用場景:

代理訓練與開發

ClawGym 提供完整的流程讓開發者能夠構建高效的 Claw 代理。框架透過合成大規模任務數據(13.5K 個經過篩選的任務)和智能軌跡收集,使 LLM 模型能夠學習如何在 OpenClaw 框架上自動執行真實任務。

自動化辦公與生產力

根據 OpenClaw 生態應用,Claw 代理可以執行:

  • 代碼沙箱運行:自動編寫並執行 Python 腳本,完成非結構化數據的抓取與清洗
  • 跨應用自動化:通過自然語言完成複雜的多步驟工作流,例如「幫我設計一個監控面板,每天定時抓取 A 股新上市企業數據」,代理會自主規劃路徑:編寫爬蟲 → 抓取數據 → 自動修正邏輯 → 生成展示頁面
  • 辦公助手場景:寫代碼、寫文檔、處理日常流程

企業級多智能體協作

ClawGym 支持構建多智能體團隊系統,實現:

  • 多個 AI 分析師並行評估投資價值
  • 多智能體深度研究項目和趨勢分析
  • 代碼漏洞和架構質量的聯合審查

性能評估與基準測試

ClawGym-Bench 提供了 200 個真實場景的評估基準,測試代理在辦公協同、信息檢索、內容創作、數據處理等場景的表現。

Categories: Agent, , 編程, 開源, OpenClaw


cc-switch:跨平台桌面全方位助理工具

PackyCode
farion1231/cc-switch 在GitHub上

CC Switch作為一個強大的解決方案,適用於使用各種AI驅動的命令列介面(CLI)工具如Claude Code、Codex、Gemini CLI、OpenCode和OpenClaw的開發人員和團隊。這個桌面應用程式將這些工具的管理整合到一個直觀的介面中,顯著降低了手動配置的複雜性和時間成本。對於那些經常在不同供應商之間切換或管理多個專案的用戶來說,CC Switch提供了一種簡化的方法,提升了生產力。

在開始使用CC Switch時,主要應該關注的是熟悉供應商管理功能。該應用程式預設了超過50個供應商設定檔,包括流行的選項如AWS Bedrock和NVIDIA NIM,使得只需幾次點擊即可輕鬆設置和切換不同的配置。這消除了手動編輯JSON、TOML或 .env檔案的需要,從而減少錯誤並節省時間。

實際上,CC Switch通過提供一個視覺介面運作,用戶可以在其中導入供應商、立即切換它們,並管理多個工具間的MCP和技能。系統托盤快速切換功能允許無縫過渡,無需打開整個應用程式,增強了工作流程的效率。此外,該應用程式支援通過Dropbox、OneDrive、iCloud或WebDAV伺服器等平臺進行雲端同步,確保無論使用哪種設備,配置都保持一致。

開發人員和團隊最受益於CC Switch的能力在於其能夠統一管理MCP和技能。此功能實現了四個應用程式之間的雙向同步,確保所有必要的配置都是最新的且可訪問。該應用程式還包括內建的實用工具,例如首次啟動登錄確認、簽名繞過和插件擴展同步,進一步簡化了設置過程。

然而,也有一些權衡需要考慮。雖然CC Switch大大簡化了供應商管理,但用戶必須注意對第三方服務依賴增加的潛在風險。確保這些服務可靠且安全至關重要。另外,儘管該應用程式支援廣泛的供應商,但在較不常見或新興工具中可能會出現相容性問題。用戶在完全將CC Switch整合到他們的工作流程之前,應徹底驗證相容性和功能性。

為了最大化CC Switch的好處,用戶應探索其高級功能,如本地代理熱切換、應用程式級別接管和使用追蹤。這些功能提供了對AI工具行為和性能的更深控制,使更多量身定製和高效的使用案例成為可能。通過有效利用這些功能,開發人員可以顯著提高生產力和工作流程管理。

CC Switch是尋求簡化AI驅動CLI工具管理的開發人員和團隊不可或缺的工具。其強大的功能集、易用性和跨平台相容性使其成為任何開發人員工具箱中的寶貴添加。然而,仔細考慮權衡和徹底測試相容性是確保順利整合和最佳性能的必要步驟。

Source: https://github.com/farion1231/cc-switch

Categories: Agent, API, 開源

ClawGUI:建立、評估和部署GUI代理

ClawGUI 標誌
ZJU-REAL/ClawGUI 在GitHub上

ClawGUI 是一個為研究人員和開發人員設計的堅固框架,專門用於處理GUI代理。它提供了一個統一的解決方案,用於訓練、評估和部署這些代理,使其成為AI和移動自動化領域的無價工具。對於新手來說,最好的起點是ClawGUI-RL,它專注於通過線上強化學習來建立GUI代理。這個模組利用了平行多環境設置和真實設備訓練,確保代理可以在各種場景中高效且有效地進行訓練。

在實踐中,ClawGUI 通過整合三個核心組件來運作:ClawGUI-RL 用於訓練,ClawGUI-Eval 用於評估,以及ClawGUI-Agent 用於部署。訓練階段使用了先進的技術,如GiGPO + PRM來優化策略學習,而評估階段則提供了六個基準測試進行嚴格測試。最後,部署階段允許進行真實世界的應用,透過自然語言來控制移動設備。這種無縫整合確保了GUI代理的整個生命週期可以在單一框架內進行管理。

最能從ClawGUI中受益的是那些從事尖端AI研究和移動自動化的人。研究人員可以使用這個框架來開發和測試新的演算法,而開發人員則可以在真實世界應用中部署這些代理。該框架處理複雜任務的能力,如細粒度步驟級獎勵和訓練期間的自動故障轉移,使其特別適用於需要高可靠性和性能的專案。

然而,也有一些權衡需要考慮。ClawGUI的複雜性意味著用戶需要對強化學習和GUI代理開發有紮實的理解。此外,運行平行環境和真實設備訓練的資源需求可能相當大。用戶在深入之前應確保擁有足夠的計算資源。儘管存在這些挑戰,ClawGUI仍為希望推進GUI代理領域的任何人提供了一個強大且靈活的解決方案。

一些需要關注的關鍵特點包括平行多環境設置,這允許在多個基於Docker的Android環境中進行高效訓練。真實設備訓練能力也至關重要,因為它確保代理可以在真實世界條件下進行測試和優化。對於評估,ClawGUI-Eval提供的六個基準測試提供了一套全面的測試來衡量代理的性能。最後,ClawGUI-Agent中的部署選項,包括跨平台支援和自然語言控制,使得將GUI代理整合到各種應用中變得輕鬆。

ClawGUI是一個全面的框架,涵蓋了GUI代理的整個生命週期。它特別有益於AI和移動自動化領域的研究人員和開發人員,提供了先進的訓練技術、嚴格的評估方法和靈活的部署選項。雖然它需要在相關技術方面有堅實的基礎,但其提供的益處使它成為那些希望推動GUI代理開發邊界的值得投資的選擇。

Source: https://github.com/ZJU-REAL/ClawGUI

Categories: Agent, 模型, 編程, 開源

Sim2Reason 改進大型語言模型的物理推理能力

SIM2REASON 透過在物理模擬器上使用強化學習解決物理奧林匹克問題。提出了一種將物理模擬器轉變為可擴展的問題-答案對生成器的方法,以改進大型語言模型的物理推理能力。僅使用合成模擬資料進行訓練,即可使模型在 IPhO(國際物理奧林匹克競賽)題目上的效能提升 5-10 個百分點(適用於不同規模的模型)。

這代表了一種突破性的方法,顯著增強大型語言模型(LLMs)的推理能力。這種方法對於在人工智能和物理交叉領域工作的研究人員和開發人員特別有價值,因為它解決了物理等科學領域中大規模問答數據集稀缺的問題。透過專門領域語言(DSL)的程序化生成推理問題,SIM2REASON 消除了對人工註釋的依賴,使其成為訓練 LLMs 的可擴展解決方案。

對於理解使用物理模擬器作為數據生成工具的核心概念。這個想法是在這些模擬器中創建隨機場景,並從交互中導出合成的問答對。這不僅自動化了數據生成過程,還確保了多樣化的問題集,可以挑戰和改進 LLMs 的推理能力。研究人員和開發人員應密切關注 DSL 的結構和使用方式,因為它在這些問題的程序化生成中發揮著關鍵作用。

在實踐中,SIM2REASON 首先設置必要的數據生成和訓練環境。這包括安裝各種 Python 套件並配置存儲數據和檢查點的路徑。一旦設置完成,就會生成合成場景,並創建和過濾問答對以去除捷徑問題。生成的問答對然後被預處理成適合訓練 LLMs 的格式。訓練過程本身利用強化學習演算法,特別是 DAPO 演算法,對如 Qwen2.5 14B Instruct 之類的模型進行微調。

從中受益最大的人是那些致力於推進人工智能對物理推理理解的人。以及尋找創新方式教授物理的教育者。在國際物理奧林匹克(IPhO)等現實世界基準測試中的零樣本改進展示了這種方法在橋接合成數據和現實世界數據之間差距的潛力。

然而,也有一些權衡需要考慮。設置和配置過程可能複雜且耗時,需要對物理模擬器和機器學習框架有紮實的理解。此外,生成大量合成場景和訓練大型 LLMs 所需的計算資源可能相當龐大。研究人員還應謹慎對待合成數據的限制,因為它可能無法始終完美地複製現實世界物理問題的細微差異和複雜性。

SIM2REASON 提供了一條增強 LLMs 物理推理能力的有前途途徑,透過利用物理模擬器。對於那些希望自動化數據生成過程並改進模型在複雜物理問題上的表現的人特別有益。儘管在設置複雜性和資源需求方面存在挑戰,但潛在的好處使這成為該領域研究人員和開發人員值得追求的事業。透過專注於問答對的程序化生成和強化學習的使用,SIM2REASON 為在科學領域訓練 LLMs 設立了新的標準。

  • 需要記住的關鍵點:
  • SIM2REASON 使用物理模擬器生成合成的問答對,增強 LLM 推理能力。
  • 它適合從事人工智能和物理領域的研究人員和開發人員。
  • 設置涉及創建合成場景和問答對,然後進行預處理和訓練。
  • 好處包括在國際物理奧林匹克(IPhO)等現實世界基準測試中的零樣本改進。
  • 權衡包括複雜的設置和大量的計算資源需求。
  • 它代表了在科學領域,特別是物理學中訓練 LLMs 的可擴展解決方案。

Source: https://github.com/Sim2Reason/Sim2Reason

Categories: Agent, 開源

DeepTutor:原生個人化學習助理

DeepTutor
HKUDS/DeepTutor 在 GitHub 上

DeepTutor 是一個革命性的個人化學習平台,提供一系列 AI 驅動的工具,滿足多樣化的教育需求。無論您是準備考試的學生,還是希望提升技能的專業人士,DeepTutor 都能提供全面的解決方案。該平台的突出特點是其 統一聊天工作區,將五種不同的模式——聊天、深入解決、測驗生成、深入研究和數學動畫——無縫整合到單一、連貫的線程中。這種設計確保用戶可以輕鬆地在不同的學習活動之間切換,而不會丟失上下文或動力。

對於初次接觸 DeepTutor 的用戶,最好的開始方式是使用 聊天模式。這種模式作為一個多功能的起點,您可以進行流暢的對話、提出問題並獲得即時反饋。隨著您對平台的熟悉,您可以逐步探索其他模式。例如,深入解決 模式適合解決複雜問題,提供包括規劃、調查、解決和驗證在內的結構化方法。每個步驟都經過精心記錄,確保透明度並有助於學習過程。

個人導師機器人 是 DeepTutor 的另一個亮點。與傳統的聊天機器人不同,這些自主導師在自己的工作區內運行,擁有獨特的個性和技能組。它們可以設置提醒、學習新技能並隨著您的教育旅程共同進化。由 nanobot 驅動的這些導師機器人提供個人化協助,適應您的學習風格和節奏。這項功能對於需要持續指導和支持的學生特別有益。

在實際應用中,DeepTutor 通過建立用戶的 活躍檔案 來運作。這個檔案涵蓋了您所學習的內容、學習方式以及未來的方向。這些資訊在所有功能和導師機器人之間共享,並隨著每次互動變得更加精確。這種持久的記憶確保平台可以隨著時間提供越來越量身訂製的建議和支持。知識中心 進一步增強了這種個人化體驗,允許您上傳 PDF、Markdown 和文本文件以創建 RAG 就緒的知識庫。這些文件不是靜態的;它們主動推動每一次對話,與您的學習生態系統無縫整合。

DeepTutor 的優勢對於重視結構化、適應性學習的個人來說最為顯著。學生可以利用該平台創建視覺化、逐步的學習旅程,而專業人士可以使用它進行持續的技能發展。例如,引導學習 功能將個人材料轉化為結構化的多步驟計劃,為每個知識點生成互動頁面。這種方法不僅促進更深的理解,還促進了與材料的主動互動。

然而,也有一些權衡需要考慮。DeepTutor 的先進功能伴隨著學習曲線,特別是對於不熟悉 AI 驅動教育工具的用戶。設置平台需要一些技術知識,特別是在配置環境變量和與各種 LLM 和嵌入提供者整合時。此外,DeepTutor 的效果在很大程度上取決於您建立的知識庫的質量和相關性。用戶必須花時間整理和組織他們的材料,才能充分利用平台的功能。

儘管存在這些挑戰,DeepTutor 為那些希望提升學習體驗的人提供了一個令人信服的解決方案。它能夠整合多種學習模式、提供個人化輔導並建立全面的知識中心,使其成為任何致力於持續學習和技能發展的人的寶貴工具。通過專注於核心功能並逐步探索更先進的功能,用戶可以釋放 DeepTutor 的全部潛力並轉變他們的教育旅程。

Source: https://github.com/HKUDS/DeepTutor

Categories: 香港大學, Agent, 開源

SkillClaw:讓技能在代理群體中共同進化

SkillClaw
AMAP-ML/SkillClaw 在 GitHub 上

SkillClaw 透過從真實會話數據中進化可重用的技能,並在代理群體中共享這些技能,使 LLM 代理逐漸變得更好。

[!NOTE] SkillClaw 是一個在多用戶 OpenClaw 風格代理生態系統中實現技能集體進化的框架。它自動從多個用戶和代理的真實世界經驗中提煉出可重用的技能,並通過雲端共享這些技能,以實現整個代理群體的持續進化。

  • 與 OpenAI 兼容的 LLM API 端點
  • 客戶端 / 共享憑證:example env.sh
  • 進化伺服器環境模板:evolve server/.env.example
  • 檢查配置:skillclaw config show

Source: https://github.com/AMAP-ML/SkillClaw

Categories: Agent, 開源

Qwen3.6-Plus 專為 Agentic AI 設計的模型

Qwen3.6-Plus 顯著增強了模型的智能體(Agent)編程能力。無論是前端網頁開發,還是複雜的代碼倉庫級問題求解,Qwen3.6-Plus 均樹立了全新的業界標桿(SOTA)。此外,Qwen3.6-Plus 對世界的感知更加精准,多模態推理能力也更為敏銳。本次發佈直接回應了社區在 Qwen3.5-Plus 部署期間反饋的意見,為開發者生態提供了高度穩定可靠的基礎,帶來真正具有變革意義的“氛圍編程”(Vibe Coding)體驗。

官方已提供 OpenClaw 整合,編輯 ~/.openclaw/openclaw.json

{
  "models": {
    "mode": "merge",
    "providers": {
      "bailian": {
        "baseUrl": "https://dashscope.aliyuncs.com/compatible-mode/v1",
        "apiKey": "DASHSCOPE_API_KEY",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.6-plus",
            "name": "qwen3.6-plus",
            "reasoning": true,
            "input": ["text", "image"],
            "contextWindow": 1000000,
            "maxTokens": 65536
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "bailian/qwen3.6-plus"
      },
      "models": {
        "bailian/qwen3.6-plus": {}
      }
    }
  }
}

Categories: 阿里巴巴, Agent, Vibe Coding, 中國, OpenClaw



Page 1 of 4
1 2 3 4