ToolCUA：電腦代理點樣揀工具先最醒？

ToolCUA 是一個面向「電腦代勞」場景的代理系統，目標不是單純模擬人手點擊，而是同時懂得用畫面操作與系統工具完成任務。簡單講，當代理見到桌面程式時，可以選擇按掣、輸入文字、捲動畫面，亦可以在合適時直接呼叫工具處理檔案或應用程式動作。

這個專案最值得留意的地方，是它聚焦在「路徑選擇」而不只是「動作能力」。README 提到，不少模型即使同時擁有 GUI 動作與工具調用能力，仍然會出現判斷混亂：有些幾乎唔用工具，有些又過度依賴工具，結果步驟雖然變少，但任務成功率未必更高。

實際使用上，這個儲存庫較像研究與評估框架，適合想測試混合式電腦代理的人。庫內提供評估資料、代理實作，以及多環境評測程式；如要使用其公開模型，README 有提到 ToolCUA-8B，但整體更偏向研究實驗，而非即裝即用的消費級產品。

重點可概括為：
– 同時處理 GUI 操作與高層工具調用
– 核心問題是判斷何時切換操作路徑
– 以分階段訓練提升工具使用與切換決策
– 提供評估程式與案例，方便研究比較

從公開資料看，ToolCUA 的主要創新在於把 GUI-only 軌跡擴展成 GUI 與工具交錯的訓練資料，再配合強化學習優化整體路徑效率。對企業自動化、桌面任務代理、需要跨應用操作的研究場景尤其有參考價值；如果你想找的是成熟日常助手，現階段可能仍要視乎後續工具鏈與部署支援。

Source: https://github.com/X-PLUG/ToolCUA