PhoneHarness：重新量度手機代理能力

PhoneHarness 是一個混合動作的手機代理評測框架與基準，解決只靠 GUI 點按去評分、卻量不到真實副作用的問題。論文指出，手機任務往往需要在 GUI、CLI 與 structured tools 之間切換，單看最後畫面會漏掉很多關鍵步驟。

它的做法是把行動路由、GUI 委派和可追蹤執行記錄放進同一個流程。當任務有明確可執行路徑時，系統會優先走 CLI 或 MCP 完成；只有必要時才交由 GUI worker 透過截圖互動，令評測更貼近真正手機工作流。

這個項目的新意在於把「能否完成」和「是否留下可驗證證據」綁在一起。JSONL traces 和 HTML viewer 令失敗可以被拆成模型推理、GUI 對齊、環境、工具或 verifier 不一致幾類，方便找出問題來源，而不是只見到一個分數。

論文中的 PhoneHarness Bench 在 annotated evaluation split 上取得 75.0% pass rate，較最強的非 PhoneHarness 設定高 12.9 個百分點。這表示它不只是測試介面操作，還在測試代理怎樣選擇動作面，對做手機自動化、裝置測試、或需要可審計流程的團隊都幾有參考價值。

混合支援 GUI、CLI、MCP tools，適合手機工作流評測
優先 deterministic 路由，減少不必要的畫面操作
可追蹤 traces，方便定位錯誤來源
適合研究 phone agents、裝置自動化與安全副作用檢查

相關模型／基準可一併留意：PhoneHarness、PhoneHarness Bench、AndroidWorld、AppAgent、Mobile-Agent-v2、MobileAgentBench、AndroidLab。

GitHub： https://github.com/PhoneHarness/PhoneHarness

項目： https://phoneharness.github.io/