X-OmniClaw：讓手機自己跨App辦事的AI代理

X-OmniClaw是一個運行在Android裝置上的多模態代理系統，重點不是停留在模擬器或虛擬環境，而是直接對真實手機畫面作判斷，再執行點擊、輸入、開啟App等操作。對一般用家來說，可以把它理解為一個會「睇畫面、記住進度、自己禁掣」的手機助手。

實際使用上，它適合處理需要跨App完成的多步驟任務，例如根據畫面內容作搜尋、在不同應用之間切換，或跟隨語音與視覺資訊持續執行工作。專案資料顯示，它能串流顯示每一步動作、工具呼叫與結果，亦會累積模型使用成本，方便觀察整個流程是否合理。

這個專案較有新意的地方，在於把感知、記憶、行動放在同一套手機原生流程內。它不只讀取UI狀態，亦可結合真實世界影像與音訊；再配合工作記憶與較長期的個人化記憶，令任務可以延續，不需要每一步都由頭理解。

另外，X-OmniClaw似乎特別重視穩定性，而不只是「做到一次」。例如多輪任務有預算控制與迴圈偵測，失敗後會嘗試收斂並繼續執行；裝置工具亦加入防誤觸與穩定性保護，這些設計對真機操作尤其重要。

如果你的場景是手機自動化、智能助理、跨App工作流，甚至需要結合現場鏡頭資訊去決策，X-OmniClaw會比一般只看文字指令的方案更有參考價值。不過從公開資料看，它較偏研究與系統架構展示，真正落地時仍要留意裝置相容性、任務複雜度，以及背後雲端推理的依賴。

Source: https://github.com/OPPO-Mente-Lab/X-OmniClaw