PAGER 提升 GUI 操作介面準確度

而家好多 GUI 智能代理都已經識得喺網頁、手機同桌面介面按掣、輸入文字，但呢類能力多數建立喺「大概撳中就得」嘅情況。呢篇研究處理嘅，係另一種要求高好多嘅環境：喺幾何畫布上落點，少少座標偏差都可能令之後所有圖形關係出錯。

研究團隊將呢類任務界定為對精度非常敏感嘅介面操作，並提出 PAGE Bench 作為評測基準，包含 4,906 條題目，同超過 22.4 萬個帶有過程監督嘅像素級操作資料。對一般讀者嚟講，可以理解為：研究者唔單止睇最後畫啱未，仲會逐步記錄每一下應該點做，方便訓練同評估模型。

為咗應付呢個問題，團隊提出 PAGER。佢會先按幾何物件之間嘅依賴關係做規劃，再執行像素級操作；另外再配合針對精準度嘅強化學習，用當前畫面狀態同幾何回饋去修正行為。簡單講，佢唔只係「認得要畫咩」，而係更著重「每一步要落喺邊個點」。

重點可以歸納為：
– 針對連續畫布上嘅落點操作，而唔係一般按鈕式介面
– 建立咗 PAGE Bench，專門量度像素級幾何控制能力
– 指出多模態模型存在明顯落差：理解指令未必代表真係做到
– PAGER 透過結構化規劃同幾何回饋，提升實際完成率

實驗結果亦幾有代表性。論文指出，一般多模態模型即使喺動作類型判斷上可超過 88% 準確率，整體任務成功率仍低於 6%，反映「語意理解」同「可執行操作」之間有明顯鴻溝；PAGER 就將任務成功率提升到最強通用基線嘅 4.1 倍，步驟成功率亦由不足 9% 提升到超過 62%。如果你關注 AI 代理、自動化操作，或者需要處理 CAD、教學幾何、精密繪圖等場景，呢項工作值得留意。

由應用角度睇，PAGER 特別適合用喺幾何教學軟件、自動作圖代理，同需要高精度圖形互動嘅研究場景。相比只判斷「有冇撳中元件」嘅方法，佢更重視座標、半徑、端點等連續參數，對處理精細圖形操作更有參考價值。

網址： https://openraiser.github.io/Pager-webpage/