Pi-Bench 點評:測試主動型助手夠唔夠醒

Pi-Bench Overview

OpenClaw 等個人助理代理的興起凸顯了大型語言模型在支援使用者日常生活和工作方面日益增長的潛力。這些環境中的一個核心挑戰是主動協助,因為使用者通常從未明確說明的請求開始,而未說明重要的需求、限製或偏好。

Pi-Bench 不是一般聊天問答,而是評測檢查個人助手型代理在長流程工作中,能否及早察覺用戶未講出口的需要。這類情境很常見,因為不少人一開始只會講大方向,細節、限制同偏好往往在後續對話才慢慢浮現。

這個項目收錄了 100 個多輪任務,涵蓋 researcher、marketer、pharmacist、law trainee、financier 五類角色,並且把任務放進可持續保存的工作空間,模擬跨時段處理事情的情況。相比只測短回合回答的基準,它更接近「一路做、一路補需求」的助手工作模式。

Pi-Bench 的特別之處,在於它同時看兩件事:助手夠不夠主動,以及最後交付是否完整。前者會看系統能否提早推斷隱藏意圖,或主動追問關鍵資訊;後者則檢查輸出是否符合清單要求。README 提到評分包含隱藏意圖判斷與 checklist 驗證,而且審核分歧低於 4%,顯示評估設計有一定穩定性。

對研究代理系統、評估 LLM 助手,或者想比較 OpenClaw、Nanobot、Claude Code 一類模型/系統表現的人,這個項目幾有參考價值。使用時重點不是「跑出高分」本身,而是觀察模型在哪些回合漏問、忘記前文,或者只懂被動完成指令。

  • 針對長流程、多輪互動,不只測單次回答
  • 納入隱藏需求、跨任務依賴與跨 session 延續性
  • 以主動性與完整度兩條線一齊評估
  • 包含 5 種角色、100 個任務,場景較立體
  • 適合比較個人助手型代理,而非純文字問答模型

整體來說,Pi-Bench 最有價值的地方,是把「助手是否主動幫到手」拆成可觀察、可比較的評測問題。它未必直接提升模型能力,但很適合作為檢查工具,幫團隊看清楚一個助手究竟只是跟指令做事,還是真正懂得提前補位。

GitHub: https://github.com/Simplified-Reasoning/Pi-Bench

項目: https://simplified-reasoning.github.io/Pi-Bench/

Categories: 開源, 香港中文大學, 中國, Dataset 數據集, 框架

TransitLM:點樣評估生成巴士地鐵路線

Repository image for HotTricker/TransitLM

TransitLM 重點不是直接幫你找車程,而是提供一套評估流程,專門量度模型生成公共交通路線的表現。它配合同名論文與資料集使用,主要服務「不靠地圖引擎、直接由資料學出路線」這類研究方向。

項目已經附上示例 CSV,並按不同情境分成幾個評估腳本,包括單一路線、偏好路線、多路線多樣性,以及透過遠端 API 評估一般大語言模型輸出。因為只依賴 Python 標準函式庫,環境要求相對輕巧,想重現論文評估流程的人會較容易開始。

這個項目最值得留意的地方,是它不只給一個總分,而是把結果拆成多層來看,例如路線是否可達、站點是否對應得上、整體結構是否一致,以及時間、距離、票價估算是否可信。對比只看「答得似唔似」,這種分層做法更容易找出模型到底是認錯站、接錯線,還是只在數值估算上失準。

  • 支援四類評估情境,覆蓋論文基準與一般 LLM 輸出
  • 評分拆成多個維度,比單一總分更有診斷價值
  • 可檢查偏好是否符合,例如少轉車、避開地鐵等
  • 多路線模式會額外比較替代路線與多樣性
  • 安裝負擔低,適合重現與快速驗證

從論文資訊看,TransitLM 背後資料規模相當大,涵蓋超過 1,300 萬筆公共交通規劃紀錄、四個中國城市、120,845 個站與 13,666 條路線;相關研究亦提到模型可在沒有明確地圖對接下,學到站點對應與路線結構。不過這個儲存庫本身偏重「評估」而非「訓練」,所以較適合研究人員、做交通路線生成的模型開發者,或者想比較 GPT、Qwen 這類一般模型在路線任務上表現的人。

整體來看,TransitLM 的價值在於把一個很易流於主觀的任務,整理成可重現、可分解、可比較的評估項目。對非專業讀者來說,可以把它理解成一把較精細的尺:不是幫你直接畫路線,而是幫你判斷模型畫出來的路線,到底有幾可信。

GitHub: https://github.com/HotTricker/TransitLM

Paper: https://arxiv.org/pdf/2605.22355

Categories: 開源, 阿里巴巴, 中國, Dataset 數據集, 框架

MM-OCEAN:拆解 AI 人格判斷盲點

Repository image for kkkcx/MM-OCEAN

MM-OCEAN 是一個用來評估多模態大語言模型的基準項目,核心不是單看模型能否判斷一個人的人格傾向,而是檢查它有沒有根據影片中的可觀察行為去推理。它聚焦 Big Five 五大人格維度,並指出一個很值得關注的現象:不少模型即使評分答對,背後也未必有可靠證據支持。

這個項目解決的問題很清楚。以往不少評估只看最後分數,但人格判斷牽涉表情、語氣、動作和互動線索,單靠結果很難知道模型是「看懂了」,還是只是碰巧猜中。MM-OCEAN 進一步把評估拆成評分、文字解釋和線索對應三層,令研究者可以分辨模型是理解不足、胡亂補充,還是無法把線索整合成合理結論。

資料規模方面,項目包含 1,104 段 15 秒影片、約 13,500 條經人工核實的細粒度行為觀察、5,520 份有證據支持的人格分析,以及 5,320 題多項選擇題。倉庫亦提供評分腳本和提示模板,研究者可以依照既定流程,把自己的模型輸出放入同一套框架比較;相關評測涵蓋 27 個多模態模型,屬於頗完整的橫向觀察。

最有新意的地方,是它不把「答對」視為終點,而是加入幾種失誤指標去量化問題,例如答對但沒有線索依據、線索對了但推理不通,或找到線索卻得出錯誤結論。論文摘要提到,整體有 51% 的正確評分並非建立在檢索到的線索之上,而更嚴格的整體通過表現最高亦只有約 33.5%,這說明現時模型距離可靠的人格推理仍有明顯差距。

  • 重點不是只計分數,而是同時檢查理由與證據是否一致
  • 提供三層評估流程,較易看出模型錯在觀察、推理還是整合
  • 涵蓋 27 個多模態模型,方便做基準比較
  • 適合研究多模態理解、AI 安全、公平性與人機互動的團隊
  • 可留意的相關模型類型,包括閉源與開源多模態大模型,但倉庫摘要未逐一列出名稱

對研究團隊、評測設計者,甚至關心 AI 是否會憑表面印象下判斷的人來說,MM-OCEAN 都很有參考價值。它不是一般可直接拿來日常應用的小工具,而是偏向研究與驗證用途;但正因如此,它把問題講得夠具體,亦讓人更清楚看到今天多模態模型在人格理解上仍有甚麼盲點。

GitHub: https://github.com/kkkcx/MM-OCEAN

Paper: https://arxiv.org/pdf/2605.22109

Categories: 開源, 影像處理, Dataset 數據集, 框架

PAGER 提升 GUI 操作介面準確度

pager icon v3

而家好多 GUI 智能代理都已經識得喺網頁、手機同桌面介面按掣、輸入文字,但呢類能力多數建立喺「大概撳中就得」嘅情況。呢篇研究處理嘅,係另一種要求高好多嘅環境:喺幾何畫布上落點,少少座標偏差都可能令之後所有圖形關係出錯。

研究團隊將呢類任務界定為對精度非常敏感嘅介面操作,並提出 PAGE Bench 作為評測基準,包含 4,906 條題目,同超過 22.4 萬個帶有過程監督嘅像素級操作資料。對一般讀者嚟講,可以理解為:研究者唔單止睇最後畫啱未,仲會逐步記錄每一下應該點做,方便訓練同評估模型。

為咗應付呢個問題,團隊提出 PAGER。佢會先按幾何物件之間嘅依賴關係做規劃,再執行像素級操作;另外再配合針對精準度嘅強化學習,用當前畫面狀態同幾何回饋去修正行為。簡單講,佢唔只係「認得要畫咩」,而係更著重「每一步要落喺邊個點」。

重點可以歸納為:
– 針對連續畫布上嘅落點操作,而唔係一般按鈕式介面
– 建立咗 PAGE Bench,專門量度像素級幾何控制能力
– 指出多模態模型存在明顯落差:理解指令未必代表真係做到
– PAGER 透過結構化規劃同幾何回饋,提升實際完成率

實驗結果亦幾有代表性。論文指出,一般多模態模型即使喺動作類型判斷上可超過 88% 準確率,整體任務成功率仍低於 6%,反映「語意理解」同「可執行操作」之間有明顯鴻溝;PAGER 就將任務成功率提升到最強通用基線嘅 4.1 倍,步驟成功率亦由不足 9% 提升到超過 62%。如果你關注 AI 代理、自動化操作,或者需要處理 CAD、教學幾何、精密繪圖等場景,呢項工作值得留意。

由應用角度睇,PAGER 特別適合用喺幾何教學軟件、自動作圖代理,同需要高精度圖形互動嘅研究場景。相比只判斷「有冇撳中元件」嘅方法,佢更重視座標、半徑、端點等連續參數,對處理精細圖形操作更有參考價值。

網址: https://openraiser.github.io/Pager-webpage/

Categories: 開源, 影像模型, 中國, Dataset 數據集

Page 6 of 6
1 4 5 6