Agent-ValueBench：AI 代理有冇價值觀？這個基準想測清楚

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講，佢唔只睇模型答得啱唔啱，而係觀察一個會用工具嘅語言模型代理，喺有衝突嘅情境入面，實際行動會偏向邊一種價值。

呢個專案較特別嘅地方，係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境，同 4,335 個價值衝突任務；每個案例都會定義任務、可用工具、執行環境，同評分規則，令比較唔再停留喺主觀印象。

實際使用上，研究者可以先用現成案例同環境，令代理喺指定任務中運行，再記錄成條行為軌跡，之後用已儲存嘅 rubric 去評分，分析代理較支持邊一方價值。對一般開發團隊嚟講，佢更似係一套測試框架，用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

如果你關心 AI 安全、代理治理、企業內部自動化助手，或者想比較唔同代理喺價值衝突下嘅表現，呢個專案相當適合。相反，如果你只係想快速部署聊天功能，呢個儲存庫未必直接幫到手，因為佢主要價值在於研究、測試同評估，而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench