OpenSkillEval：專門審核 LLM 智能體技能生態的測試框架

OpenSkillEval — automatically auditing the open skill ecosystem for LLM agents

市面上的 LLM 智能體（LLM agents）排行榜大多只看模型本身的強弱，但 OpenSkillEval 卻把焦點放在技能（skill）身上，問一個很實際的問題：那些由社群熱心作者打包出來的技能，到底有沒有讓智能體的成品變得更好？為了回答這個問題，這個項目設計了一套評測流程，固定同一批任務、同一個評審模型，反覆比較「裝上技能」與「完全不裝技能」兩種情況的差異。

整套測試涵蓋 677 個案例，分屬商業、科學、健康、工程與創意五大場景，並對應五類日常常用的產出物：資料視覺化圖表、海報、簡報、分析報告，以及多頁網站。這樣的分佈能貼近真實使用智能體的場景，而不是只跑單一類型的乾淨考題。

更值得留意的是，這個項目同時記錄品質分數與成本資料，包括提示詞、生成、回快取的 token 數，以及實際耗時，方便讀者直接換算每一個技能值多少錢。從目前釋出的榜單來看，頭部模型之間的品質差距只有零點零幾分，但成本差距卻可以拉到 25 倍，凸顯「選模型」和「選技能」對整體花費的影響遠比想像中大。

論文亦點出多個值得技能作者參考的現象：熱門下載的技能未必穩定勝過無技能基準，而技能帶來的增益高度取決於底層模型與智能體框架的搭配方式。

重點摘要：

固定任務、變動技能：以對照方式隔離技能本身的真實貢獻。
五類任務、677 個案例：涵蓋圖表、海報、簡報、報告、網頁設計等常見產出。
品質與成本並列：同時記錄 token 與耗時，方便換算性價比。
適合技能作者、智能體開發者，以及需要評估部署成本的團隊。
相關模型包括 Claude Opus 4.6、GPT-5.5 與 Claude Sonnet 4.6 等前沿選擇。

GitHub： https://github.com/ALEX-nlp/OpenSkillEval

項目： https://yingjiahao14.github.io/OpenSkillEval-Web/