
市面上的 LLM 智能體(LLM agents)排行榜大多只看模型本身的強弱,但 OpenSkillEval 卻把焦點放在技能(skill)身上,問一個很實際的問題:那些由社群熱心作者打包出來的技能,到底有沒有讓智能體的成品變得更好?為了回答這個問題,這個項目設計了一套評測流程,固定同一批任務、同一個評審模型,反覆比較「裝上技能」與「完全不裝技能」兩種情況的差異。
整套測試涵蓋 677 個案例,分屬商業、科學、健康、工程與創意五大場景,並對應五類日常常用的產出物:資料視覺化圖表、海報、簡報、分析報告,以及多頁網站。這樣的分佈能貼近真實使用智能體的場景,而不是只跑單一類型的乾淨考題。
更值得留意的是,這個項目同時記錄品質分數與成本資料,包括提示詞、生成、回快取的 token 數,以及實際耗時,方便讀者直接換算每一個技能值多少錢。從目前釋出的榜單來看,頭部模型之間的品質差距只有零點零幾分,但成本差距卻可以拉到 25 倍,凸顯「選模型」和「選技能」對整體花費的影響遠比想像中大。
論文亦點出多個值得技能作者參考的現象:熱門下載的技能未必穩定勝過無技能基準,而技能帶來的增益高度取決於底層模型與智能體框架的搭配方式。
重點摘要:
- 固定任務、變動技能:以對照方式隔離技能本身的真實貢獻。
- 五類任務、677 個案例:涵蓋圖表、海報、簡報、報告、網頁設計等常見產出。
- 品質與成本並列:同時記錄 token 與耗時,方便換算性價比。
- 適合技能作者、智能體開發者,以及需要評估部署成本的團隊。
- 相關模型包括 Claude Opus 4.6、GPT-5.5 與 Claude Sonnet 4.6 等前沿選擇。