
隨着 AI 代理(AI agents)愈來愈普及,一種稱為「代理技能」(agent skills)的新興軟件層亦隨之興起。技能可以包含指令、工具調用模式、可執行腳本等內容,屬於代理與外部工具之間的執行層,與傳統軟件包有明顯差異。技能即使不含惡意程式碼,仍可能因為授予過大權限、隱藏遠端控制路徑或不安全地儲存憑證而構成風險。
OpenClaw 基金會聯同 NVIDIA 發佈了名為 ClawHub Security Signals 的數據集,收錄了 67,453 個最新版本的公開 OpenClaw 技能。每筆紀錄包含已遮罩的 SKILL.md 內容、清理後的附帶檔案,以及三套掃描器的結果:VirusTotal、靜態啟發式分析,以及 NVIDIA 自行開發的 SkillSpector。研究團隊並非要估算惡意技能的普及率,而是聚焦於「掃描器之間的分歧」這個現象。
研究結果令人意外:三套掃描器極少對同一批技能發出警示。任何兩個掃描器的重疊率最高只有 10.4%,三者同時標記的技能僅佔 0.69%,而被單一掃描器標記的技能卻高達 81.9%。這種分歧並非隨機,而是呈現出明確的結構。SkillSpector 專門針對語意層面的代理風險,在 25,504 個可疑項目中有 75.3% 觸發警示,但在確認惡意的 206 個項目中只標記了 6.8%。相反地,在確認惡意的項目中,VirusTotal 標記了 72.8%,與附帶程式碼的惡意軟件證據吻合。
這項研究強調,AI 代理技能的安全審查需要多層次治理(layered governance),不能依賴單一掃描器作出封鎖或放行的決定。
以下是這項工作的重點摘要:
- 規模龐大的安全數據集:收錄逾六萬個 OpenClaw 技能的最新版本,涵蓋三套不同掃描器的結果。
- 聚焦於掃描器分歧:研究發現不同掃描器對同一批技能的判斷差異極大,重疊率偏低。
- 不同掃描器各有所長:SkillSpector 擅長識別語意層面的代理風險,VirusTotal 則對附帶惡意程式碼的技能更敏感。
- 支持分層治理理念:研究主張技能安全需要多層次、多工具的綜合判斷,而非單一指標。
- 公開版本供社群使用:數據集以「銀標準」形式發佈,標籤來自自動判定而非人工標註,研究團隊歡迎社群在此基礎上開發更專門的技能安全分類模型。
這個項目最適合關注 AI 代理安全、軟件供應鏈防護及自動化安全掃描的研究人員與工程師。數據集已在 Hugging Face 上公開,研究團隊鼓勵社群進一步開發針對技能安全分類的模型。