Agent Skill 的安全盲點：當三套掃描器互相矛盾時

隨着 AI 代理（AI agents）愈來愈普及，一種稱為「代理技能」（agent skills）的新興軟件層亦隨之興起。技能可以包含指令、工具調用模式、可執行腳本等內容，屬於代理與外部工具之間的執行層，與傳統軟件包有明顯差異。技能即使不含惡意程式碼，仍可能因為授予過大權限、隱藏遠端控制路徑或不安全地儲存憑證而構成風險。

OpenClaw 基金會聯同 NVIDIA 發佈了名為 ClawHub Security Signals 的數據集，收錄了 67,453 個最新版本的公開 OpenClaw 技能。每筆紀錄包含已遮罩的 SKILL.md 內容、清理後的附帶檔案，以及三套掃描器的結果：VirusTotal、靜態啟發式分析，以及 NVIDIA 自行開發的 SkillSpector。研究團隊並非要估算惡意技能的普及率，而是聚焦於「掃描器之間的分歧」這個現象。

研究結果令人意外：三套掃描器極少對同一批技能發出警示。任何兩個掃描器的重疊率最高只有 10.4%，三者同時標記的技能僅佔 0.69%，而被單一掃描器標記的技能卻高達 81.9%。這種分歧並非隨機，而是呈現出明確的結構。SkillSpector 專門針對語意層面的代理風險，在 25,504 個可疑項目中有 75.3% 觸發警示，但在確認惡意的 206 個項目中只標記了 6.8%。相反地，在確認惡意的項目中，VirusTotal 標記了 72.8%，與附帶程式碼的惡意軟件證據吻合。

這項研究強調，AI 代理技能的安全審查需要多層次治理（layered governance），不能依賴單一掃描器作出封鎖或放行的決定。

以下是這項工作的重點摘要：

規模龐大的安全數據集：收錄逾六萬個 OpenClaw 技能的最新版本，涵蓋三套不同掃描器的結果。
聚焦於掃描器分歧：研究發現不同掃描器對同一批技能的判斷差異極大，重疊率偏低。
不同掃描器各有所長：SkillSpector 擅長識別語意層面的代理風險，VirusTotal 則對附帶惡意程式碼的技能更敏感。
支持分層治理理念：研究主張技能安全需要多層次、多工具的綜合判斷，而非單一指標。
公開版本供社群使用：數據集以「銀標準」形式發佈，標籤來自自動判定而非人工標註，研究團隊歡迎社群在此基礎上開發更專門的技能安全分類模型。

這個項目最適合關注 AI 代理安全、軟件供應鏈防護及自動化安全掃描的研究人員與工程師。數據集已在 Hugging Face 上公開，研究團隊鼓勵社群進一步開發針對技能安全分類的模型。

Paper： https://arxiv.org/pdf/2606.01494