ClawTrojan:揭開代理工具的隱藏後門危機

ClawTrojan benchmark overview

隨著 LLM 代理開始具備讀寫檔案、呼叫工具的能力,惡意指令不再只藏在當下對話中,而是能被植入工作區,潛伏到日後才發動。ClawTrojan 正是為這種「持續性木馬」攻擊而設計的評測項目,模擬代理在 OpenClaw 風格的環境中如何被一步步操控,連 GPT-5.4 都曾達到 95.5% 的攻擊成功率。

在採用 GPT-5.4 的 OpenClaw 模擬工作空間中,ClawTrojan 的攻擊成功率 (ASR) 高達 95.5%,而現有的單回合提示注入攻擊在同一模型上的 ASR 幾乎為零。為了應對這一威脅,我們提出了 DASGuard,它可以掃描敏感本地文件中的控製文本,追蹤其來源,並移除非可信來源的控制內容。

這個項目解決了傳統單輪防禦的盲點:每一步看似無害,但串連起來就能把不可信文字變成持久控制內容。ClawTrojan 內建範例、步驟標註與可執行的工作區,方便研究者重現攻擊鏈。

配套的 DASGuard 防禦機制是另一亮點。它會掃描敏感本地檔案中的控制類文字,追蹤來源是否可信,並在執行階段阻擋攻擊同時清理已污染的內容。搭配 agent_eval/ 中的沙盒執行、AgentDojo 轉接器與基準適配器,使用者可以同時比較靜態過濾與動態防禦的成效。

這個項目特別適合關注 LLM 代理安全、AI 紅隊演練或企業內部工具防護的團隊。對一般使用者而言,理解它的價值在於:現成的代理並非滴水不漏,部署前需要這類多步驟壓測來找出漏洞。

重點摘要

  • 專注於「多步木馬」場景,補上單輪提示注入防禦的缺口
  • 在 GPT-5.4 上展示 95.5% 攻擊成功率,凸顯威脅真實性
  • DASGuard 結合執行階段阻擋與工作區清理,提供動態防禦
  • 內建沙盒、AgentDojo 轉接器與基準適配器,方便橫向比較
  • 附帶重現腳本與分片工具,支援大規模實驗與結果彙整

GitHub: https://github.com/RUC-NLPIR/ClawTrojan

Paper: https://arxiv.org/pdf/2605.31042

Categories: 開源, Agentic, 中國, 框架, Skill 技能