AgentDoG：輕量級 AI agent 安全護欄

AgentDoG 1.5 是一個針對 AI agent 安全與對齊的項目，重點不只是事後評分，而是把風險診斷、訓練同線上護欄串連起來。它面對的是長流程規劃、工具調用，以及跨環境互動帶來的新風險，特別貼近 OpenClaw、Codex 這類 agent 場景。

使用這個項目時，可先到 Hugging Face 或 ModelScope 找出以 AgentDoG- 開頭的 checkpoints，再按自己要做的是安全分類、訓練還是線上監察去配合相應模型。對一般團隊來說，最容易理解的用途是把它當成部署前的安全檢查器，或部署中的即時守門員。

這個項目的核心進展，在於它用更新過的 agent safety taxonomy 配合 ATBench family，把安全問題拆成更細緻的風險類型，再用大約 1k 訓練樣本建立輕量版本。公開資料亦提到它提供 0.8B、2B、4B、8B 等型號，並支援 agentic SFT 與 RL 訓練流程，令成本和擴展性較易控制。

支援 AgentDoG-0.8B、AgentDoG-2B、AgentDoG-4B、AgentDoG-8B 等版本
針對 ATBench-Pro、AT-Codex、AT-Claw 等基準作安全診斷
標準 8-core 機器可支援超過 10,000 個並行 agentic environments
可作 training-free online guardrail，用於即時安全監察與介入

資料顯示，AgentDoG 1.5 在多個基準上可接近，甚至部分情況超過 GPT-5.4、Gemini-3-Flash、Qwen3.5-397B、Qwen3-235B、Qwen3-Guard 等模型；其中 AgentDoG-4B 與 AgentDoG-4B-U 的結果較突出。不過不同數據集差異明顯，較穩妥的看法是：它在 agent 安全這個窄而深的任務上很有競爭力。

這個項目較適合正在做 AI agent、工具調用工作流、企業自動化，或需要把安全檢查放進部署流程的團隊。若你關心的不是聊天效果，而是 agent 會否在複雜環境中做錯事、越權或造成真實風險，AgentDoG 的定位就相當清晰。

GitHub： https://github.com/AI45Lab/AgentDoG