
Bayesian-Agent 是一個 Bayesian self-evolving agent framework,更準確地說,它像是疊在代理系統之上的演化層:把已驗證的 agent trajectories 整理成可重用、帶證據權重的 Skills 與 SOPs。它不改動底層模型參數,而是調整推理階段可見的證據、失敗模式與流程選擇,目標是令代理在有限樣本下也能持續修正決策。
這個項目最實用的地方,在於它不要求你由零重建整套系統。文件顯示它支援三種路線:從零開始跑完整任務、接到既有代理後只修補失敗軌跡、以及在不同 execution harness 之間轉接。對手上已有 agent workflow 的團隊來說,這比重新訓練模型更貼近日常維護需要。
v0.5 加入 first-party native harness,內含自己的 LLM loop、workspace tools、三層記憶與 trajectory capture;同時保留 GenericAgent、mini-swe-agent、Claude Code 等 compatibility backends。這表示項目的重點不是綁死某一套框架,而是用可攜的 trajectory schema 和 adapter boundary,令 Skills 演化結果能跨環境沿用。
- 核心定位是 Bayesian Skill Evolution,不是單純聊天模型
- 可把 verified success/failure evidence 轉成可重用 Skills 與 SOPs
- 支援 full-run evolution、incremental repair、cross-harness adaptation
- 內建 Bayesian Evidence Model,亦保留 Beta-Bernoulli backend 作 ablations
- 適合已有代理流程、想減少重試成本與修復失敗任務的團隊
表現方面,公開資訊提到 SOP-Bench、Lifelong AgentBench、RealFin-Bench 的實驗結果,並列出 deepseek-v4-flash 與 deepseek-v4-pro 的 native-harness 測試,但這裡未見完整數字,較穩妥的判斷是:項目已朝可比較、可驗證的方向整理實驗,而不是只停留在概念。若你正管理會反覆執行任務的 agent 項目,尤其需要判斷何時停止、重試或重寫流程,Bayesian-Agent 的價值會比一次性 Demo 更明顯。