Bayesian-Agent：讓代理流程愈跑愈準

Bayesian-Agent 是一個 Bayesian self-evolving agent framework，更準確地說，它像是疊在代理系統之上的演化層：把已驗證的 agent trajectories 整理成可重用、帶證據權重的 Skills 與 SOPs。它不改動底層模型參數，而是調整推理階段可見的證據、失敗模式與流程選擇，目標是令代理在有限樣本下也能持續修正決策。

這個項目最實用的地方，在於它不要求你由零重建整套系統。文件顯示它支援三種路線：從零開始跑完整任務、接到既有代理後只修補失敗軌跡、以及在不同 execution harness 之間轉接。對手上已有 agent workflow 的團隊來說，這比重新訓練模型更貼近日常維護需要。

v0.5 加入 first-party native harness，內含自己的 LLM loop、workspace tools、三層記憶與 trajectory capture；同時保留 GenericAgent、mini-swe-agent、Claude Code 等 compatibility backends。這表示項目的重點不是綁死某一套框架，而是用可攜的 trajectory schema 和 adapter boundary，令 Skills 演化結果能跨環境沿用。

核心定位是 Bayesian Skill Evolution，不是單純聊天模型
可把 verified success／failure evidence 轉成可重用 Skills 與 SOPs
支援 full-run evolution、incremental repair、cross-harness adaptation
內建 Bayesian Evidence Model，亦保留 Beta-Bernoulli backend 作 ablations
適合已有代理流程、想減少重試成本與修復失敗任務的團隊

表現方面，公開資訊提到 SOP-Bench、Lifelong AgentBench、RealFin-Bench 的實驗結果，並列出 deepseek-v4-flash 與 deepseek-v4-pro 的 native-harness 測試，但這裡未見完整數字，較穩妥的判斷是：項目已朝可比較、可驗證的方向整理實驗，而不是只停留在概念。若你正管理會反覆執行任務的 agent 項目，尤其需要判斷何時停止、重試或重寫流程，Bayesian-Agent 的價值會比一次性 Demo 更明顯。

GitHub： https://github.com/DataArcTech/Bayesian-Agent

項目： https://dataarctech.github.io/Bayesian-Agent/