ENPIRE : NVIDIA 閉環系統訓練機械人自我改良

ENPIRE 是一個用於真實世界機械人策略自我改良的框架，重點不是單一模型，而是把「重設場景、執行策略、檢查結果、再改進」串成可重複閉環。它針對的問題很明確：靈巧操作任務一直很依賴人手監督與大量調參，令機械人研究難以擴展。

系統由四個模組組成：Environment（EN）負責自動重設與驗證、Policy Improvement（PI）負責發動策略改良、Rollout（R）負責在單機或多機械人上測試、Evolution（E）則讓 coding agents 分析紀錄、查閱文獻、調整訓練基建與演算法程式。與常見只在模擬器或純數碼環境做 agent 優化的方法相比，ENPIRE 把回饋迴路直接放到真實機械人上。

列出的案例包括 PushT、Pin Insertion、Tie Zip-tie 與 GPU Insertion，可見它瞄準的是需要精準操作的任務。按頁面描述，frontier coding agents 在這套流程下，可把部分真實操作任務推高至 99% 成功率，但不同任務、機械人配置與訓練設定之間仍可能有差異，閱讀時宜把它視為特定條件下的結果。

若想理解這個項目，可先從它的閉環結構入手，再看 Policy Improvement 支援哪些路線，例如 heuristic learning、tool calling、behavior cloning、offline RL 與 online RL。頁面亦提到 robot fleet scaling、simulation evaluation、auto evaluation 與 auto reset，反映這個項目不只關心模型表現，也在處理如何把測試與迭代流程自動化。

核心價值：把真實機械人訓練流程標準化，減少人手介入
主要差異：不是只生成策略，而是連同驗證、重設、改良一起自動執行
適合讀者：機械人研究者、Agentic AI 開發者、關心自動化實驗流程的人
已提方法：heuristic learning、tool calling、behavior cloning、offline RL、online RL

這項目較適合放在機械人學習、自主代理與真實世界實驗自動化的脈絡下理解。若你關心 Computer-use agents 或 coding agents 能否走出螢幕、直接管理物理系統的迭代流程，ENPIRE 提供了一個相當具體的方向。

項目： https://research.nvidia.com/labs/gear/enpire/