Qwen-AgentWorld：用語言模型模擬七大代理環境的世界模型

Qwen-AgentWorld 是阿里 Qwen 團隊開源的語言世界模型（Language World Model），屬於模型與訓練框架類項目，核心任務是透過長鏈思維推理模擬代理（agent）在七大領域的環境動態，並為代理強化學習提供可擴展、可控的模擬環境。

現有做法普遍把世界模型視為代理訓練完成後的「後加配件」（post-hoc add-on），僅在需要時才引入環境模擬能力，這種範式限制了模擬品質與遷移效果。Qwen-AgentWorld 的差異在於從 CPT 階段起就把環境建模作為訓練目標，透過 CPT 注入環境知識、SFT 啟動下一狀態預測推理、RL 以混合獎勵機制銳化模擬保真度，最終在超過 1000 萬條真實互動軌跡上完成訓練。

這個項目同時釋出 Qwen-AgentWorld-35B-A3B（MoE 架構，總參數 350 億、激活 30 億、256K 上下文）以及 AgentWorldBench 評測基準，後者涵蓋 Tool Decathlon、Terminal-Bench 1.0/2.0、OSWorld-Verified 等九個基準，從五個維度以真實標籤評分世界模型品質。團隊亦提出兩種互補應用範式：作為解耦的環境模擬器支援大規模代理 RL，或作為統一代理基礎模型，以世界模型預訓練作為下游代理任務的暖身步驟。

重點摘要：

七大統一領域：MCP、Search、Terminal、SWE、Android、Web、OS，首次由單一語言模型覆蓋。
原生世界模型：環境建模從 CPT 階段即為訓練目標，非後加適配。
可泛化模擬器：支援零樣本遷移到分布外環境（如 Claw Agent），並允許可控擾動與虛構世界構建。
代理基礎模型：單輪非代理軌跡上的 LWM RL 暖身，可遷移至多輪工具調用代理任務。
開源權重與基準：模型權重與 AgentWorldBench 均於 Hugging Face 與 ModelScope 釋出。

部署方面，模型可透過 Hugging Face 模型 ID 直接下載，或在無法存取 HF Hub 的環境下透過 ModelScope 配合 SGLang、vLLM 等框架載入。對於需要大量代理 RL 訓練數據的團隊，這個項目提供了一條以模擬取代部分真實環境互動的路徑，有助降低成本並提升可控性。

GitHub： https://github.com/QwenLM/Qwen-AgentWorld

Paper： https://arxiv.org/pdf/2606.24597