
Qwen-AgentWorld 是阿里 Qwen 團隊開源的語言世界模型(Language World Model),屬於模型與訓練框架類項目,核心任務是透過長鏈思維推理模擬代理(agent)在七大領域的環境動態,並為代理強化學習提供可擴展、可控的模擬環境。
現有做法普遍把世界模型視為代理訓練完成後的「後加配件」(post-hoc add-on),僅在需要時才引入環境模擬能力,這種範式限制了模擬品質與遷移效果。Qwen-AgentWorld 的差異在於從 CPT 階段起就把環境建模作為訓練目標,透過 CPT 注入環境知識、SFT 啟動下一狀態預測推理、RL 以混合獎勵機制銳化模擬保真度,最終在超過 1000 萬條真實互動軌跡上完成訓練。
這個項目同時釋出 Qwen-AgentWorld-35B-A3B(MoE 架構,總參數 350 億、激活 30 億、256K 上下文)以及 AgentWorldBench 評測基準,後者涵蓋 Tool Decathlon、Terminal-Bench 1.0/2.0、OSWorld-Verified 等九個基準,從五個維度以真實標籤評分世界模型品質。團隊亦提出兩種互補應用範式:作為解耦的環境模擬器支援大規模代理 RL,或作為統一代理基礎模型,以世界模型預訓練作為下游代理任務的暖身步驟。
重點摘要:
- 七大統一領域:MCP、Search、Terminal、SWE、Android、Web、OS,首次由單一語言模型覆蓋。
- 原生世界模型:環境建模從 CPT 階段即為訓練目標,非後加適配。
- 可泛化模擬器:支援零樣本遷移到分布外環境(如 Claw Agent),並允許可控擾動與虛構世界構建。
- 代理基礎模型:單輪非代理軌跡上的 LWM RL 暖身,可遷移至多輪工具調用代理任務。
- 開源權重與基準:模型權重與 AgentWorldBench 均於 Hugging Face 與 ModelScope 釋出。
部署方面,模型可透過 Hugging Face 模型 ID 直接下載,或在無法存取 HF Hub 的環境下透過 ModelScope 配合 SGLang、vLLM 等框架載入。對於需要大量代理 RL 訓練數據的團隊,這個項目提供了一條以模擬取代部分真實環境互動的路徑,有助降低成本並提升可控性。