深度學習 – InferNews

[入門教學文章]一文搞懂 CNN、RNN 與 Transformer

2026 年 7 月 18 日

學深度學習最容易卡住的位置，往往不是模型太難，而是聽過 neural network、Deep Learning、CNN、RNN、Transformer，腦入面仍然分唔清邊個處理影像、邊個擅長序列、邊個適合長距離內容關係。這篇文章屬於入門教學，重點是用 mental model 幫讀者建立直覺，而不是一開始就掉出一堆數學式。

內容先把 AI（Artificial Intelligence）、ML（Machine Learning）同 Deep Learning 的層次關係講清楚，再解釋 neural networks 點樣透過多層表示學習資料特徵。文中亦提醒一個常見誤解：Deep Learning 入面的「deep」主要是指層數夠多，並不是指模型真的像人腦那樣理解世界。

之後的重點放在三類常見架構之間的差異：CNN 適合由局部特徵逐步組合出整體理解，常見於影像；RNN 會按次序處理資訊，較貼近文字或時間序列；Transformer 則更重視整段內容之間的關聯，成為近年自然語言處理與多模態模型的重要基礎。對初學者來說，這種比較方式比單獨背定義更容易入手。

用直觀方式整理 Deep Learning 與 neural networks 的基本概念
把 CNN、RNN、Transformer 放在同一條線上比較用途與取向
強調模型強項來自資料處理方式，而不只是名稱不同
文章亦提到 Keras，方便之後進一步動手建立模型

引用模型：CNN、RNN、Transformer。整體來說，這項內容適合剛接觸深度學習、想先建立整體地圖的人閱讀；有少量 Python 基礎會更易銜接到 Keras，但就算未寫過模型，也能先用它釐清觀念。

項目主頁

Categories: Python, 教學, 模型訓練, 深度學習, Dataset 數據集

EO-WM：把衛星影像預報變成天氣驅動的世界模型

2026 年 6 月 28 日

這是一個結合物理知識的影片擴散世界模型（EO-WM），專門用於多光譜衛星影像的概率預測。整體目標是把地球觀測（Earth Observation, EO）預報重新定位為「部分可觀察、天氣驅動的世界建模」任務，在稀疏衛星上下文與未來氣象條件下預測地表動態，並支援災害監測、作物產量預估及植被變化追蹤等下游應用。

過去的 EO 預測方法分為兩類：決定式模型把不確定性壓縮成單一未來影像，擴散式方法則往往把天氣變量當成籠統的條件輸入。這兩種做法都難以正確反映「氣象條件如何改變地表狀態」這個核心問題，而且現有 benchmark 多聚焦於像素重建準確度，未能衡量模型在改變天氣條件時是否會產生方向正確的響應。EO-WM 為了解決這個落差，引入一個 EO 專屬 VAE 把稀疏衛星觀測編碼為潛在影片 token，再用擴散 Transformer（diffusion transformer）經由獨立條件路徑同時處理三種信號：氣候基線（climatological baseline）、天氣異常（weather anomaly）與累積物理壓力（cumulative stress），並持續將空間上下文重新注入影片 token 流。

在評測方面，作者提出兩個以 EarthNet2021 為基礎的診斷式 benchmark：Extreme Summer Benchmark 衡量極端熱浪與乾旱下植被退化的嚴重程度感知能力，引入 TN-MAE 與 Drop Amplitude Error；Seasonal Matched-Pair Benchmark 則衡量當天氣條件改變時預測方向與幅度是否正確，以 Divergence Reproduction Ratio、Directional Hit Rate 與 Paired Divergence Correlation 為指標。報告結果顯示 NDVI 下降幅度的預測誤差相對減少 5.63%，方向命中率相對提升 7.80%，同時在像素級 ENS、P-MAE、N-MAE 等指標上仍具競爭力。

這個項目對遙感研究者、農業監測團隊及氣候風險分析團隊特別有價值，因為它同時提供模型與基準資料，讓外界可在統一的評測框架下比較不同方法的天氣響應能力。從工程角度來看，架構設計強調物理分離條件與空間重注入，而非單純堆疊參數，這種取捨有助於提高極端情境下的可解釋性。需留意的是，目前 GitHub 倉庫主要釋出 benchmark CSV 與 Earthformer 參考評測腳本，模型權重與完整訓練流程屬於配套資源，重現完整結果仍需自行準備 EarthNet2021 的 extreme 與 seasonal 切分資料。

重點摘要：

重新定義 EO 預報範式：把衛星影像預測視為天氣驅動的世界建模，而非純粹的影像重建。
物理分離條件：天氣信號被拆分為基線、異常與累積壓力三條獨立條件路徑。
診斷式 benchmark：Extreme Summer 與 Seasonal Matched-Pair 兩個基準專門檢驗模型在天氣改變下的響應正確性。
可量化的天氣敏感度：NDVI 下降誤差降低 5.63%，方向命中率提升 7.80%，標準指標仍具競爭力。
目前釋出內容：以 benchmark CSV 與評測腳本為主，完整訓練流程需搭配 EarthNet2021 資料集。

GitHub · Paper

Categories: 開源, 香港, 香港大學, 香港理工大學, Stable Diffusion, 庫, 模型, 深度學習, 世界模型, 框架

LISA：讓 ControlNet 訓練快 2.78 倍的正則化方法

2026 年 6 月 28 日

LISA（Likelihood Score Alignment）是一種訓練正則化方法，專門用於加速視覺條件可控生成模型（例如 ControlNet）的訓練過程，同時提升最終生成結果在感知品質與條件遵循度上的表現。

現有做法普遍採用「雙分支範式」（dual-branch paradigm）：訓練一個側網絡（side network）來編碼視覺條件，再將其中間層特徵融合到凍結的預訓練主網絡中。這個範式雖然效果顯著，但側分支的角色定位與訓練效率長期未被深入研究。LISA 從基於分數的生成建模（score-based generative modeling）角度重新審視這個範式：主網絡負責提供先驗的無條件分數（unconditional score），側網絡則透過隱式方式貢獻似然分數（likelihood score）。

LISA 的核心做法是從側網絡的指定層提取特徵，透過一個輕量級解碼器（decoder）將其投影到分數潛在空間（score latent space），然後計算解碼器輸出與近似似然分數目標之間的距離，作為額外的正則化損失（regularization loss）。這個設計讓側網絡的特徵在條件建模中更加解耦（disentangled），且推理階段無需任何額外計算。

根據論文實驗結果，LISA 在多種圖像與影片任務、不同網絡架構（UNet/DiT）以及擴散與流匹配模型上均表現穩定，能夠實現超過 2.78 倍的訓練收斂加速（例如在 ControlNet 上），同時帶來可忽略的額外訓練成本與零推理成本。

這項技術特別適合需要快速迭代 ControlNet 或類似條件控制模型的團隊，例如從事姿態引導圖像生成、組合條件生成或可控影片生成的研究人員與開發者。

重點摘要：

方法類型：訓練正則化技術，適用於雙分支視覺條件可控生成框架
核心創新：將側網絡特徵對齊近似似然分數目標，取代純粹依賴擴散損失的訓練方式
訓練效率：在 ControlNet 等場景實現超過 2.78 倍的收斂加速
推理成本：零額外推理開銷，解碼器僅在訓練階段使用
適用範圍：圖像與影片生成任務，兼容 UNet 與 DiT 架構，支援擴散與流匹配模型

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 華為, IDE, 模型, 模型訓練, 深度學習, 視覺模型, 框架

PhysiFormer 用座標預測物理運動

2026 年 6 月 27 日

PhysiFormer 是一個 diffusion transformer 模型，用世界座標中的 3D mesh 直接模擬物體運動。它要處理的是在已知初始頂點位置、速度與材質條件下，生成之後一段時間內合理可信的 4D 動態軌跡。

它和常見 video world models 的分別，在於不是在視角相關的像素空間推測畫面變化，而是直接預測 world coordinates 裡的 vertex trajectories。論文指出，這個做法不依賴手動指定的模擬結構、shape latent，亦不需要明確加入 rigid-transform prediction 一類限制，改用單一步驟的去噪擴散過程學習完整時域軌跡。

模型同時支援 rigid 與 elastic 物件，亦能處理 mixed-material dynamics、碰撞，以及靜止與移動中的多個物件。為了提升效率，PhysiFormer 採用在時間、空間與物件三個維度分解的 attention，令多物件推理保留 permutation-invariant 特性，毋須額外手動編碼物件身份。

以 3D coordinate diffusion 建模，重點是視角無關而且幾何結構清晰
用超過 100k simulated trajectories 訓練，覆蓋多種剛體與彈性體運動
可生成多個合理未來，而非只輸出單一路徑，適合存在未觀察不確定性的情境
它在 trajectory accuracy、rigidity preservation 與 momentum-based physical consistency 上明顯優於 autoregressive baselines

這類項目較適合 robotics、graphics、physical design，以及需要幾何感知 world modelling 的工作流。現有資料顯示它對未見過的真實幾何形狀、更大的物件數量，以及混合材質場景有一定泛化能力，但內容主要來自模擬資料與論文結果，真實部署表現仍要配合具體場景再驗證。

項目主頁： https://yimingc9.github.io/physiformer/

Paper： https://arxiv.org/pdf/2606.27364

Categories: 開源, Video, Content Creator, 3D, Vibe Coding, 模型, 模型訓練, 深度學習, Robotic, 世界模型, 框架

DanceOPD：多能力影像生成的場景蒸餾框架

2026 年 6 月 27 日

DanceOPD 是一個針對 flow-matching 模型設計的 on-policy 生成場景蒸餾框架，目標是讓單一影像生成模型同時具備文字生成影像（T2I）、局部編輯與全域編輯等多種能力。核心做法是將每個來源能力視為一個速度場（velocity field），然後在學生模型自己產生的 on-policy 狀態上查詢這個場景，再以簡單的速度 MSE 損失進行訓練。

這套方法最值得留意的差異在於 hard-routed 設計：每個樣本只被路由到一個被選中的能力場，並且只查詢一個低噪聲的語義側狀態（semantic query），避免了對多個來源場景做平均而模糊語義身份的問題。同一套框架也能吸收 operator-defined fields，例如 classifier-free guidance，讓引導機制自然融入訓練。

在評估方面，DanceOPD 報告了多項指標，包含 GEditBench-avg 在 T2I + Edit Composition 上達到 5.347、GenEval Overall 達到 0.849 同時保持 T2I 表現，以及 Local + Global Edit Composition 的 5.498、CFG 吸收診斷中 5.833 的最佳值。

這項工作適合關注多能力影像生成整合、蒸餾方法以及 flow-matching 模型研究的開發者與研究者。由於 Code 標示為「Soon」，目前尚未提供源碼或模型下載，因此暫無可對應的安裝或使用步驟可分享。

主要重點：

核心定位：flow-matching 模型的 on-policy 生成場景蒸餾框架
方法差異：hard routing 單一能力場景加單一低噪聲語義查詢，避免場景平均造成的語義模糊
支援能力：T2I、局部編輯、全域編輯，並能吸收 classifier-free guidance 等 operator-defined fields
評估數字：GenEval 0.849、GEditBench T2I+Edit 5.347、Local+Global 5.498
現有狀態：論文可在 arXiv 瀏覽，原始碼尚未公開

項目主頁： https://danceopd.github.io/

Paper： https://arxiv.org/pdf/2606.27377

Categories: 開源, 字節跳動, Image, Content Creator, txt2img, 影像模型, 模型, 教學, 模型訓練, 深度學習, 框架

WATER：WordArt 場景文字識別新突破

2026 年 6 月 26 日

這是一個由復旦大學（上海多模態具身 AI 重點實驗室）與騰訊 WeChat Vision 聯合發佈的研究項目（屬於數據集＋模型基準組合），同時收錄於 ECCV 2026。針對 WordArt-oriented scene TExt Recognition（WATER）這項任務，原有 STR 數據集與方法普遍圍繞「規則場景文字」與「固定模板輸入」建構，難以應對 WordArt 高度自訂的字體、紋理與版面，因此表現受限。WATER 從兩端突破：數據方面構建 2M 規模合成數據集 WATER-S，模型方面提出支援任意形狀輸入的 STR 基線 WATERec。

WATER-S 數據集設計包含兩個互補子集：WATER-T（1M）由 SynthWordArt 渲染引擎透過 11,250 款藝術字體生成，提供高可控的精準合成樣本；WATER-Z（1M）則結合 Qwen3-VL 提示詞挖掘與 Z-Image 影像合成，覆蓋更真實且多元的場景。再搭配 WATER-R（3.2M，整理自 Union14M-L、WordArt、WAS-R 並去重）作為真實訓練集，整體數據規模較既有藝術文字數據提升數百倍。

WATERec 模型架構採用類似 NaViT 的編碼器搭配 RoPE，支援任意形狀輸入，再以自回歸解碼器處理複雜版面，從結構上打破固定模板 STR 的瓶頸。在 WordArt-Bench 上以 90.40% 準確率成為首個突破 90% 的結果，大幅超越 HunyuanOCR（81.54%）及其他通用或 OCR 專用視覺語言模型。

使用方法需配合外部資源：WATERec 訓練與推理程式碼位於 OpenOCR-WATERec 倉庫；模型權重、數據集（包含 WordArt-Bench）、273K 條 WATER-Z 提示詞模板與 112K 款藝術字體皆託管於 HuggingFace。複製本倉庫後，可透過 SynthWordArt/ 目錄取得 WATER-T 渲染流程，prompts/ 目錄提供 caption_mining.py 與 fewshot_expansion.py 兩階段提示詞挖掘，Z-Image/gen_zimage.py 支援多 GPU 並行生成，eval_vlm/ 則整合 Qwen3-VL-8B、InternVL3.5-8B、GOT-OCR2.0、DeepSeek-OCR-2、PaddleOCR-VL、PP-OCRv5、HunyuanOCR、Nemotron-VL-8B 等基線評測腳本。

重點摘要：
– 復旦大學與騰訊 WeChat Vision 團隊合作，獲 ECCV 2026 收錄
– WATER-S 含 WATER-T（字體渲染）與 WATER-Z（VLM + 影像合成）兩條合成路徑
– WATERec 以任意形狀編碼器 + 自回歸解碼器突破固定模板限制
– WordArt-Bench 90.40% 為首次突破九成，超越 HunyuanOCR 等專用 VLM
– 所有模型、數據、字體與提示詞均開源於 HuggingFace

從評估對照來看，不論是通用 VLM、OCR 專用 VLM 或一般 OCR 工具，在 WordArt-Bench 上皆明顯落後於 WATERec，反映藝術文字仍是當前多模態模型的弱項。對從事海報辨識、品牌素材處理、廣告設計自動化，以及需要處理高度風格化文字的團隊而言，這套數據＋模型組合是目前少數針對該場景強化的開源方案。

GitHub： https://github.com/YesianRohn/WATER

模型： https://huggingface.co/Yesianrohn/WATERec-Models

Categories: 開源, 騰訊, DeepSeek, Image, 多模態模型, 模型, 深度學習, 視覺模型, 中國, 北京大學, Dataset 數據集

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 北京大學, 清華大學, 框架, 上海人工智慧實驗室

ReMMDBench-Agent 驗證多模態假資訊

2026 年 6 月 26 日

Repository image for DANG-ai/ReMMDBench-Agent

開發團隊來自上海交通大學、上海人工智慧實驗室、清華大學、中南大學，以及中國電子科技集團第十五研究所，核心作者把 ReMMDBench 同 ReMMD-Agent 一起公開，方向很明確：用較接近真實網絡帖文的方式，檢查圖文混合內容中的 misinformation。這個 GitHub 項目屬於研究原型加評測代碼集合，主要用來重現三個 multimodal misinformation detection agent 系統在 ReMMDBench 上的結果，並比較它們怎樣做判斷。

現有做法常把多模態假資訊檢測收窄成單圖、二分類，或者一次過把整段文字與圖片丟給模型判斷；作者認為這種 fixed-pass 判斷方式難以處理長敘事、多張圖片、跨語言與部分真實內容。這個項目因此提出一套以 ReMMDBench 為核心的 agentic 驗證路線：Baseline 1 是 3-stage MMD-Agent，Baseline 2 是 MCTS-based 5-verdict + 8-taxonomy agent，而主系統 ReMMD-Agent 則用 atomic decomposition、RAG（Retrieval-Augmented Generation）與 multi-expert judge，把結論建立在可追蹤的證據狀態上。

跟同類方法相比，ReMMD-Agent 的取向不是只追求一次答中，而是先把帖文拆成 atomic claims、image observations、text-image bindings，再檢索 multimodal evidence，之後重用 persistent memory，減少重複工具呼叫。這種設計的取捨很清楚：流程更長、配置更多，但換來較好的可解釋性，也更適合處理 five-way L1 veracity labels、8 個 L2 distortion labels，以及 multilingual multi-image 場景。

安裝與測試思路也相當具體。三個子項目各自有 requirements.txt、設定檔與啟動腳本；要先把資料根目錄指向 ReMMDBench，再在 .yaml 或 .env 內填入模型端點與金鑰佔位內容，之後可先用 mmd-agent/test_qwen.py 這類健康檢查確認後端可回應，再跑各自的 evaluation scripts。倉庫已附上 Qwen-family 後端的保存結果與 artifacts，包含 Qwen 4B、9B、27B，亦明確標示 temperature = 0.0、LLM caching 與預建 RAG index，方便重現 headline numbers，而不必由零開始建立整套流程。

主系統：ReMMD-Agent，核心結構是 atomic decomposition + RAG + multi-expert judge
對照系統：3-stage MMD-Agent 與 MCTS-based t2-agent，方便看不同 agent 設計的取捨
資料與標註：ReMMDBench 有 500 samples、2,756 images、5-way L1 與 8 類 L2 標籤
相關模型：Qwen-family 4B / 9B / 27B；首頁亦提到 GPT-5.2 曾用於 leaderboard
較適合的情境：研究團隊、事實查核流程設計者、多語內容審核與 agent benchmark 比較

性能方面，倉庫重點是重現論文中三套系統在 500-sample ReMMDBench 的結果，而不是提供一個即裝即用的線上服務。它較適合拿來做 benchmark 驗證、分析不同 agent pipeline 的表現，或者研究 evidence reuse 對多模態判斷有幾大幫助；要直接放進產品，仍要自行補回資料接入、服務封裝與更穩定的推理基建。

GitHub： https://github.com/DANG-ai/ReMMDBench-Agent

項目主頁： https://dang-ai.github.io/ReMMD/

Categories: Qwen, Agentic, API, Image, 工具, 線上服務, Python, RAG, 多模態模型, 安全, 庫, 深度學習, 視覺模型, 中國, 清華大學, 框架, 上海人工智慧實驗室

DiffusionBench：擴散模型評測框架

2026 年 6 月 26 日

這是一個針對擴散 Transformer（Diffusion Transformers, DiT）研究的基準測試項目（benchmark），核心目的是在 ImageNet 與文字生成圖像（T2I）兩種場景下，對擴散模型進行統一的訓練與橫向評測。舊有做法普遍以 ImageNet 的類別條件生成（class-conditional generation）為單一評測標準，作者批評這種範式已經難以反映生成模型的真實進展，因為 T2I 雖然更貼近實用，卻常被視為過於昂貴或不便而跳過。為此，項目推出 NanoGen 統一訓練框架，並以 DiffusionBench 重新組織評測結構，把 ImageNet 與 T2I 納入同一比較基準。

統一訓練介面：NanoGen 只需約 12 行的配置更改，就能在 ImageNet 與 T2I 之間切換。
跨任務方法比較：系統性收錄並比較 25 種 DiT 方法。
多維度評測指標：涵蓋 FID 等多項 ImageNet 與 T2I 指標。
研究成果已收錄 arXiv 論文（2606.24888），對應的模型權重同步上載至 HuggingFace。
目前版本為 v0.1，作者明確標示仍處於初步階段，並積極招募社群貢獻者。

與單獨的 ImageNet 評測相比，DiffusionBench 的關鍵差異在於同時納入 T2I 任務，藉此揭示方法排名在兩類任務之間並無強相關（no strong correlation），這意味著 ImageNet 上的 FID 提升未必代表 T2I 生成品質同步改善。框架支援 VAE、RAE 與 Pixel space 等不同潛在空間（latent space）的訓練，技術上整合了 REPA-E 與 iREPA 等對比方法，適合 DiT 研究團隊、生成式模型工程師，以及關心基準公正性的學術工作者使用。受惠最大的，是需要評估自家方法在多任務泛化能力的團隊，以及希望避免單一指標誤導的審稿人與研究者。

GitHub： https://github.com/End2End-Diffusion/diffusion-bench

項目主頁： https://end2end-diffusion.github.io/diffusion-bench/

Model： https://huggingface.co/diffusion-bench/diffusion-bench

Categories: 開源, Image, txt2img, 影像模型, 模型, 模型訓練, 深度學習, 框架

Qwen-AgentWorld：用語言模型模擬七大代理環境的世界模型

2026 年 6 月 26 日

Qwen-AgentWorld 是阿里 Qwen 團隊開源的語言世界模型（Language World Model），屬於模型與訓練框架類項目，核心任務是透過長鏈思維推理模擬代理（agent）在七大領域的環境動態，並為代理強化學習提供可擴展、可控的模擬環境。

現有做法普遍把世界模型視為代理訓練完成後的「後加配件」（post-hoc add-on），僅在需要時才引入環境模擬能力，這種範式限制了模擬品質與遷移效果。Qwen-AgentWorld 的差異在於從 CPT 階段起就把環境建模作為訓練目標，透過 CPT 注入環境知識、SFT 啟動下一狀態預測推理、RL 以混合獎勵機制銳化模擬保真度，最終在超過 1000 萬條真實互動軌跡上完成訓練。

這個項目同時釋出 Qwen-AgentWorld-35B-A3B（MoE 架構，總參數 350 億、激活 30 億、256K 上下文）以及 AgentWorldBench 評測基準，後者涵蓋 Tool Decathlon、Terminal-Bench 1.0/2.0、OSWorld-Verified 等九個基準，從五個維度以真實標籤評分世界模型品質。團隊亦提出兩種互補應用範式：作為解耦的環境模擬器支援大規模代理 RL，或作為統一代理基礎模型，以世界模型預訓練作為下游代理任務的暖身步驟。

重點摘要：

七大統一領域：MCP、Search、Terminal、SWE、Android、Web、OS，首次由單一語言模型覆蓋。
原生世界模型：環境建模從 CPT 階段即為訓練目標，非後加適配。
可泛化模擬器：支援零樣本遷移到分布外環境（如 Claw Agent），並允許可控擾動與虛構世界構建。
代理基礎模型：單輪非代理軌跡上的 LWM RL 暖身，可遷移至多輪工具調用代理任務。
開源權重與基準：模型權重與 AgentWorldBench 均於 Hugging Face 與 ModelScope 釋出。

部署方面，模型可透過 Hugging Face 模型 ID 直接下載，或在無法存取 HF Hub 的環境下透過 ModelScope 配合 SGLang、vLLM 等框架載入。對於需要大量代理 RL 訓練數據的團隊，這個項目提供了一條以模擬取代部分真實環境互動的路徑，有助降低成本並提升可控性。

GitHub： https://github.com/QwenLM/Qwen-AgentWorld

Paper： https://arxiv.org/pdf/2606.24597

Categories: 開源, 阿里巴巴, Qwen, Agentic, MCP, 模型, 模型訓練, 深度學習, 世界模型, 框架

Page 1 of 4

1 2 3 4 Next »