框架 Archives - InferNews

DanceOPD：多能力影像生成的場景蒸餾框架

2026 年 6 月 27 日

DanceOPD 是一個針對 flow-matching 模型設計的 on-policy 生成場景蒸餾框架，目標是讓單一影像生成模型同時具備文字生成影像（T2I）、局部編輯與全域編輯等多種能力。核心做法是將每個來源能力視為一個速度場（velocity field），然後在學生模型自己產生的 on-policy 狀態上查詢這個場景，再以簡單的速度 MSE 損失進行訓練。

這套方法最值得留意的差異在於 hard-routed 設計：每個樣本只被路由到一個被選中的能力場，並且只查詢一個低噪聲的語義側狀態（semantic query），避免了對多個來源場景做平均而模糊語義身份的問題。同一套框架也能吸收 operator-defined fields，例如 classifier-free guidance，讓引導機制自然融入訓練。

在評估方面，DanceOPD 報告了多項指標，包含 GEditBench-avg 在 T2I + Edit Composition 上達到 5.347、GenEval Overall 達到 0.849 同時保持 T2I 表現，以及 Local + Global Edit Composition 的 5.498、CFG 吸收診斷中 5.833 的最佳值。

這項工作適合關注多能力影像生成整合、蒸餾方法以及 flow-matching 模型研究的開發者與研究者。由於 Code 標示為「Soon」，目前尚未提供源碼或模型下載，因此暫無可對應的安裝或使用步驟可分享。

主要重點：

核心定位：flow-matching 模型的 on-policy 生成場景蒸餾框架
方法差異：hard routing 單一能力場景加單一低噪聲語義查詢，避免場景平均造成的語義模糊
支援能力：T2I、局部編輯、全域編輯，並能吸收 classifier-free guidance 等 operator-defined fields
評估數字：GenEval 0.849、GEditBench T2I+Edit 5.347、Local+Global 5.498
現有狀態：論文可在 arXiv 瀏覽，原始碼尚未公開

項目主頁： https://danceopd.github.io/

Paper： https://arxiv.org/pdf/2606.27377

Categories: 開源, 字節跳動, Image, Content Creator, txt2img, 影像模型, 模型, 教學, 模型訓練, 深度學習, 框架

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布，或先透過 arXiv 論文（2606.21661）與項目頁面（jackailab.github.io/Projects/UnityShots/）追蹤進度。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, LTX, 清華大學, 框架

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 北京大學, 清華大學, 框架, 上海人工智慧實驗室

ReMMDBench-Agent 驗證多模態假資訊

2026 年 6 月 26 日

Repository image for DANG-ai/ReMMDBench-Agent

開發團隊來自上海交通大學、上海人工智慧實驗室、清華大學、中南大學，以及中國電子科技集團第十五研究所，核心作者把 ReMMDBench 同 ReMMD-Agent 一起公開，方向很明確：用較接近真實網絡帖文的方式，檢查圖文混合內容中的 misinformation。這個 GitHub 項目屬於研究原型加評測代碼集合，主要用來重現三個 multimodal misinformation detection agent 系統在 ReMMDBench 上的結果，並比較它們怎樣做判斷。

現有做法常把多模態假資訊檢測收窄成單圖、二分類，或者一次過把整段文字與圖片丟給模型判斷；作者認為這種 fixed-pass 判斷方式難以處理長敘事、多張圖片、跨語言與部分真實內容。這個項目因此提出一套以 ReMMDBench 為核心的 agentic 驗證路線：Baseline 1 是 3-stage MMD-Agent，Baseline 2 是 MCTS-based 5-verdict + 8-taxonomy agent，而主系統 ReMMD-Agent 則用 atomic decomposition、RAG（Retrieval-Augmented Generation）與 multi-expert judge，把結論建立在可追蹤的證據狀態上。

跟同類方法相比，ReMMD-Agent 的取向不是只追求一次答中，而是先把帖文拆成 atomic claims、image observations、text-image bindings，再檢索 multimodal evidence，之後重用 persistent memory，減少重複工具呼叫。這種設計的取捨很清楚：流程更長、配置更多，但換來較好的可解釋性，也更適合處理 five-way L1 veracity labels、8 個 L2 distortion labels，以及 multilingual multi-image 場景。

安裝與測試思路也相當具體。三個子項目各自有 requirements.txt、設定檔與啟動腳本；要先把資料根目錄指向 ReMMDBench，再在 .yaml 或 .env 內填入模型端點與金鑰佔位內容，之後可先用 mmd-agent/test_qwen.py 這類健康檢查確認後端可回應，再跑各自的 evaluation scripts。倉庫已附上 Qwen-family 後端的保存結果與 artifacts，包含 Qwen 4B、9B、27B，亦明確標示 temperature = 0.0、LLM caching 與預建 RAG index，方便重現 headline numbers，而不必由零開始建立整套流程。

主系統：ReMMD-Agent，核心結構是 atomic decomposition + RAG + multi-expert judge
對照系統：3-stage MMD-Agent 與 MCTS-based t2-agent，方便看不同 agent 設計的取捨
資料與標註：ReMMDBench 有 500 samples、2,756 images、5-way L1 與 8 類 L2 標籤
相關模型：Qwen-family 4B / 9B / 27B；首頁亦提到 GPT-5.2 曾用於 leaderboard
較適合的情境：研究團隊、事實查核流程設計者、多語內容審核與 agent benchmark 比較

性能方面，倉庫重點是重現論文中三套系統在 500-sample ReMMDBench 的結果，而不是提供一個即裝即用的線上服務。它較適合拿來做 benchmark 驗證、分析不同 agent pipeline 的表現，或者研究 evidence reuse 對多模態判斷有幾大幫助；要直接放進產品，仍要自行補回資料接入、服務封裝與更穩定的推理基建。

GitHub： https://github.com/DANG-ai/ReMMDBench-Agent

項目主頁： https://dang-ai.github.io/ReMMD/

Categories: Qwen, Agentic, API, Image, 工具, 線上服務, Python, RAG, 多模態模型, 安全, 庫, 深度學習, 視覺模型, 中國, 清華大學, 框架, 上海人工智慧實驗室

DiffusionBench：擴散模型評測框架

2026 年 6 月 26 日

這是一個針對擴散 Transformer（Diffusion Transformers, DiT）研究的基準測試項目（benchmark），核心目的是在 ImageNet 與文字生成圖像（T2I）兩種場景下，對擴散模型進行統一的訓練與橫向評測。舊有做法普遍以 ImageNet 的類別條件生成（class-conditional generation）為單一評測標準，作者批評這種範式已經難以反映生成模型的真實進展，因為 T2I 雖然更貼近實用，卻常被視為過於昂貴或不便而跳過。為此，項目推出 NanoGen 統一訓練框架，並以 DiffusionBench 重新組織評測結構，把 ImageNet 與 T2I 納入同一比較基準。

統一訓練介面：NanoGen 只需約 12 行的配置更改，就能在 ImageNet 與 T2I 之間切換。
跨任務方法比較：系統性收錄並比較 25 種 DiT 方法。
多維度評測指標：涵蓋 FID 等多項 ImageNet 與 T2I 指標。
研究成果已收錄 arXiv 論文（2606.24888），對應的模型權重同步上載至 HuggingFace。
目前版本為 v0.1，作者明確標示仍處於初步階段，並積極招募社群貢獻者。

與單獨的 ImageNet 評測相比，DiffusionBench 的關鍵差異在於同時納入 T2I 任務，藉此揭示方法排名在兩類任務之間並無強相關（no strong correlation），這意味著 ImageNet 上的 FID 提升未必代表 T2I 生成品質同步改善。框架支援 VAE、RAE 與 Pixel space 等不同潛在空間（latent space）的訓練，技術上整合了 REPA-E 與 iREPA 等對比方法，適合 DiT 研究團隊、生成式模型工程師，以及關心基準公正性的學術工作者使用。受惠最大的，是需要評估自家方法在多任務泛化能力的團隊，以及希望避免單一指標誤導的審稿人與研究者。

GitHub： https://github.com/End2End-Diffusion/diffusion-bench

項目主頁： https://end2end-diffusion.github.io/diffusion-bench/

Model： https://huggingface.co/diffusion-bench/diffusion-bench

Categories: 開源, Image, txt2img, 影像模型, 模型, 模型訓練, 深度學習, 框架

CF-World 評測：揭穿文生圖模型的「歸納火雞」盲點

2026 年 6 月 26 日

CF-World 是一個專門針對文生圖（text-to-image, T2I）模型的基準測試與研究原型，用以判斷模型在面對違反常識的指令時，到底是在推理，還是僅僅複製訓練數據中的高頻模式。現有的 T2I 模型在日常語境下表現出色，但只要物理法則被刻意改寫，例如要求它們生成「重力反轉」或「光線反向折射」的畫面，便會出現明顯崩潰。CF-World 採用三層遞進設計來暴露這種落差：L1 為事實生成，要求模型按真實世界知識作畫；L2 為顯式反事實（Explicit Counterfactual），同時提供反事實前提與指定的視覺結果，測試模型能否依指令調整；L3 為隱式反事實（Implicit Counterfactual），只給出反事實條件，要求模型自行推導應有的視覺呈現，從而考驗真正的因果推演能力。

為了量化這種落差，項目引入兩項指標：PRR（Prior Resistance Rate，先驗抵抗率）衡量模型擺脫既定視覺慣性的能力，RRR（Reasoning Retention Rate，推理保留率）則檢驗模型在多步驟指令下能否維持邏輯連貫性。儲存庫還包含因果解耦（Causal Decoupling）、屬性解耦（Attribute Decoupling）與去範式化（De-nominalization, De-norm）三條專門評測線，協助研究者區分失敗究竟源自因果變量無法分離，還是源自語言先驗的「概念鎖定」。

在評估對象方面，CF-World 涵蓋 FLUX.2-dev、Qwen-image、Nano Banana 等近期模型，結果顯示 L1 表現良好的模型在 L3 場景中普遍出現一致性急劇下降，說明高維統計先驗正在壓制真正的因果推理。代碼庫結構清晰：eval_questions 收錄預先生成的評測題目，prompt 存放基礎提示詞與反事實規則，scripts 則涵蓋題目生成及基於 VLM 的自動評分（支援 Gemini 與 Qwen3-VL）。對從事多模態模型評測、視覺推理研究或關心模型安全邊界的團隊而言，這個基準提供了一個可重現且分層細緻的測試平台，有助於定位「模型究竟卡在哪個環節」。

📂 Repository Structure

The repository is organized into prompts, pre-generated evaluation questions, and execution scripts:

├── eval_questions/        # Pre-generated evaluation questions (categorized by discipline)
│   ├── physics/           # Physics sub-disciplines (Astronomy, Mechanics, etc.)
│   └── ...
├── prompt/                # Raw base prompts and counterfactual rules
│   ├── physics/
│   └── ...
└── scripts/               # Core execution scripts
    ├── generate_eval/     # Scripts to generate evaluation questions
    │   ├── gemini.py      # Generates standard CF-World questions via Gemini
    │   └── rule_decouple.py # Generates questions for the Causal Decoupling experiment
    └── score/             # Automated VLM-based scoring scripts
        ├── gemini.py      # Standard multi-dimensional scoring using Gemini
        ├── qwen3vl-235b.py# Standard multi-dimensional scoring using Qwen3-VL
        ├── rule_decouple.py # Scoring for the Causal Decoupling experiment
        ├── attribute_decouple.py # Scoring for the Attribute Decoupling experiment
        └── denorm.py      # Scoring for the De-nominalization (De-norm) experiment

GitHub： https://github.com/jylei16/CF-World

項目主頁： https://jylei16.github.io/CF-World.github.io/

Paper： https://arxiv.org/pdf/2606.24548

Categories: 開源, 阿里巴巴, 香港, 香港中文大學, Image, txt2img, 安全, 提示詞, 框架, 上海人工智慧實驗室

MobileForge：手機 GUI Agent 訓練新路線

2026 年 6 月 26 日

MobileForge 是一個用來調整 mobile GUI agents 的研究型訓練框架。它主要解決手機操作代理往往要靠人工寫任務、示範或獎勵標籤，成本高又難快速轉去新 App 的問題。

常用做法 human-written tasks、demonstrations 或 reward labels 去訓練，作者認為這種固定範式有兩個限制：生成的任務未必貼近目標 App，rollout 只得到稀疏成敗訊號，也很難轉成可重用的步驟級學習訊號。MobileForge 的處理方式是把目標 App 的真實互動交給 MobileGym，先做探索、抽取 executable curricula，再用 HiFPO 把 hints、hierarchical trajectory feedback 和 step-level GRPO training 串成一個不用任務標註的調整流程。

這個取向不是單靠更大模型硬推成績，而是重新整理資料來源與訓練單位：任務來自 target-app interaction，回饋不只看最後成功與否，還會拆成 outcome labels、process feedback 和 corrective hints。代價也很明顯，整個流程依賴真實 Android app 互動環境，部署與測試較像研究實驗管線，而不是裝好即用的消費級工具。

根據項目較合理的理解方式是：先取用作者釋出的 codebase、HuggingFace models、datasets 與 benchmark results，再在 Android 任務環境重跑 exploration、rollout、training、evaluation 幾個部分。它較適合做 mobile agent 研究、行動自動化、GUI policy optimization 的團隊，也適合想比較 annotation-free adaptation 與傳統人工標註流程差異的人。

類型定位：研究型框架，核心是 annotation-free adaptation
方法骨幹：MobileGym 負責探索與任務生成，HiFPO 負責回饋轉訓練訊號
已公開模型：GUI-Owl-1.5-8B、Qwen3-VL-8B 的 MobileForge 版本
結果重點：GUI-Owl-1.5-8B 在 AndroidWorld 達到 67.24% Pass@1、77.59% Pass@3；MobileWorld 為 41.03% SR
取捨：減少人工標註依賴，但需要較完整的互動環境與實驗流程支持

MobileForge 同時展示 in-domain AndroidWorld adaptation 與 out-of-domain MobileWorld GUI-only generalization，表示它不只是在單一資料分佈內調參。對想建立可遷移手機代理能力的團隊來說，這個項目提供的價值不只是模型 checkpoint，還包括一套如何把真實 App 操作痕跡轉成訓練循環的具體方法。

GitHub： https://github.com/kwai/MobileForge

項目主頁： https://mobile-forge.github.io/

Model： https://huggingface.co/collections/lgy0404/mobileforge-models

Categories: 開源, 阿里巴巴, Qwen, Agentic, 工具, 模型, 模型訓練, 清華大學, 框架, Dataset 數據集

Qwen-AgentWorld：用語言模型模擬七大代理環境的世界模型

2026 年 6 月 26 日

Qwen-AgentWorld 是阿里 Qwen 團隊開源的語言世界模型（Language World Model），屬於模型與訓練框架類項目，核心任務是透過長鏈思維推理模擬代理（agent）在七大領域的環境動態，並為代理強化學習提供可擴展、可控的模擬環境。

現有做法普遍把世界模型視為代理訓練完成後的「後加配件」（post-hoc add-on），僅在需要時才引入環境模擬能力，這種範式限制了模擬品質與遷移效果。Qwen-AgentWorld 的差異在於從 CPT 階段起就把環境建模作為訓練目標，透過 CPT 注入環境知識、SFT 啟動下一狀態預測推理、RL 以混合獎勵機制銳化模擬保真度，最終在超過 1000 萬條真實互動軌跡上完成訓練。

這個項目同時釋出 Qwen-AgentWorld-35B-A3B（MoE 架構，總參數 350 億、激活 30 億、256K 上下文）以及 AgentWorldBench 評測基準，後者涵蓋 Tool Decathlon、Terminal-Bench 1.0/2.0、OSWorld-Verified 等九個基準，從五個維度以真實標籤評分世界模型品質。團隊亦提出兩種互補應用範式：作為解耦的環境模擬器支援大規模代理 RL，或作為統一代理基礎模型，以世界模型預訓練作為下游代理任務的暖身步驟。

重點摘要：

七大統一領域：MCP、Search、Terminal、SWE、Android、Web、OS，首次由單一語言模型覆蓋。
原生世界模型：環境建模從 CPT 階段即為訓練目標，非後加適配。
可泛化模擬器：支援零樣本遷移到分布外環境（如 Claw Agent），並允許可控擾動與虛構世界構建。
代理基礎模型：單輪非代理軌跡上的 LWM RL 暖身，可遷移至多輪工具調用代理任務。
開源權重與基準：模型權重與 AgentWorldBench 均於 Hugging Face 與 ModelScope 釋出。

部署方面，模型可透過 Hugging Face 模型 ID 直接下載，或在無法存取 HF Hub 的環境下透過 ModelScope 配合 SGLang、vLLM 等框架載入。對於需要大量代理 RL 訓練數據的團隊，這個項目提供了一條以模擬取代部分真實環境互動的路徑，有助降低成本並提升可控性。

GitHub： https://github.com/QwenLM/Qwen-AgentWorld

Paper： https://arxiv.org/pdf/2606.24597

Categories: 開源, 阿里巴巴, Qwen, Agentic, MCP, 模型, 模型訓練, 深度學習, 世界模型, 框架

Page 1 of 13

1 2 3 … 13 Next »