Qwen-VLA 用單一模型打通機械人任務

Qwen-VLA 是一個把視覺、語言與動作整合起來的項目，目標是用同一套模型處理機械人操作、導航，以及軌跡預測。過往很多 embodied intelligence 系統都只針對單一任務或單一機械人設計，結果是能力分散，換場景、換任務或換機體後便難以沿用。

這個項目以 Qwen3.5 Vision-Language Model 為基礎，再加入 DiT-based action decoder，令模型不只看圖和理解文字，還能產生連續動作與軌跡。研究團隊亦加入 embodiment-aware prompt conditioning，用機械人專屬文字描述去標示當前機體與控制方式，讓同一模型可支援多種 robot embodiments。

核心概念是把不同類型資料一同訓練，包括 robotics manipulation trajectories、human egocentric demonstrations、synthetic simulation data、vision-and-language navigation data，以及 auxiliary vision-language data。對開發者來說，這代表項目不是只做問答或只做控制，而是把 manipulation、navigation 與 trajectory prediction 放進同一個 action-and-trajectory prediction 框架。

重點可先看以下幾項：
– 用單一 Vision-Language-Action Model 處理多類 embodied 任務
– 同時支援文字回應、動作生成與軌跡生成
– 透過 embodiment-aware prompt conditioning 適配不同機械人平台
– 強調 out-of-distribution generalization，涵蓋光線、背景、物件配置與機體變化
– 適合研究通用機械人控制、跨任務遷移與多平台部署的人員

論文列出 Qwen-VLA-Instruct 在多個基準上有不錯表現，包括 LIBERO 97.9%、Simpler-WidowX 73.7%、RoboTwin-Easy/Hard 86.1/87.2%、R2R 的 69.0% OSR、RxR 的 59.6% SR；在真實世界 ALOHA 實驗亦錄得 76.9% average OOD success，在 DOMINO dynamic manipulation 有 26.6% zero-shot success rate。若你關注的是一個可橫跨任務、環境與 robot embodiments 的通用型項目，展示了統一式 Vision-Language-Action Modeling 的清晰方向。

Paper： https://arxiv.org/pdf/2605.30280