阿里巴巴 – InferNews

Qwen3.6-Plus 專為 Agentic AI 設計的模型

Qwen3.6-Plus 顯著增強了模型的智能體（Agent）編程能力。無論是前端網頁開發，還是複雜的代碼倉庫級問題求解，Qwen3.6-Plus 均樹立了全新的業界標桿（SOTA）。此外，Qwen3.6-Plus 對世界的感知更加精准，多模態推理能力也更為敏銳。本次發佈直接回應了社區在 Qwen3.5-Plus 部署期間反饋的意見，為開發者生態提供了高度穩定可靠的基礎，帶來真正具有變革意義的“氛圍編程”（Vibe Coding）體驗。

官方已提供 OpenClaw 整合，編輯 ~/.openclaw/openclaw.json

{
  "models": {
    "mode": "merge",
    "providers": {
      "bailian": {
        "baseUrl": "https://dashscope.aliyuncs.com/compatible-mode/v1",
        "apiKey": "DASHSCOPE_API_KEY",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.6-plus",
            "name": "qwen3.6-plus",
            "reasoning": true,
            "input": ["text", "image"],
            "contextWindow": 1000000,
            "maxTokens": 65536
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "bailian/qwen3.6-plus"
      },
      "models": {
        "bailian/qwen3.6-plus": {}
      }
    }
  }
}

Categories: 阿里巴巴, Agent, Vibe Coding, OpenClaw, 中國

Qwen3.5-Omni 多模態模型

Qwen3.5-Omni 是 Qwen 最新一代全模態大模型，支持文本、圖片、音頻、音視頻理解。結構上，Qwen3.5-Omni 的 Thinker 與 Talker 均採用 Hybrid-Attention MoE 架構。Qwen3.5-Omni 系列包含 Plus、Flash、Light 三種尺寸的 Instruct 版本，支持 256k 長上下文，模型支持超過 10 小時的音頻輸入及超過 400 秒的 720P（1 FPS）音視頻輸入。模型在海量文本、視覺以及超過 1 億小時的音視頻數據上進行原生多模態預訓練，該模型展現出卓越的全模態感知與生成能力。相比 Qwen3-Omni，Qwen3.5-Omni 多語言能力大大增強，能夠支持 113 種語種和方言的語音識別和 36 種語種和方言的語音生成。目前可通過 Offline API 和 Realtime API 進行體驗。

Qwen3.5-Omni Thinker 通過 Vision Encoder 和 AuT 接受視覺和音頻信號輸入，音視頻信號通過 interleave 交織並搭配 TMRoPE 編碼位置信息。Thinker 負責處理全模態信號並輸出文本，Talker 負責接收來自 Thinker 的多模態輸入以及文本輸出，進行 contextual 語音生成，語音表徵通過 Qwen3-Omni 提出的 RVQ 編碼來替代繁重的 DiT 運算。由於 chunk-wise 的流式輸入設計和流式 Talker 設計，整個模型可以進行 realtime interaction。不同於上一代 Qwen3-Omni 的雙軌 Talker 輸入，Talker 在輸入的組織方式上採用了 ARIA（自適應速率交錯對齊，Adaptive Rate Interleave Alignment）來動態對齊文本與語音單元，然後進行交錯排布，以避免由於文本與語音 Token 編碼效率差異導致的語音不穩定性，如漏讀、誤讀或數字發音模糊等問題。

Categories: 阿里巴巴, 多模態模型, 中國

LumosX 精準個性化數字人

LumosX 是一個針對 個性化多主體視訊生成（personalized multi‑subject video generation）提出的框架，重點在：

讓每個「身份」（例如不同人物）和其對應的屬性（年齡、外貌、服飾、動作等）有明確、精準的對齊；
用關係性注意力機制來強化「組內一致性」（同一組人物屬性一致）和「組間區分度」，減少多主體時的屬性糾纏（attribute entanglement）。

簡單說：一樣可以做 text‑to‑video + ID conditioning，但對多個人物、每個人對應什麼屬性，控制得更精細、更一致「可控視訊生成」與「多主體個性化內容」場景，例如多角色劇本生成、廣告、虛擬試衣、多角色 VTuber 相容演出等。

Categories: 阿里巴巴, 數字人, 視頻模型, 開源

Code2World 基於動作預測的 GUI 代理

Code2World 本身不是一個「GUI 設計工具」，但它可以用在「優化 GUI 設計」的流程裡，特別是幫你驗證設計是否好操作、是否容易出錯、是否符合使用者行為預期。Code2World 以靈活的方式顯著提升了下游導航的成功率，在 AndroidWorld 導航方面，其性能比 Gemini-2.5-Flash 提升了 9.5%。

它透過產生可渲染的程式碼來模擬下一個視覺狀態。實驗表明，Code2World-8B 在下一界面 UI 預測方面表現卓越，足以媲美 GPT-5 和 Gemini-3-Pro-Image 等競爭對手。(Huggingface 模型及數據集出現 404)(圖為預測介面的結果)

Categories: 阿里巴巴, Agent, 模型, 編程, 開源

Qwen3‑TTS 開源語音合成

Qwen3‑TTS 由阿里雲的 Qwen 團隊開發的開源語音合成系列模型，專注於提供穩定、富有表現力，且能即時生成語音的功能。整個專案的核心目的在於讓開發者與使用者能夠自由設計語音、快速複製已有聲音，並且能根據指令調整語調、情感與說話速度。相較於市面上其他解決方案，Qwen3‑TTS 同時支援十種主要語言以及多種方言音型，涵蓋中文、英文、日文、韓文、德文、法文、俄文、葡文、西文、意譲等，能讓應用跨語系、跨文化的需求更容易實現。

在技術架構上，Qwen3‑TTS 研發了自己的 Qwen3‑TTS‑Tokeniser‑12Hz 編碼器，這個編碼器能把音訊壓縮成 12.5 Hz 的多本級碼，既保留語义內容，也捕捉細節的聲音特徵。這種設計讓模型在合成音訊時可以使用較輕量的因果卷積網路直接重建波形，降低了運算成本與延遲。相較於傳統的「語言模型＋DiT」流程，Qwen3‑TTS 完全貫通端到端的離散多本碼結構，省去了資訊瓶頸與串聯錯誤的問題，提升了整體的生成效率與品質。

模型本身分為四個主要版本，分別是 1.7 B 以及 0.6 B 兩個大小的基礎模型、以及兩個具備語音設計與客製音色功能的變體。小型版（0.6 B）版的模型在三秒內即可完成從使用者提供的音檔進行快速複製，亦可作為微調（Fine‑Tuning）其他模型的起點；較大的 1.7 B 版則在保留上述功能的同時，提供更多語音樣式與更細膩的情感控制。所有模型都已發布在 GitHub 與 ModelScope 平台，並以 Apache‑2.0 授權，讓社群可自由使用、修改。

開發者只需要安裝 qwen‑tts 套件或使用 vLLM 等推理框架，就能自動下載對應的權重模型。若網路環境較為受限，官方提供了手動下載的指令，可讓使用者把模型權重下載到本機資料夾。更重要的是，Qwen3‑TTS 具備即時流式合成的能力，只要輸入一個字符，就能在 97 毫秒以內產出第一段語音，這使得它非常適合即時對話、虛擬助理或直播互動等需要低延遲的應用情境。模型同時支援多種語音控制方式，例如依照文字說明生成特定音色、根據自然語言描述調整語調與情感，甚至在同一段文字中混合多種音色，形成獨特的聲音組合。

總體而言，Qwen3‑TTS 不僅提供高品質的語音合成，更在多語系支援、流式生成、指令式語音控制與開源授權上提供了完整且可直接使用的解決方案。無論是想要在產品中加入自然的語音回覆、想要快速製作示範音檔、或是需要進行語音克隆與客製化設計的研究者，都能從這個開源項目中快速取得所需的工具與模型，並且能輕鬆將其整合到自己的開發流程中。

Categories: 阿里巴巴, Qwen, 語音, 開源

Qwen3-VL-Embedding-2B

「Qwen3-VL-Embedding-2B」是 Qwen 家族中最新的多模態信息檢索和交叉模態理解模型。可在同一向量空間做相似度計算，方便做「跨模態檢索」與「圖文混合檢索」。

Embedding 維度可控：預設最高 2048 維，但支援使用者自訂輸出維度 64–2048，可依儲存成本與下游模型需求調整（例如 256/512 維用於向量 DB）。

模型規模與 context length：2B 參數，context 長度 32k，適合放在邊緣或低資源伺服器上，同時能處理長文檔、多 frame 影片描述等輸入。

模型	Gemini Multimodal Embeddings	Qwen3-VL-Embedding (2B/8B)
模態支援	文字、圖片、video（含 audio 軌道，1 FPS + 音頻特徵）	文字、圖片、截圖、video（多 frame），混合任意組合
語言	多語（英文主導）	30+ 語言，強中文/多語對齊
維度	固定 1408	可自訂 64–4096（預設 2048）
Context	Video 上限 1-3 小時	32K tokens（長影片多 frame）
開源	否（API）	是（HF/GitHub，Apache 2.0）
成本	$0.0001/1000 chars（text），更高 video/image	免費本地，GPU 硬體成本
整合	Vertex AI / Gemini API，易 scale	Transformers/vLLM，量化友好