Qwen – Infer News

Qwen3‑TTS 開源語音合成

Qwen3‑TTS 由阿里雲的 Qwen 團隊開發的開源語音合成系列模型，專注於提供穩定、富有表現力，且能即時生成語音的功能。整個專案的核心目的在於讓開發者與使用者能夠自由設計語音、快速複製已有聲音，並且能根據指令調整語調、情感與說話速度。相較於市面上其他解決方案，Qwen3‑TTS 同時支援十種主要語言以及多種方言音型，涵蓋中文、英文、日文、韓文、德文、法文、俄文、葡文、西文、意譲等，能讓應用跨語系、跨文化的需求更容易實現。

在技術架構上，Qwen3‑TTS 研發了自己的 Qwen3‑TTS‑Tokeniser‑12Hz 編碼器，這個編碼器能把音訊壓縮成 12.5 Hz 的多本級碼，既保留語义內容，也捕捉細節的聲音特徵。這種設計讓模型在合成音訊時可以使用較輕量的因果卷積網路直接重建波形，降低了運算成本與延遲。相較於傳統的「語言模型＋DiT」流程，Qwen3‑TTS 完全貫通端到端的離散多本碼結構，省去了資訊瓶頸與串聯錯誤的問題，提升了整體的生成效率與品質。

模型本身分為四個主要版本，分別是 1.7 B 以及 0.6 B 兩個大小的基礎模型、以及兩個具備語音設計與客製音色功能的變體。小型版（0.6 B）版的模型在三秒內即可完成從使用者提供的音檔進行快速複製，亦可作為微調（Fine‑Tuning）其他模型的起點；較大的 1.7 B 版則在保留上述功能的同時，提供更多語音樣式與更細膩的情感控制。所有模型都已發布在 GitHub 與 ModelScope 平台，並以 Apache‑2.0 授權，讓社群可自由使用、修改。

開發者只需要安裝 qwen‑tts 套件或使用 vLLM 等推理框架，就能自動下載對應的權重模型。若網路環境較為受限，官方提供了手動下載的指令，可讓使用者把模型權重下載到本機資料夾。更重要的是，Qwen3‑TTS 具備即時流式合成的能力，只要輸入一個字符，就能在 97 毫秒以內產出第一段語音，這使得它非常適合即時對話、虛擬助理或直播互動等需要低延遲的應用情境。模型同時支援多種語音控制方式，例如依照文字說明生成特定音色、根據自然語言描述調整語調與情感，甚至在同一段文字中混合多種音色，形成獨特的聲音組合。

總體而言，Qwen3‑TTS 不僅提供高品質的語音合成，更在多語系支援、流式生成、指令式語音控制與開源授權上提供了完整且可直接使用的解決方案。無論是想要在產品中加入自然的語音回覆、想要快速製作示範音檔、或是需要進行語音克隆與客製化設計的研究者，都能從這個開源項目中快速取得所需的工具與模型，並且能輕鬆將其整合到自己的開發流程中。

Categories: 阿里巴巴, Qwen, 語音, 開源

詳細 Qwen3+RAGFlow 本地部署

【有手就会】20分钟轻松学会搭建本地知识库，全网最详细的Qwen3+RAGFlow本地部署及个人知识库搭建教程，全程干货，零基础也能学会！

Categories: Qwen, RAG, 教學, 編程, 開源

CoV 提升視覺語言的空間推理能力

CoV (Chain-of-View Prompting for Spatial Reasoning) 可以用於各種需要在複雜三維環境中進行精確空間理解的場景。例如 VR 和 AR，CoV 可以幫助系統更好地理解和響應用戶在虛擬環境中的查詢，提供更自然、更沉浸式的體驗。在自動駕駛領域，CoV 可以增強車輛對周圍環境的理解能力，提高其在複雜道路條件下的導航和決策能力。

CoV 提出一種創新方法，專門針對在三維環境中的具身問答（Embodied Question Answering, EQA）問題。傳統的視覺語言模型（Vision-Language Models, VLMs）受限於固定的輸入視角，這使得它們在推理過程中無法動態地獲取與問題相關的上下文信息，進而限制了複雜空間推理的能力。CoV 通過引入一種免訓練、僅在測試階段運行的框架來解決這一問題，該框架能夠讓 VLMs 變成主動的視角推理器。

Categories: Qwen, 視覺模型, 開源

VideoAuto-R1 一次思考，兩次回答視頻推理

VideoAuto-R1 採用了一種「當需要時才推理」的策略。這種策略在訓練階段遵循「一次思考，兩次回答」的範式，即模型首先生成一個初步答案，然後進行推理，最後輸出一個經過審核的答案。這兩個答案都通過可驗的獎勵進行監督。在推理階段，模型使用初步答案的置信度分數來決定是否繼續進行推理過程。Meta 在 VideoAuto-R1 專案中扮演研究合作與工程貢獻角色。

1. 視頻問答系統：VideoAuto-R1 可以應用於各種視頻問答任務，提高系統在理解和回答視頻內容方面的準確性，同時降低計算成本。

2. 教育與培訓：在線教育平台可 leverage 這種技術來提供更智能的學習助手，幫助學生理解複雜的視頻內容，並根據需要提供針對性的解釋。

3. 互動式媒體：增強視頻內容的互動性，例如通過自動推理來回答用戶關於視頻內容的問題。

4. 智能監控：在安全監控系統中，VideoAuto-R1 可以用來分析和解釋監控視頻中的活動，從而提高安全性和監控效率。

5. 自動化客戶服務：在客服領域，該技術可以幫助自動化回答客戶關於產品或服務視頻的問題，提供更個性化的客戶體驗。

6. 內容創作與編輯：視頻創作者可以利用這種技術來自動化地生成視頻描述和解釋，從而簡化內容創作和編輯過程。

7. 多模態學習和研究：VideoAuto-R1 作為一種多模態理解技術，可以促進自然語言處理和電腦視覺領域的研究。

Categories: Qwen, 視覺模型, 開源

Qwen3-VL-Embedding-2B

「Qwen3-VL-Embedding-2B」是 Qwen 家族中最新的多模態信息檢索和交叉模態理解模型。可在同一向量空間做相似度計算，方便做「跨模態檢索」與「圖文混合檢索」。

Embedding 維度可控：預設最高 2048 維，但支援使用者自訂輸出維度 64–2048，可依儲存成本與下游模型需求調整（例如 256/512 維用於向量 DB）。

模型規模與 context length：2B 參數，context 長度 32k，適合放在邊緣或低資源伺服器上，同時能處理長文檔、多 frame 影片描述等輸入。

模型	Gemini Multimodal Embeddings	Qwen3-VL-Embedding (2B/8B)
模態支援	文字、圖片、video（含 audio 軌道，1 FPS + 音頻特徵）	文字、圖片、截圖、video（多 frame），混合任意組合
語言	多語（英文主導）	30+ 語言，強中文/多語對齊
維度	固定 1408	可自訂 64–4096（預設 2048）
Context	Video 上限 1-3 小時	32K tokens（長影片多 frame）
開源	否（API）	是（HF/GitHub，Apache 2.0）
成本	$0.0001/1000 chars（text），更高 video/image	免費本地，GPU 硬體成本
整合	Vertex AI / Gemini API，易 scale	Transformers/vLLM，量化友好

1. 圖像和文本檢索系統：可以用於基於文本描述搜索相關圖像，或者基於圖像內容搜索相關文本描述。
2. 視頻推薦平台：將視頻和文本描述映射到共享表示空間，以提高視頻推薦的準確性。
3. 多模態內容管理：對於包含圖像、文本和視頻的大型數據集，可以進行有效的內容聚類和組織。
4. 社交媒體分析：分析和理解跨文本和圖像的用戶生成內容。
5. 教育和培訓：藉助於視覺問答和多模態學習材料，提供個性化的學習體驗。

Categories: 阿里巴巴, Qwen, Embedding, 多模態模型, 視覺模型, 開源