上海人工智慧實驗室 Archives

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 上海人工智慧實驗室, 框架, 清華大學, 北京大學

ReMMDBench-Agent 驗證多模態假資訊

2026 年 6 月 26 日

Repository image for DANG-ai/ReMMDBench-Agent

開發團隊來自上海交通大學、上海人工智慧實驗室、清華大學、中南大學，以及中國電子科技集團第十五研究所，核心作者把 ReMMDBench 同 ReMMD-Agent 一起公開，方向很明確：用較接近真實網絡帖文的方式，檢查圖文混合內容中的 misinformation。這個 GitHub 項目屬於研究原型加評測代碼集合，主要用來重現三個 multimodal misinformation detection agent 系統在 ReMMDBench 上的結果，並比較它們怎樣做判斷。

現有做法常把多模態假資訊檢測收窄成單圖、二分類，或者一次過把整段文字與圖片丟給模型判斷；作者認為這種 fixed-pass 判斷方式難以處理長敘事、多張圖片、跨語言與部分真實內容。這個項目因此提出一套以 ReMMDBench 為核心的 agentic 驗證路線：Baseline 1 是 3-stage MMD-Agent，Baseline 2 是 MCTS-based 5-verdict + 8-taxonomy agent，而主系統 ReMMD-Agent 則用 atomic decomposition、RAG（Retrieval-Augmented Generation）與 multi-expert judge，把結論建立在可追蹤的證據狀態上。

跟同類方法相比，ReMMD-Agent 的取向不是只追求一次答中，而是先把帖文拆成 atomic claims、image observations、text-image bindings，再檢索 multimodal evidence，之後重用 persistent memory，減少重複工具呼叫。這種設計的取捨很清楚：流程更長、配置更多，但換來較好的可解釋性，也更適合處理 five-way L1 veracity labels、8 個 L2 distortion labels，以及 multilingual multi-image 場景。

安裝與測試思路也相當具體。三個子項目各自有 requirements.txt、設定檔與啟動腳本；要先把資料根目錄指向 ReMMDBench，再在 .yaml 或 .env 內填入模型端點與金鑰佔位內容，之後可先用 mmd-agent/test_qwen.py 這類健康檢查確認後端可回應，再跑各自的 evaluation scripts。倉庫已附上 Qwen-family 後端的保存結果與 artifacts，包含 Qwen 4B、9B、27B，亦明確標示 temperature = 0.0、LLM caching 與預建 RAG index，方便重現 headline numbers，而不必由零開始建立整套流程。

主系統：ReMMD-Agent，核心結構是 atomic decomposition + RAG + multi-expert judge
對照系統：3-stage MMD-Agent 與 MCTS-based t2-agent，方便看不同 agent 設計的取捨
資料與標註：ReMMDBench 有 500 samples、2,756 images、5-way L1 與 8 類 L2 標籤
相關模型：Qwen-family 4B / 9B / 27B；首頁亦提到 GPT-5.2 曾用於 leaderboard
較適合的情境：研究團隊、事實查核流程設計者、多語內容審核與 agent benchmark 比較

性能方面，倉庫重點是重現論文中三套系統在 500-sample ReMMDBench 的結果，而不是提供一個即裝即用的線上服務。它較適合拿來做 benchmark 驗證、分析不同 agent pipeline 的表現，或者研究 evidence reuse 對多模態判斷有幾大幫助；要直接放進產品，仍要自行補回資料接入、服務封裝與更穩定的推理基建。

GitHub： https://github.com/DANG-ai/ReMMDBench-Agent

項目主頁： https://dang-ai.github.io/ReMMD/

Categories: Qwen, Agentic, API, Image, 工具, 線上服務, Python, RAG, 多模態模型, 安全, 庫, 深度學習, 視覺模型, 中國, 上海人工智慧實驗室, 框架, 清華大學

CF-World 評測：揭穿文生圖模型的「歸納火雞」盲點

2026 年 6 月 26 日

CF-World 是一個專門針對文生圖（text-to-image, T2I）模型的基準測試與研究原型，用以判斷模型在面對違反常識的指令時，到底是在推理，還是僅僅複製訓練數據中的高頻模式。現有的 T2I 模型在日常語境下表現出色，但只要物理法則被刻意改寫，例如要求它們生成「重力反轉」或「光線反向折射」的畫面，便會出現明顯崩潰。CF-World 採用三層遞進設計來暴露這種落差：L1 為事實生成，要求模型按真實世界知識作畫；L2 為顯式反事實（Explicit Counterfactual），同時提供反事實前提與指定的視覺結果，測試模型能否依指令調整；L3 為隱式反事實（Implicit Counterfactual），只給出反事實條件，要求模型自行推導應有的視覺呈現，從而考驗真正的因果推演能力。

為了量化這種落差，項目引入兩項指標：PRR（Prior Resistance Rate，先驗抵抗率）衡量模型擺脫既定視覺慣性的能力，RRR（Reasoning Retention Rate，推理保留率）則檢驗模型在多步驟指令下能否維持邏輯連貫性。儲存庫還包含因果解耦（Causal Decoupling）、屬性解耦（Attribute Decoupling）與去範式化（De-nominalization, De-norm）三條專門評測線，協助研究者區分失敗究竟源自因果變量無法分離，還是源自語言先驗的「概念鎖定」。

在評估對象方面，CF-World 涵蓋 FLUX.2-dev、Qwen-image、Nano Banana 等近期模型，結果顯示 L1 表現良好的模型在 L3 場景中普遍出現一致性急劇下降，說明高維統計先驗正在壓制真正的因果推理。代碼庫結構清晰：eval_questions 收錄預先生成的評測題目，prompt 存放基礎提示詞與反事實規則，scripts 則涵蓋題目生成及基於 VLM 的自動評分（支援 Gemini 與 Qwen3-VL）。對從事多模態模型評測、視覺推理研究或關心模型安全邊界的團隊而言，這個基準提供了一個可重現且分層細緻的測試平台，有助於定位「模型究竟卡在哪個環節」。

📂 Repository Structure

The repository is organized into prompts, pre-generated evaluation questions, and execution scripts:

├── eval_questions/        # Pre-generated evaluation questions (categorized by discipline)
│   ├── physics/           # Physics sub-disciplines (Astronomy, Mechanics, etc.)
│   └── ...
├── prompt/                # Raw base prompts and counterfactual rules
│   ├── physics/
│   └── ...
└── scripts/               # Core execution scripts
    ├── generate_eval/     # Scripts to generate evaluation questions
    │   ├── gemini.py      # Generates standard CF-World questions via Gemini
    │   └── rule_decouple.py # Generates questions for the Causal Decoupling experiment
    └── score/             # Automated VLM-based scoring scripts
        ├── gemini.py      # Standard multi-dimensional scoring using Gemini
        ├── qwen3vl-235b.py# Standard multi-dimensional scoring using Qwen3-VL
        ├── rule_decouple.py # Scoring for the Causal Decoupling experiment
        ├── attribute_decouple.py # Scoring for the Attribute Decoupling experiment
        └── denorm.py      # Scoring for the De-nominalization (De-norm) experiment

GitHub： https://github.com/jylei16/CF-World

項目主頁： https://jylei16.github.io/CF-World.github.io/

Paper： https://arxiv.org/pdf/2606.24548

Categories: 開源, 阿里巴巴, 香港, 香港中文大學, Image, txt2img, 安全, 提示詞, 上海人工智慧實驗室, 框架

BioMatrix 把生物序列與 3D 結構放進同一模型

2026 年 6 月 25 日

BioMatrix 是一個多模態 foundation model，建立在單一 decoder-only 架構之上。它要解決的問題，是把 molecules、proteins、1D sequences、3D structures 與自然語言放進同一套生成流程，令模型不只可讀取不同資料，也可用同一個 next-token prediction 目標處理與輸出它們。

現有 biological foundation models 通常分成兩類：一類可在共享目標下融合多模態，但多數只集中單一 entity type；另一類雖然覆蓋 molecules 與 proteins，卻常常欠缺顯式 structural modeling，或者依賴 adapter-based designs、external encoders、projection adapters 與 modality-specific output heads。BioMatrix 的取向很鮮明：直接把 SMILES、SELFIES、分子 3D、蛋白質序列、蛋白質 3D 同自然語言映射到 shared discrete token space，將「可讀」與「可生成」統一。

技術上，這個項目最值得留意的是 unified tokenization scheme。分子 3D 用改良版 MolStructTok，蛋白質 3D 用 GCP-VQVAE，並以 description-based embedding initialization 把新增 token 先對齊到 pretrained Qwen3 embedding space，再做 continual pretraining；這種做法比起後加模態接頭更完整，但訓練成本亦明顯更高，官方資料提到曾用 64 張 NVIDIA H100 GPUs 配合 LLaMA-Factory 訓練。

從 GitHub 與 Hugging Face 現有資訊看，這個項目較適合當作模型下載與研究評測基線使用，目前可找到 BioMatrix-1.7B-Base、BioMatrix-4B-Base、1.7B-SFT、4B-SFT 等版本。若你想測試，較合理的理解方式是先用已發佈模型做推理或任務比較，再按需要研究其 tokenizer，例如 MolStructTok 與 GCP-VQVAE；完整重訓對一般團隊門檻很高。

模型定位：多模態 biological foundation model，不是單一分子模型或單一蛋白質模型
核心差異：把 sequences、structures、language 放入同一 shared discrete vocabulary，而非靠外掛式模態模組拼接
相關模型：Qwen3 1.7B、Qwen3 4B、BioMatrix-1.7B-Base、BioMatrix-4B-Base、BioMatrix-1.7B-SFT、BioMatrix-4B-SFT
數據與訓練：涵蓋 text、PubChem、MolTextNet、UniRef50、RCSB PDB、UniProt/Swiss-Prot、AFDB 及 cross-entity interleaved data
表現指標：論文稱 instruction tuning 後涵蓋 80 個 tasks、6 個類別，當中 77 個 tasks 達到 state-of-the-art 或具競爭力

這個項目最受惠的會是做 drug discovery、protein engineering、生物資訊研究，或者想把文字問答、分子表示與結構生成放進同一工作流的團隊。它的野心很大，優勢是統一表示與任務泛化，限制則是部署與訓練門檻高，而且論文聲稱的廣泛表現仍要看你手上的任務是否屬於那 80 個測試範圍。

GitHub： https://github.com/QizhiPei/BioMatrix

項目主頁： https://huggingface.co/collections/QizhiPei/biomatrix

Paper： https://arxiv.org/pdf/2606.22138

Categories: 開源, Qwen, 3D, Embedding, Medical醫學, 多模態模型, 模型, 模型訓練, 中國, 上海人工智慧實驗室

S2L-PO 用小模型帶動大模型推理訓練

2026 年 6 月 16 日

這個項目來自跨校團隊，作者包括 Yiming Ren、Yiran Xu、Zicheng Lin 等人，通訊作者是 Yu Qiao 與 Ruihang Chu；所屬機構包括清華大學、上海人工智慧實驗室、香港中文大學及香港城市大學。以研究背景看，團隊明顯集中在大型語言模型訓練、推理強化學習與數學評測。

這是一個針對 Group Relative Policy Optimization（GRPO）訓練流程的研究型框架，目的是提升大型語言模型在推理任務上的 rollout diversity。現有做法多數靠提高 temperature，從 token-level randomness 增加變化，但論文指出這種固定範式容易在長推理鏈累積噪音，令軌跡變得不連貫。

S2L-PO（Small-to-Large Policy Optimization）換了一個角度：不用同一個大模型不停抽樣，而是找同家族的較小模型做 explorer，先產生一部分 qualitatively different reasoning trajectories，再讓大模型用混合 rollout 依照標準 GRPO 訓練。之後再用 progressive annealing，逐步由 small-model exploration 過渡到 fully on-policy learning，避免中途被小模型能力上限拖慢。

論文提供的結果頗有說服力。以 Qwen3-8B learner 配 1.7B explorer 為例，AIME24 Pass@1 由 15.0 提升到 23.8，AIME25 Pass@1 由 12.1 提升到 22.5；Qwen3-14B learner 配 4B explorer 亦比基線 GRPO 高。作者同時聲稱 rollout compute 還可降低，這點對訓練成本敏感的團隊尤其有吸引力。

如果你想測試這個項目，較合理的方式不是當作即裝即用工具，而是把它視為一個訓練策略參考：先看論文與公開模型設定，再比較自己手上的 GRPO 流程是否同樣受 rollout 同質化影響。硬件門檻不算低，資料列出 8B 模型約需 20 GB GPU 記憶體、14B 模型約需 32 GB，較適合研究人員、模型訓練工程師，或正在做數學推理微調的團隊。

核心判斷：這是模型訓練框架，不是一般聊天應用，重點在改善 GRPO 的探索品質
方法差異：由 token-level randomness 轉向 policy-level diversity，減少長鏈推理失真
主要創新：用較小同家族模型充當 natural explorers，再以 progressive annealing 收回大模型主導權
已列相關模型：Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B
適合場景：數學推理、可驗證獎勵訓練、想提升 RLVR 與 GRPO 收斂效率的項目

GitHub： https://github.com/qishisuren123/S2L-PO

Paper： https://arxiv.org/pdf/2605.30789

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, Agentic, 工具, Python, 模型, 模型訓練, 深度學習, 香港城市大學, 清華大學, 框架, 上海人工智慧實驗室

AHA-WAM：讓機械人決策一致的世界動作模型

2026 年 6 月 10 日

機械人學習操作技能時，往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上，導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM（Asynchronous Horizon-Adaptive World-Action Modeling）項目，就是要把兩者拆開來處理。

核心架構：雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer（DiT）分支：低頻的 video DiT 負責長程的視覺世界規劃，並利用滾動式 K/V 記憶體儲存可重用的上下文；高頻的 action DiT 則接收本體感覺訊號，向 video DiT 查詢所需上下文後，即時產生短時閉環動作區塊。兩者各司其職，避免互相拖累。

兩項關鍵訓練與推論機制

Horizon-Adaptive Offset Training（水平自適應偏移訓練）：讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
Observation-Guided Video-Context Routing（觀察引導的視覺上下文路由）：根據最新觀察調整快取的規劃上下文，無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中，AHA-WAM 達到 92.80% 平均成功率，且無需任何機械人數據預訓練；在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面，閉環頻率達 24.17Hz；經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz，相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略，以及追求高頻閉環控制的開發團隊；其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目： https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 上海人工智慧實驗室, 百度

OVO-S-Bench：考驗多模態模型的串流空間智能

2026 年 6 月 4 日

由清華大學、上海 AI 實驗室及北京航空航天大學共同推出的 OVO-S-Bench，是一套專門測試多模態大型語言模型 (Multimodal Large Language Models, MLLMs) 在連續影片中空間理解能力的基準。它針對機械人、AR 眼鏡和自動駕駛等需要「邊看邊想」的真實場景，要求模型根據問題時間點之前看到的畫面片段，推理出地點與佈局的變化，而非讀取整段影片。

題目來源相當多元，涵蓋室內導覽、第一視角活動、戶外場景、駕駛影片及帶有 3D 註解的環境，共 348 段影片。12 位具備 3D 視覺背景的標註員耗時約 804 小時撰寫及反覆核對每條題目，並透過「文字探針」和盲測覆核機制，剔除可憑題幹文字或常識直接答對的題目，確保難度真正來自空間理解。

題目分為四個難度層級，由當下畫面的瞬時感知 (Instantaneous Egocentric Perception)、追蹤離開視野的空間脈絡 (Spatiotemporal Context Tracking)、推測空間變化的生成式推理 (Generative Spatial Reasoning)，到建構全局拓樸地圖 (Global Topological Mapping)。在 38 個開源及商用模型的評估中，即使是表現最佳的 Gemini-3.1-Pro，分數仍比人類專家低 27 分 (59.2 比 86.6)，全局拓樸層級是最大的樽頸。

更值得留意的是，部分聲稱針對串流或空間任務微調的模型，表現反而不如其底層基座模型；而無根據的思維鏈 (chain-of-thought) 推理，往往會放大空間錯誤。這套基準為下一代串流空間模型提供了清晰且嚴謹的試金石。

重點摘要：

涵蓋 1,680 條人工撰寫題目及 348 段影片，總標註工時約 804 小時
設有問題時間點及證據區間，評估時模型只看到查詢前的影片片段
分為四個遞進難度層級，由瞬時感知到全局拓樸建圖
38 款 MLLM 中，Gemini-3.1-Pro 取得 59.2 分，人類專家為 86.6 分
串流及空間微調模型表現可能反遜於原底座模型

GitHub： https://github.com/InternLM/OVO-S-Bench

項目： https://internlm.github.io/OVO-S-Bench/

Categories: 開源, 清華大學, 框架, 上海人工智慧實驗室

AgentDoG：輕量級 AI agent 安全護欄

2026 年 5 月 30 日

AgentDoG 1.5 是一個針對 AI agent 安全與對齊的項目，重點不只是事後評分，而是把風險診斷、訓練同線上護欄串連起來。它面對的是長流程規劃、工具調用，以及跨環境互動帶來的新風險，特別貼近 OpenClaw、Codex 這類 agent 場景。

使用這個項目時，可先到 Hugging Face 或 ModelScope 找出以 AgentDoG- 開頭的 checkpoints，再按自己要做的是安全分類、訓練還是線上監察去配合相應模型。對一般團隊來說，最容易理解的用途是把它當成部署前的安全檢查器，或部署中的即時守門員。

這個項目的核心進展，在於它用更新過的 agent safety taxonomy 配合 ATBench family，把安全問題拆成更細緻的風險類型，再用大約 1k 訓練樣本建立輕量版本。公開資料亦提到它提供 0.8B、2B、4B、8B 等型號，並支援 agentic SFT 與 RL 訓練流程，令成本和擴展性較易控制。

支援 AgentDoG-0.8B、AgentDoG-2B、AgentDoG-4B、AgentDoG-8B 等版本
針對 ATBench-Pro、AT-Codex、AT-Claw 等基準作安全診斷
標準 8-core 機器可支援超過 10,000 個並行 agentic environments
可作 training-free online guardrail，用於即時安全監察與介入

資料顯示，AgentDoG 1.5 在多個基準上可接近，甚至部分情況超過 GPT-5.4、Gemini-3-Flash、Qwen3.5-397B、Qwen3-235B、Qwen3-Guard 等模型；其中 AgentDoG-4B 與 AgentDoG-4B-U 的結果較突出。不過不同數據集差異明顯，較穩妥的看法是：它在 agent 安全這個窄而深的任務上很有競爭力。

這個項目較適合正在做 AI agent、工具調用工作流、企業自動化，或需要把安全檢查放進部署流程的團隊。若你關心的不是聊天效果，而是 agent 會否在複雜環境中做錯事、越權或造成真實風險，AgentDoG 的定位就相當清晰。

GitHub： https://github.com/AI45Lab/AgentDoG

Categories: 開源, Agentic, 安全, 模型, 編程, 中國, 上海人工智慧實驗室

SpaceDG 評測：模糊影像下的空間推理

2026 年 5 月 25 日

SpaceDG是一個圍繞空間理解而設的評測項目，重點不在「清晰圖片答得幾好」，而是進一步檢查圖片出現模糊、低光、壓縮失真、天氣干擾或鏡頭變形之後，模型仲能否判斷方向、位置同物件關係。這點很貼近真實環境，因為不少現場影像本來就未必完美。

動手方式相當清楚：先按項目提供的 EASI 流程準備環境，再下載 SpaceDG-Bench 數據，之後便可把自己的多模態模型放入同一套評測框架比較表現。對研究或產品測試來說，這比單看一般 VQA 分數更有參考價值，因為它專門檢查模型在「睇得唔清楚」時會點樣失準。

這個項目的特別之處，在於它不是隨便加噪聲，而是把九種影像退化效果納入 3D Gaussian Splatting 渲染流程，令退化更接近物理成因。公開資料顯示，整體數據規模約有 100 萬組問答，覆蓋接近 1,000 個室內場景，另有人工驗證的 SpaceDG-Bench，包含 1,102 條問題、11類推理任務與超過 1 萬個 VQA 例子。

已評測 25 個開源及閉源模型，覆蓋面算廣
影像退化會普遍拉低空間推理表現，人類亦同樣受影響
退化監督微調可同時改善乾淨與受干擾圖片的表現
物件計數等細節感知，似乎比部分幾何推理更易受影響
文中提到的相關模型包括 GPT-5.4、Gemini-3.1-Pro、Qwen3.6Plus、InternVL 3.5-38B 及作者的 8B 版本

整體來看，SpaceDG最適合做模型評估、穩健性研究，以及需要處理監控、機械人、室內導航等場景的團隊。若你關心的不只是模型「最好情況」有幾叻，而是它在普通甚至較差畫面下是否仍可靠，這個項目相當值得留意；至於個別分數與完整設定，仍建議配合論文與基準頁面一併閱讀。

GitHub： https://github.com/Visionary-Laboratory/SpaceDG

Paper： https://arxiv.org/pdf/2605.22536

Categories: 開源, 框架, 上海人工智慧實驗室

Mega-ASR：嘈雜環境下更穩定的語音辨識

2026 年 5 月 22 日

Mega-ASR 是一個針對野外場景而設的語音辨識項目，重點放在「環境愈差，結果仍然可用」。一般模型在雜音、回音、收音距離遠，甚至傳輸中斷時，常會出現漏句、亂寫內容或直接沒有輸出；這個項目正是為了解決這類問題而來。

它的做法不是只靠單一噪音增強，而是把真實世界常見的聲學干擾拆成 7 類基本條件，再組合成 54 種複合場景，用約 260 萬筆訓練樣本去磨練模型。論文亦提到兩個關鍵方法：A2S-SFT 與基於 DG-WGPO 的強化學習，目標是令模型由聲音訊號一路更穩定地對應到語意，特別加強嚴重失真下的語意恢復與局部關鍵字重建。

想試這個項目，最直接是查看其 Hugging Face 權重、技術報告，以及配套的 Voices-in-the-Wild-2M 資料集和 Voices-in-the-Wild-Bench 基準。對開發語音輸入、會議轉錄、客服錄音整理，或戶外收音產品的人來說，這類資源比單看示範更有參考價值，因為可以用同一套基準比較不同模型在惡劣環境下的表現。

針對雜音、遠場、遮擋、回音、錄音瑕疵、電子失真與傳輸掉包而訓練
特色是減少 hallucination、空白輸出與整句遺漏
提供模型權重、資料集與基準，方便延伸評估
相關模型可留意 Qwen3-ASR-1.7B，以及 README 提到的其他開源與閉源強模型比較

表現方面，公開資料指出它在多個惡劣條件基準上優於先前強模型，例如在 VOiCES R4-B-F 與 NOIZEUS Sta-0 的錯誤率均有明顯下降；在複合聲學場景下，亦錄得超過 30% 的相對錯誤率改善。不過這些結果主要來自論文與項目提供的評估，使用時仍要看語言種類、音訊長度和部署資源是否配合你的場景。

整體來看，Mega-ASR 最值得留意的，不是它把乾淨語音分數推高多少，而是它把語音辨識帶回更接近現場的問題：收音差、環境亂、訊號不完整時，系統還能否交出可信文本。對需要「穩定比完美更重要」的項目，這個方向相當有吸引力。

GitHub： https://github.com/xzf-thu/Mega-ASR

Paper： https://arxiv.org/pdf/2605.19833

Categories: 開源, 模型, 語音, 上海人工智慧實驗室

Page 1 of 2

1 2 Next »