Mega-ASR:嘈雜環境下更穩定的語音辨識

Mega-ASR Logo

Mega-ASR 是一個針對野外場景而設的語音辨識項目,重點放在「環境愈差,結果仍然可用」。一般模型在雜音、回音、收音距離遠,甚至傳輸中斷時,常會出現漏句、亂寫內容或直接沒有輸出;這個項目正是為了解決這類問題而來。

它的做法不是只靠單一噪音增強,而是把真實世界常見的聲學干擾拆成 7 類基本條件,再組合成 54 種複合場景,用約 260 萬筆訓練樣本去磨練模型。論文亦提到兩個關鍵方法:A2S-SFT 與基於 DG-WGPO 的強化學習,目標是令模型由聲音訊號一路更穩定地對應到語意,特別加強嚴重失真下的語意恢復與局部關鍵字重建。

想試這個項目,最直接是查看其 Hugging Face 權重、技術報告,以及配套的 Voices-in-the-Wild-2M 資料集和 Voices-in-the-Wild-Bench 基準。對開發語音輸入、會議轉錄、客服錄音整理,或戶外收音產品的人來說,這類資源比單看示範更有參考價值,因為可以用同一套基準比較不同模型在惡劣環境下的表現。

  • 針對雜音、遠場、遮擋、回音、錄音瑕疵、電子失真與傳輸掉包而訓練
  • 特色是減少 hallucination、空白輸出與整句遺漏
  • 提供模型權重、資料集與基準,方便延伸評估
  • 相關模型可留意 Qwen3-ASR-1.7B,以及 README 提到的其他開源與閉源強模型比較

表現方面,公開資料指出它在多個惡劣條件基準上優於先前強模型,例如在 VOiCES R4-B-F 與 NOIZEUS Sta-0 的錯誤率均有明顯下降;在複合聲學場景下,亦錄得超過 30% 的相對錯誤率改善。不過這些結果主要來自論文與項目提供的評估,使用時仍要看語言種類、音訊長度和部署資源是否配合你的場景。

整體來看,Mega-ASR 最值得留意的,不是它把乾淨語音分數推高多少,而是它把語音辨識帶回更接近現場的問題:收音差、環境亂、訊號不完整時,系統還能否交出可信文本。對需要「穩定比完美更重要」的項目,這個方向相當有吸引力。

GitHub: https://github.com/xzf-thu/Mega-ASR

Paper: https://arxiv.org/pdf/2605.19833

Categories: 開源, 模型, 語音, 上海人工智慧實驗室

SGT 點樣拉近多模態理解與生成

Understanding capability gains across proxy task levels

SGT 是一個研究味較重的項目,核心想法是用「圖像分割」作為生成式微調的代理任務,讓同一個多模態模型不只看得明,亦畫得更準。它針對的痛點很清楚:不少統一多模態模型會把理解與生成分開優化,結果兩邊能力未必真正協同。

這個項目的亮點,在於它沒有再把重心放在像素紋理,而是改用較高層次的語意結構作監督。簡單講,模型不是只學顏色和邊緣,而是學物件區域與空間關係,這對圖片理解,以及按位置生成內容,都更有幫助。

從 README 提供的結果來看,SGT 曾在 BAGEL(7B+7B)和 OmniGen2(3B+4B)上驗證,顯示它不是綁死單一架構的做法。研究亦比較了 edge、depth、segmentation 三類代理任務,結論偏向一致:segmentation 在理解能力提升上表現最好,而生成的空間準確度亦有改善;至於數學或圖表推理,就未見明顯幫助。

想了解這個項目,可先看論文與項目頁,再留意其公開資料集 SAM-SGT,重點不是立即部署,而是理解這套訓練思路如何套入現有多模態模型。對研究人員、模型訓練工程師,或關心視覺理解與生成整合的人,這個方向特別值得留意。

  • 以圖像分割作生成式微調代理,連接理解與生成
  • 已在 BAGEL 與 OmniGen2 驗證,具一定架構通用性
  • 比起 edge、depth,segmentation 更能提升視覺理解表現
  • 生成結果的空間對位更穩,尤其適合位置敏感提示
  • 分割資料越多,表現有持續上升趨勢

整體來說,SGT 吸引之處不在花巧功能,而在提出一條頗務實的訓練路線:用高層語意監督,補回多模態模型常見的理解與生成落差。若你關注 UMM 後訓練方法,這個項目很值得放入觀察名單。

GitHub: https://github.com/song2yu/SGT

Paper: https://arxiv.org/pdf/2605.18714

Categories: 開源, 騰訊

VideoRLVR:教影片模型學會推理

Repository image for luka-group/VideoRLVR

VideoRLVR 是一個用來訓練影片推理模型的項目,核心做法是把強化學習加入影片生成流程,並用「可驗證」的獎勵來判斷答案是否正確。簡單說,它不是只追求畫面像真,而是希望模型在生成影片時,連帶表現出可檢查的解題能力。

這個項目目前圍繞 Wan2.2-TI2V-5B 展開,並以 Maze、FlowFree、Sokoban 這類有明確規則的任務作為訓練與評估場景。這類設計的好處,是模型表現不只靠主觀觀感,而是可以透過任務成功與否來量度,對研究推理能力特別重要。

要理解這個項目,可先由它提供的資源入手:公開集合內有 SFT 與 RLVR 檢查點,也有訓練及測試資料。程式結構亦分開了訓練、推論與評估腳本,並提供多任務及單一任務版本,方便比較不同設定下的結果。

  • 重點放在可驗證獎勵,比只看主觀生成質素更易評估
  • 以 Wan2.2-TI2V-5B 為基礎,提供 SFT 與 RLVR 相關模型
  • 任務涵蓋 Maze、FlowFree、Sokoban,偏向規則清晰的推理測試
  • 已整理模型與資料集到 Hugging Face,查找資源較方便

這個項目的新意,在於把影片生成與可量化的推理訓練更緊密地結合,並且明確提供一套可重複的訓練配方。從 README 可見,它亦包含多任務訓練、純成功訊號版本,以及 OOD 推論與評估腳本,表示作者不只關心是否學會指定題目,也在意模型離開熟悉分佈後的表現。

適合留意這個項目的人,包括研究多模態模型、影片生成、強化學習,或想觀察模型如何在規則環境中表現推理能力的開發者。至於性能數字,這份儲存庫摘要未展示完整量化結果,因此較穩妥的看法是:它的價值目前更偏向研究方法、訓練流程與公開資源,而不是單靠一兩個分數定勝負。

GitHub: https://github.com/luka-group/VideoRLVR

Paper: https://arxiv.org/pdf/2605.15458

Categories: 開源, 微軟, 深度學習, 視覺模型

PixVerve-95K:衝擊超高像素生圖評測

image

PixVerve-95K 是一個圍繞原生文字生成圖片而設的研究項目,重點放在把輸出推向 100MP 等級的超高解析度。它不只是提供資料,還連同模型方法與評測基準一併整理,方向相當清晰:回答「高像素生圖到底做得夠唔夠好」這個常見但難量化的問題。

對一般讀者來說,最易理解的切入點是把它視為一個「比較平台」。研究人員或開發者可先查看公開的資料集與基準設定,再用自己的文字生成圖片模型產出結果,之後按它提出的評估方式比較畫面細節、主體是否貼合描述,以及不同縮放層級下的穩定度。

這個項目的亮點,在於它不是只看一張圖表面是否好看,而是更重視超高解析度下的完整性與一致性。README 提到的 Multi-scale Fidelity Index(MSFI)與 Instance-centric Compliance Score(ICS),反映它嘗試由多尺度保真度與主體對應程度兩方面衡量結果,這比單純看主觀觀感更有系統。

重點可先看這幾項:
– 目標聚焦於原生文字生成圖片走向 100MP
– 內容涵蓋資料集、模型方法、基準評測三部分
– 評估指標包括 MSFIICS
– 適合拿來比較不同模型在高解析度場景的表現
– 已提及可配合 Qwen3.5-35B-A3B 與 vLLM 相關流程使用

適合關注這個項目的人,包括做文字生成圖片研究的團隊、想測試高解析度輸出能力的模型開發者,以及需要有系統 benchmark 的學術場景。若你平時留意的模型包括 Qwen3.5-35B-A3B,或其他文字到圖片生成系統,PixVerve-95K 的價值更像是一把尺,幫你判斷模型在大尺寸畫面下是否仍能守住細節與語意一致性。

GitHub: https://github.com/HaojunChen663/PixVerve-95K

Paper: https://arxiv.org/pdf/2605.20147

Categories: 開源, 中國, 框架, 清華大學

Aurora:把影片編輯指令講清楚的 AI 代理

Repository image for yeates/Aurora

Aurora 是一個面向影片編輯的 AI 項目,重點不只是「生成畫面」,而是先理解你想改甚麼。它把使用者一句較口語、甚至有點含糊的要求,整理成較明確的編輯計劃,再交給影片模型處理,目標是減少「講唔清、改唔準」的情況。

這個項目想解決的核心問題,是影片編輯要求經常不完整。你可能只說想「換走背景」、「刪除路人」或「改成某種風格」,但未必提供參考圖,亦未必指出遮罩範圍;Aurora 會嘗試補回這些缺口,例如用圖像搜尋找參考,或用分割方式找出需要修改的位置。

它較有新意的地方,在於把多種影片編輯工作放進同一個框架,而不是每種效果各自一套模型。根據目前資料,這個項目支援替換、移除、風格轉換,以及根據參考內容插入元素,背後並結合了工具增強的視覺語言模型代理,以及統一的影片 diffusion transformer,也就是影片 DiT。

動手了解這個項目時,可先把它當成「會先幫你整理需求的影片編輯助手」。現階段儲存庫內容顯示官方實作仍在準備中,所以較適合先閱讀論文與項目頁,理解它如何把原始要求拆成指令、任務標籤、圖像搜尋查詢與遮罩描述四部分,再留意之後公開的程式。

  • 同一個項目框架處理多類影片編輯工作
  • 會先重寫使用者要求,再交由影片模型生成
  • 可補足缺少的參考圖與編輯區域資訊
  • 相關模型重點包括工具增強 VLM 代理與影片 DiT
  • 另有 AgentEdit-Bench,用來評估這類代理式影片編輯能力

對內容創作者、影像研究人員,或者關心人機協作編輯流程的人來說,Aurora 特別值得留意。它未必是即刻可用的成品,但從設計方向看,這個項目著重的不是單次炫技效果,而是令影片編輯指令變得更完整、更可執行。

GitHub: https://github.com/yeates/Aurora

Paper: https://arxiv.org/pdf/2605.18748

Categories: 開源, NVIDIA, Agentic, 中國, 框架

HASP 真正會出手的技能框架

Hero image preview

這篇論文介紹 HASP,一個用來提升大型語言模型代理表現的框架。它想解決的核心問題很直接:以往不少代理會把過往經驗當成文字提示,但這些提示很多時只是「建議」,未必會在出錯前真正介入。

HASP 的做法,是把技能轉成可執行的 Program Functions(PFs)。簡單理解,PFs 會在代理進行推理、搜尋或寫程式時,檢查當前狀態和下一步動作;如果偵測到常見失誤,例如太早下結論、重複無效步驟,便會插手修正,或者補充有用脈絡。

這個項目的特別之處,在於技能不再只是放進提示詞的文字,而是能夠明確決定「何時啟動」和「怎樣改動下一步」。論文亦指出,HASP 具模組化特性,可在推論階段直接介入代理循環,也可用於後續訓練,甚至讓系統逐步整理和演化已驗證的技能庫。

重點可概括為:
– 把經驗技能由被動提示變成可執行規則
– 可在失誤風險較高的節點主動介入
– 適用於網頁搜尋推理、數學推理與編碼任務
– 既可免訓練使用,也可配合後續訓練與自我改進

如果你正在做代理工作流、工具調用或長步驟推理,這個項目特別值得留意。論文報告顯示,在網頁搜尋推理中,單靠推論階段的 PFs,平均表現比多輪 ReAct Agent 提升 25%;結合後續訓練與受控演化後,對 Search-R1 的提升達 30.4%。

整體來看,HASP 的價值不只是「再加一些提示」,而是為代理加入可重用、可驗證、可介入的技能機制。文中未有把所有細節簡化成通用產品指南,但對想提升代理穩定性、減少重複犯錯的人來說,它提供了一條相當清晰的方向。

Paper: https://arxiv.org/pdf/2605.17734

Categories: 框架

Artifact-Bench:幫你看穿 AI 影片破綻

teaser

近年 AI 生成影片愈來愈像真,但「似真」不等於毫無破綻。Artifact-Bench 這個項目,重點就是評估多模態大語言模型是否真的看得出 AI 影片中的不自然痕跡,而不只是大概明白畫面講甚麼。

它把測試分成三類:分辨真影片與 AI 影片、比較兩段影片哪段更真實,以及指出影片中可能出現的瑕疵位置或類型。這種設計比一般只看語意理解的評測更細緻,因為它直接針對「真實感」與「畫面破綻」做分析。

動手使用這個項目時,先要準備對應的影片資料集,再按照三個任務的 metadata 檔組織輸入。儲存庫亦提供了針對 Qwen3-VL 的評估流程,並支援選擇指定任務、控制輸出長度,以及用多張 GPU 分工推理,對需要批量測試模型的人較方便。

  • 重點不在影片內容摘要,而在辨認 AI 生成痕跡
  • 包含三種評測角度,覆蓋分類、比較與瑕疵辨識
  • 已提供任務 metadata,較容易整理測試流程
  • 內建 Qwen3-VL 評估管線,亦可作為其他模型的參考框架

這個項目特別適合做影片生成、模型評測、內容審核與研究真實感判斷的人參考。從儲存庫資訊可見,現成流程主要圍繞 Qwen3-VL;相關模型範疇則可延伸到多模態大語言模型,例如不同尺寸或版本的 Qwen3-VL。若你關心模型是否只是「識圖識片」,還是真的能講出哪裡假,這個項目有相當清晰的測試價值。

GitHub: https://github.com/FrankYang-17/Artifact-Bench

Categories: 開源, 香港科技大學, 框架

AutoResearchClaw:由想法走向論文的 AI 流程

AutoResearchClaw Logo

AutoResearchClaw 是一個面向研究工作的 AI 項目,目標不是單純幫你寫字,而是把「提出題目、討論假設、安排實驗、整理結果、輸出論文」串成一條連續流程。由描述可見,它特別針對傳統線性流程的限制,嘗試讓系統在失敗後仍可調整方向,而不是一步出錯就停住。

動手理解這個項目,最自然的方法是把它當成一位研究助理:先輸入一個研究主題,再讓系統展開分析、規劃與生成。它亦支援與 OpenClaw 配合,而人類介入功能預設為關閉,代表你可以先用原本流程體驗,再按需要加入審批或協作節點,不會一下子改變整套使用習慣。

這個項目較有意思的地方,在於它不只靠單一模型一次過完成工作。根據論文介紹,它結合多代理辯論、失敗後修正的執行機制、可驗證的結果彙報,以及跨次任務累積經驗的設計,方向上比一般「輸入提示詞、輸出文章」的工具更接近真正研究循環。

  • 以一句研究想法作為起點,嘗試延伸成完整研究流程
  • 強調多代理協作,而非單一路徑生成內容
  • 支援人類參與模式,但預設不影響原有流程
  • 可選整合 MetaClaw,核心流程毋須新增依賴
  • 已通過 2,699 項測試,顯示整合新功能後穩定性未見明顯倒退

適合的場景包括學術探索、研究提案發想、實驗規劃初稿,以及想觀察 AI 如何拆解研究問題的人。相關比較對象可留意 AI Scientist v2,論文亦直接以 ARC-Bench 作基準比較;若你關心的是代理式研究系統,而不只是聊天機械人,這個項目值得放入觀察名單。不過它產出的內容仍應由研究者覆核,尤其在方法設計、引用與結論判斷上更需要人手把關。

GitHub: https://github.com/aiming-lab/AutoResearchClaw

Paper: https://arxiv.org/pdf/2605.20025

Categories: 開源, Agentic, OpenClaw

OpenComputer:電腦代理評測更貼地

OpenComputer

OpenComputer 主要處理一個很實際的難題:當 AI 代理要打開瀏覽器、改文件、用設計工具或整理檔案時,怎樣才算「真的完成任務」?它不是靠主觀判斷,而是為不同桌面軟件建立可檢查的狀態驗證方式,令評測結果更穩定,也較容易重現。

動手使用時,重點不是直接把它當成一般應用程式安裝,而是按專案提供的環境設定範本準備評測環境,再選擇本機沙盒或雲端後端,之後用現成任務去跑代理測試。專案亦分開了修復評測、AWS 遠端 Docker 與 Tencent Cloud 中國區部署文件,明顯是為較正式的實驗流程而設。

它最有意思的地方,在於把「出題」和「判卷」都系統化。除了為應用程式建立檢查端點,還會自動生成較真實、可機器驗證的桌面任務,並記錄整段操作軌跡,連部分完成的進度都可計分;比起只看最後答案,這種做法更適合分析代理卡在哪一步。

  • 覆蓋 33 個桌面應用程式與 1,000 個已定稿任務
  • 場景包括瀏覽器、文書、創作工具、開發環境、檔案管理與通訊軟件
  • 評測不只看成敗,亦會保留操作過程與部分分數
  • 驗證方式較依賴程式化檢查,不單靠語言模型做裁判

專案適合做 AI 代理、桌面自動化、基準測試或研究評估方法的團隊;一般用家未必會直接拿來日常使用。從論文內容看,相關對比亦涉及 frontier agents、open-source models,以及 OSWorld-Verified 這類評測結果,反映它比較像研究基建,而不是單一模型展示頁。整體而言,OpenComputer 的價值在於把電腦操作代理的評測,從「似乎做到」推進到「可以核實做到多少」。

GitHub: https://github.com/echo0715/OpenComputer

Paper: https://arxiv.org/pdf/2605.19769

Categories: 開源, 框架

AntiSD 點樣改善推理訓練盲點

fig1a overview

AntiSD 係一個研究型專案,主力處理語言模型做數學推理時嘅訓練偏差。一般做法會叫模型向一個「已知答案、更有提示」嘅自己學習,但作者指出,呢種安排往往會令模型更著重格式化、收尾式嘅字詞,反而削弱真正幫到逐步思考嘅中間推理線索。

呢個專案最特別嘅地方,係將常見嘅自我蒸餾方向反轉。簡單講,唔再一味逼學生版本貼近「已經知道答案」嘅老師版本,而係用一種受控制嘅方式保留兩者差異,等模型唔會過早放棄探索思路;同時再加上一個基於不確定度嘅開關,避免訊號去到後期失控。

實際睇法上,呢個方法唔係畀一般用家即裝即玩,而係較適合已經做緊推理模型訓練、想比較不同強化學習策略嘅人。閱讀論文、配合 GitHub 內嘅實驗設定同 W&B 結果去重現,會係較合理嘅使用方式;重點係觀察訓練步數、最終準確率,同埋模型喺中間推理字詞上有冇被過度壓縮。

  • 針對數學推理訓練中「答案啱,但思路變薄」嘅問題
  • 核心做法係反轉自我蒸餾訊號,而唔係沿用標準貼近策略
  • 論文提到以 pointwise mutual information 解釋點解方法有效
  • 在多個 4B 至 30B 模型上,據報可用更少訓練步數追平或超過基線
  • 相關模型包括 Qwen3-4B、Qwen3-8B,以及其他同級 4B 至 30B 語言模型

以定位來講,AntiSD 比較似一個畀研究員同模型工程團隊參考嘅訓練配方,而唔係面向終端用戶嘅應用程式。對於關注 AIME、HMMT、BeyondAIME 呢類數學推理基準,或者正用 GRPO 一類方法微調模型嘅團隊,呢個專案提供咗一個值得認真比較嘅替代方向。

GitHub: https://github.com/FloyedShen/AntiSD

Paper: https://arxiv.org/pdf/2605.11609

Categories: 開源, 中國, 框架

Page 1 of 81
1 2 3 81