LearnWeak:教小型桌面代理補弱變強

LearnWeak method

LearnWeak 針對一個常見的 Computer-use agents(CUA) 痛點:小型桌面代理雖然便宜又快,但去到指定軟件時,成功率往往不穩。它不是盲目加資料,而是先找出學生模型的弱項,再集中補訓。

LearnWeak 建議先用 meituan/EvoCUA-8B-20260105 做底座,再按軟件掛上對應 LoRA,例如 learnweak-gimp。完整流程會配合 OSWorld,呼叫時記得選對模組名。

• 先辨認學生模型弱點,再自動生成針對性練習任務
• 用教師與學生的操作軌跡差異建立監督,毋須人工標註
• 訓練時分開處理規劃錯誤與執行錯誤,更新更精準
• 已有 GIMP、LibreOffice Calc、Impress、Writer、Thunderbird、VLC、VS Code、OS 的 LoRA 模組

它把學生(代理)弱點直接帶入資料生成與訓練,不再用同一套監督硬套所有錯誤。論文指出,在 OSWorld 八個桌面範疇,它平均比 EvoCUA-8B 高 11.6 個百分點,亦比 OpenCUA-7B 高 11.1 個百分點。

這項目適合要把小模型鎖定在指定桌面工作流的團隊,例如內部工具、自動化測試或較重視私隱的環境。它未必是即裝即用的一般工具,但對研究者、代理開發者,以及想低成本做範疇微調的人,很有參考價值。

GitHub: https://github.com/sujiikim/LearnWeak

Paper: https://arxiv.org/pdf/2605.28775

Categories: Agentic, 模型, 深度學習

ProRL:把推薦變成有路線的引導

ProRL Framework

ProRL 不是一般只估你下一次會按甚麼的推薦模型,而是先安排幾個中間項目,慢慢把興趣帶向目標項目。對影片平台或電商來說,這比直接硬推陌生內容更有策略。

項目把 semantic-ID 表示和強化學習結合,先用短碼描述項目,再學一條推薦路徑。評分不只看點擊,還同時看目標興趣提升、目標排名提升,以及中間項目的點擊率。

  • 多目標設計:把 IoI、IoR、CTR 一起納入,方向較完整。
  • 方法亮點:加入 Stepwise Reward Centering 與 Position-Specific Advantage Estimation,重點是修正長路徑偏差並減少訓練噪音。
  • 訓練穩定性:配合預訓練參考策略和 KL 正則,令訓練更穩定。
  • 工程層面:支援 Accelerate 多 GPU,較適合研究環境。

這個倉庫已分成預訓練和強化學習兩段,亦提供可直接跑的 scripts,checkpoint 與日誌會自動保存。使用時最好已有 Python 3.11、CUDA 12.4 和多 GPU 條件,否則較難完整重現。

論文摘要指出,它在三個真實數據集上勝過現有主動推薦方法。整體來看,這個項目較適合做推薦研究、序列決策實驗,或想了解 ProRL、預訓練參考策略與 semantic-ID 如何配合的人。

GitHub: https://github.com/hongruhou89/ProRL

Paper: https://arxiv.org/pdf/2605.28293

Categories: 模型, 深度學習

LongCat-Video 1.5:生成更實用的長片

LongCat-Video

LongCat-Video 是一個 13.6B 參數的影片生成項目,主打把文字生成影片、圖片生成影片,以及影片續寫放進同一套架構。對一般使用者來說,最易明白的價值是:不用為不同影片任務分開找不同模型,處理流程可以更集中。

它解決長影片生成常見的畫面走樣、色彩飄移,以及愈生成愈差的情況。項目特別提到自己原生預訓練了影片續寫能力,因此在長時間內容上較有優勢,目標是生成分鐘級影片時仍保持穩定。

先決定輸入方式:有文字概念就做 Text-to-Video,有單張圖片就做 Image-to-Video,要接續既有片段就用 Video-Continuation。提供相關模型與延伸版本,包括 LongCat-Video、LongCat-Video-Avatar 1.5,以及 Hugging Face 與 ModelScope 上提供的模型頁面。

它同時強調速度與畫質。項目表示透過時間與空間兩個方向的 coarse-to-fine 生成策略,再配合 Block Sparse Attention,可在數分鐘內產出 720p、30fps 影片;這類設計對高解析度生成尤其重要,因為影片模型最常見瓶頸就是算力與等待時間。

  • 單一模型支援 Text-to-Video、Image-to-Video、Video-Continuation
  • 強調長影片生成,主打減少色偏與畫質退化
  • 以 coarse-to-fine 加速推理,兼顧效率與解析度
  • 提到用多重獎勵的 GRPO 強化學習提升整體表現

這項目較適合關注開源影片生成、長片段內容、角色或場景延續的人,也適合想研究統一式影片模型設計的開發者。其表現可比肩領先開源模型與新近商業方案,但更細的分數與比較細節,仍需要配合技術報告一併閱讀會較穩妥。

Evaluation Results

Text-to-Video

The Text-to-Video MOS evaluation results on our internal benchmark.

MOS scoreVeo3PixVerse-V5Wan 2.2-T2V-A14BLongCat-Video
AccessibilityProprietaryProprietaryOpen SourceOpen Source
ArchitectureMoEDense
# Total Params28B13.6B
# Activated Params14B13.6B
Text-Alignment↑3.993.813.703.76
Visual Quality↑3.233.133.263.25
Motion Quality↑3.863.813.783.74
Overall Quality↑3.483.363.353.38

Image-to-Video

The Image-to-Video MOS evaluation results on our internal benchmark.

MOS scoreSeedance 1.0Hailuo-02Wan 2.2-I2V-A14BLongCat-Video
AccessibilityProprietaryProprietaryOpen SourceOpen Source
ArchitectureMoEDense
# Total Params28B13.6B
# Activated Params14B13.6B
Image-Alignment↑4.124.184.184.04
Text-Alignment↑3.703.853.333.49
Visual Quality↑3.223.183.233.27
Motion Quality↑3.773.803.793.59
Overall Quality↑3.353.273.263.17

GitHub: https://github.com/meituan-longcat/LongCat-Video

Categories: 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 世界模型

Lens:更慳算力的高質文字生圖

Lens Teaser

Lens 是 Microsoft 推出的文字生成圖片模型,規模約 3.8B 參數,重點不只是畫質,還包括「用較少訓練成本做到接近甚至追上更大模型」。這個 GitHub 項目目前定位清晰,主要提供推論用途的最小程式碼,方便直接用現成 checkpoint 生成圖片。

動手方式很直接:準備好 Lens 的權重後,利用這個項目的推論程式輸入文字提示,便可生成圖像。它特別適合想快速試畫面風格、測試長提示詞效果,或者比較不同文字生圖模型輸出的人;若要完整訓練或微調流程,現有儲存庫資訊顯示並不是這個項目的重心。

它解決的核心問題,在於近年文字生圖模型愈做愈大,訓練成本高得驚人。Lens 嘗試從資料密度、模型結構和解析度學習方式入手,在較緊湊的 3.8B 規模下,仍保持不錯的提示理解、高解析度輸出,以及多種長寬比生成能力。

較值得留意的地方有幾個:它用長篇密集描述的圖文資料預訓練,配合 mixed-resolution learning,令模型一次學到更多內容;文字理解方面則結合 GPT-OSS 多層特徵與 FLUX.2 semantic VAE。官方亦提到有 Lens-Turbo 這類後續變體,主打 4-step 快速生成,另有 RL 調整版本用來改善畫質與壓低瑕疵。不過仍需要 A100/V100 GPU。

  • 3.8B 參數規模,定位是高效率文字生圖模型
  • 支援約 1:2 至 2:1 長寬比,最高可到 1440×1440
  • 相關模型包括 Lens、Lens-Turbo,以及經 RL 調整的變體
  • 官方論文指出 1024×1024 輸圖可達約 3.15 秒,Turbo 4-step 約 0.84 秒

整體來看,這個項目最吸引之處不是功能包山包海,而是把焦點放在「精簡推論」與「高效率模型設計」上。對研究生成式 AI 趨勢、想評估新一代文字生圖效率,或需要高解析度輸出的開發者與創作者來說,Lens 是一個值得留意的項目;不過涉及基準細節與全面比較時,仍建議一併參考論文與模型頁面。

GitHub: https://github.com/microsoft/Lens

Paper: https://arxiv.org/pdf/2605.21573

Categories: 開源, 微軟, 影像模型, 模型

LatentOmni 想重寫影音推理方式

LatentOmni

LatentOmni 是一個面向影音多模態大語言模型的研究項目,重點不是叫模型先把線索全都翻成文字再慢慢推理,而是讓聲音與畫面的資訊在同一個潛在空間內一起運作。簡單講,它想保留更多原始感官訊號,減少中途只靠語言猜答案的情況。

這個方向要解決的問題很明確:不少模型在看影片、聽聲音後,雖然能描述內容,但一遇到需要同時對齊時間、事件因果或細節關聯的題目,表現便會下跌。LatentOmni 提出的做法,是把文字推理流程與影音潛在狀態交錯進行,並用 OSPE 這類時間同步設計,幫助模型對準聲畫節奏。

從使用角度看,現時這個 GitHub 儲存庫仍以論文與概念介紹為主,訓練程式、推論程式、模型權重和資料集尚未正式釋出。因此較適合先拿來了解新一代多模態推理方法,或者作為研究與技術評估的參考,而不是立即部署到產品流程。

  • 核心亮點是統一聲音與畫面的潛在推理,而非只輸出文字式思路
  • 加入特徵層級監督與 OSPE,目標是保留時間對齊與跨模態關聯
  • 配套資料集為 LatentOmni-Instruct-35K,用來訓練交錯式影音推理軌跡
  • 論文指出它在多個影音推理基準上,表現優於明確文字 CoT 基線

整體來看,這個項目最吸引之處,是它把「模型怎樣思考」由文字中介,推前到更接近原始聲畫訊號的層面。適合關注 MLLM、影音理解、跨模態推理的人留意;若你想比較相關模型,也可把它與依賴文字 CoT 的開源多模態模型放在同一條線上觀察。不過現階段公開內容有限,性能細節仍應以論文報告為準,評估時要保持審慎。

GitHub: https://github.com/yfanDai/LatentOmni

Paper: https://arxiv.org/pdf/2605.22012

Categories: 開源, 香港科技大學, 影像處理, 模型, 聲效, 視覺模型, 中國, 北京大學, 清華大學

PhysX-Omni:讓 3D 生成更貼近物理世界

teaser

PhysX-Omni 由南洋理工大學及 中國 ACE Robotics 開發,是個面向模擬用途的 3D 生成項目,重點不只是做出外觀,而是連同剛體、可變形物件與可動關節物件一併考慮。簡單說,它想解決的問題是:很多 3D 生成結果看起來像樣,但未必能直接放進物理模擬或機械人流程裡使用。

這個項目的亮點,在於把幾何形狀、絕對尺寸、材質、可供互動的功能,以及運動結構放到同一套框架內處理。它配合 PhysXVerse 資料集和 PhysX-Bench 評估方法,目標是同時檢查生成能力與理解能力,這點比只看外觀相似度更進一步。

整體流程偏向研究型:先準備 Python/conda 環境,再安裝相依套件,之後下載 PhysXNet、PhysX-Mobility 與 PhysXVerse 等資料,完成前處理和條件圖像渲染,最後再設定訓練路徑。這代表它較適合已有 AI 或 3D 處理基礎的人,而不是即開即用的輕量工具。

PhysX-Omni: Unified Sim-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects
  • 核心價值:生成可放進模擬流程的 3D 資產,而非只有表面外觀
  • 覆蓋範圍:支援剛體、可變形物件、關節物件三類內容
  • 相關資源:包括 PhysXVerse 資料集、PhysX-Bench 評估,以及 README 提到的 Qwen2.5 相依套件
  • 適合場景:機械人訓練、物理模擬、具條件控制的 3D 場景生成

性能方面,公開資料指出它會用一般指標加上自家的基準一同評估,並強調在生成與理解兩邊都有不錯表現。不過從現有資訊來看,較完整的數字仍應以論文與官方頁面為準;對一般讀者而言,最值得留意的是它把「看得像」推進到「更可能用得著」,這正是這個項目最有意思的地方。

GitHub: https://github.com/physx-omni/PhysX-Omni

Paper: https://arxiv.org/pdf/2605.21572

Categories: 開源, 影像模型, 影像處理, 模型, 中國, Dataset 數據集

Mega-ASR:嘈雜環境下更穩定的語音辨識

Mega-ASR Logo

Mega-ASR 是一個針對野外場景而設的語音辨識項目,重點放在「環境愈差,結果仍然可用」。一般模型在雜音、回音、收音距離遠,甚至傳輸中斷時,常會出現漏句、亂寫內容或直接沒有輸出;這個項目正是為了解決這類問題而來。

它的做法不是只靠單一噪音增強,而是把真實世界常見的聲學干擾拆成 7 類基本條件,再組合成 54 種複合場景,用約 260 萬筆訓練樣本去磨練模型。論文亦提到兩個關鍵方法:A2S-SFT 與基於 DG-WGPO 的強化學習,目標是令模型由聲音訊號一路更穩定地對應到語意,特別加強嚴重失真下的語意恢復與局部關鍵字重建。

想試這個項目,最直接是查看其 Hugging Face 權重、技術報告,以及配套的 Voices-in-the-Wild-2M 資料集和 Voices-in-the-Wild-Bench 基準。對開發語音輸入、會議轉錄、客服錄音整理,或戶外收音產品的人來說,這類資源比單看示範更有參考價值,因為可以用同一套基準比較不同模型在惡劣環境下的表現。

  • 針對雜音、遠場、遮擋、回音、錄音瑕疵、電子失真與傳輸掉包而訓練
  • 特色是減少 hallucination、空白輸出與整句遺漏
  • 提供模型權重、資料集與基準,方便延伸評估
  • 相關模型可留意 Qwen3-ASR-1.7B,以及 README 提到的其他開源與閉源強模型比較

表現方面,公開資料指出它在多個惡劣條件基準上優於先前強模型,例如在 VOiCES R4-B-F 與 NOIZEUS Sta-0 的錯誤率均有明顯下降;在複合聲學場景下,亦錄得超過 30% 的相對錯誤率改善。不過這些結果主要來自論文與項目提供的評估,使用時仍要看語言種類、音訊長度和部署資源是否配合你的場景。

整體來看,Mega-ASR 最值得留意的,不是它把乾淨語音分數推高多少,而是它把語音辨識帶回更接近現場的問題:收音差、環境亂、訊號不完整時,系統還能否交出可信文本。對需要「穩定比完美更重要」的項目,這個方向相當有吸引力。

GitHub: https://github.com/xzf-thu/Mega-ASR

Paper: https://arxiv.org/pdf/2605.19833

Categories: 開源, 模型, 語音, 上海人工智慧實驗室

wvs-code:用影片與聲音驗證模型是否真懂內容

Repository image for rakanWen/wvs-code

專案《When Vision Speaks for Sound》t提供官方程式碼,核心目標不是做一般影音問答,而是檢查支援影片的多模態模型,究竟有沒有真正理解聲音,還是只靠畫面和語意猜答案。它提供模型、評估介面和訓練流程,方便研究者重現實驗或改造自己的測試方式。

儘管支援視頻的多模態大語言模型(video-capable MLLMs)進步很快,但研究發現它們在視頻中表現出的「音頻理解」能力往往是由視覺驅動的:模型其實是依靠視覺線索來推斷、甚至幻想出聲音相關的資訊,而不是真正去檢查或分析音頻串流本身 。

這個問題普遍存在於:

最先進的開源全能模型(omni models)

主要閉源模型供應商(如 Google 和 OpenAI)的頂級模型

換句話說,這些模型看起來能「聽懂」視頻中的聲音,但實際上它們只是「看」畫面來猜聲音是什麼,並沒有真正處理音頻數據,因此容易產生錯誤或幻覺(hallucinate)。

先準備好影片和音訊資料,再把資料登記到 LLaMA-Factory 的資料設定中,之後就可以用它的 SFT 或 DPO 格式去訓練。專案也支援把樣本寫成 ShareGPT 風格,讓每條資料同時帶上 <video><audio>,方便模型學習在多模態情境下作答。

它比較特別的地方,在於採用介入式診斷框架 Thud,專門測試模型是否真的有做音訊驗證,而不是只走視覺捷徑。這種設計對研究「模型到底看了甚麼、聽了甚麼」特別有用,也比單純準確率更能揭示模型行為。

  • 可用來評測影片語音、音畫同步、時間延遲等問題
  • 適合做多模態模型研究、除錯和基準測試
  • 支援 SFT 與 DPO 訓練流程
  • 可接入 LLaMA-Factory 一起使用
  • 相關模型與框架重點包括 Thud、LLaMA-Factory 以及多種可處理影片的多模態模型

整體來說,這個專案更像是一套「檢查工具」,而不是面向一般用家的應用程式。對做 AI 研究、影音理解評測,或者想分析模型有沒有偷懶靠畫面猜答案的人,會特別有參考價值。

GitHub: https://github.com/rakanWen/wvs-code

Paper: https://arxiv.org/pdf/2605.16403

Categories: 開源, 影像處理, 模型, 聲效, 視覺模型, 框架

LiteFrame 點樣令 AI 睇影片更多更快

Google DeepMind

而家不少影片大模型都可以答片段問題、做內容理解,但片一長,速度同成本就會急升。LiteFrame針對的正正唔係表面上的「睇少啲格」,而係指出每一格都交俾大型視覺編碼器處理,本身先係真正慢位。

這個專案提出一個較輕量的影片編碼骨幹,核心做法是用較大的教師模型,教一個更精簡的學生模型直接產生已壓縮、但仍保留時空資訊的表示。論文將這套訓練方式稱為 Compressed Token Distillation,另外亦配合 Language Model Adaptation,令後續語言模型更易接住使用這些視覺資訊。

對使用者而言,現階段較適合作為研究參考而非即裝即用工具,因為 README 已說明程式碼和權重尚未釋出。實際閱讀可以先由論文和項目頁入手,集中看它如何比較端到端延遲、可處理影格數,以及在多個影片理解基準上的準確度變化。

  • 重點不只是減少語言模型負擔,亦直接降低逐格視覺編碼成本
  • 主打長影片理解,在固定運算預算下處理更多 frames
  • 論文提到相對 InternVL3-8B,可降低端到端延遲並處理更多影格
  • 適合做影片問答、影片描述、時序推理相關研究參考
  • 文中脈絡亦關連到 Video LLM、MLLM、ViT、InternVL3-8B 等模型路線

整體來看,LiteFrame的價值在於把焦點由「事後刪 token」移前到「一開始就更有效率地抽特徵」。對關注長片分析、影片助手或多模態系統的人來說,這是一條幾實際的新方向,不過最終落地效果仍要等官方釋出程式碼與模型後,先可以更完整驗證。

GitHub: https://github.com/jjihwan/LiteFrame

Paper: https://arxiv.org/pdf/2605.17260

Categories: 開源, Google, 模型, 視覺模型

OProver 點樣令 AI 更識寫數學證明

OProver framework overview

OProver 係一個圍繞 Lean 4 建立的形式化證明框架,重點唔係單次叫模型「寫答案」,而係讓系統一邊嘗試、一邊讀取已驗證證明,再根據編譯器回饋反覆修正。對非研究背景讀者來講,可以理解成 AI 做數學題時,不只交卷一次,而係會睇提示、改錯,再重新整理答案。

實際使用上,這個專案較適合已有 Lean 4 或機器學習環境的人:一類會用它做證明推理與驗證流程,另一類會直接研究訓練管線、資料建構同檢索庫管理。儲存庫同時提供模型與資料方向,包括 OProver-8BOProver-32B,以及 OProofs 語料,較適合想評估模型表現、重現論文流程,或建立自家證明代理系統的團隊。

它要解決的核心問題,是形式化證明往往唔能夠靠一次生成成功,尤其 Lean 4 對語法、型別同邏輯正確性要求非常嚴格。OProver 的特別之處,在於把「找相似證明」、「接收編譯器錯誤訊息」同「多輪修補」由臨時技巧,變成訓練時已經學會的整體策略,這點比只在推理階段追加外掛模組更完整。

  • 支援多輪修正,而唔係只生成一次證明
  • 會利用已驗證證明作檢索參考,提升命中率
  • 透過 Lean 4 伺服器做機械驗證,結果更可靠
  • 提供 CPT、SFT、RL 等訓練流程,覆蓋研究到實作
  • 附帶大型 OProofs 資料集,方便分析 pass@k 與修復軌跡

以公開資訊看,OProofs 規模相當大,包含 1.77M 個 Lean 陳述、6.86M 個經編譯器驗證的證明,亦保留失敗嘗試與後續修復過程,這對研究「模型點樣由錯變對」尤其有價值。論文亦提到它在 MiniF2F、ProverBench、PutnamBench 等基準有突出表現;不過這類成果仍主要面向形式化數學、定理證明研究者,同一般應用型開發者的距離會稍遠。

GitHub: https://github.com/multimodal-art-projection/OProver

Paper: https://arxiv.org/pdf/2605.17283

Categories: 開源, 模型

Page 7 of 18
1 5 6 7 8 9 18