北京大學 Archives - Page 2 of 2

MobileGym：手機操作測試搬到瀏覽器

2026 年 5 月 27 日

MobileGym — Program Mobile Worlds. Train GUI Agents. Verify by State. A verifiable and highly parallel simulation platfo

MobileGym 是一個放在瀏覽器內運行的手機模擬環境，重點不是做出一部「像真手機」，而是讓研究者可以穩定測試手機操作代理。它針對真機與模擬器常見的難題，例如狀態難以重現、評分不穩、成本高，提供一套較可控的做法。

使用相當直接：先開啟模擬環境，再把代理接上去執行任務，之後用內建評分函式檢查有沒有完成目標。這個項目提供 28 個模擬 app、416 個任務模板，也支援把整個環境狀態存成 JSON，方便重設、比較與重跑同一組測試。

MobileGym 在「結果驗證」不靠模糊文字比對，也不依賴視覺模型做人手味很重的判斷，而是直接檢查結構化狀態。這代表系統不止能知道任務是否成功，還能發現副作用，例如錯誤追蹤了某個帳戶，或誤發訊息，這類情況在真機流程往往較難完整看見。

支援 256 個並行實例，同一台伺服器可同時跑大量測試
每個實例約 400 MB 記憶體，冷啟動約 3 秒
評分為可程式化且具決定性，官方稱可達亞毫秒級
已展示模擬到真機的轉移效果，保留約 95.1% 的訓練增益

性能數字是這個項目的另一個賣點：官方資料指 256 個任務的完整評估可在約 6 分鐘完成，而且 CPU 佔用不高。對需要反覆訓練、比較不同策略或模型的人，例如 Qwen3-VL-4B 搭配 GRPO 這類流程，這種可並行、可重現的設計比單靠真機測試更實際。

整體來看，MobileGym 適合做手機 GUI 代理研究、評測流程設計，以及強化學習訓練驗證。它未必取代真機，但作為前期迭代與大規模評估平台，定位十分明確；尤其當你重視可重現性、成本控制，以及能否清楚知道代理到底做對了甚麼、又做錯了甚麼，這個項目值得留意。

GitHub： https://github.com/Purewhiter/mobilegym

Categories: 開源, 香港中文大學, 框架, 北京大學

LatentOmni 想重寫影音推理方式

2026 年 5 月 23 日

LatentOmni 是一個面向影音多模態大語言模型的研究項目，重點不是叫模型先把線索全都翻成文字再慢慢推理，而是讓聲音與畫面的資訊在同一個潛在空間內一起運作。簡單講，它想保留更多原始感官訊號，減少中途只靠語言猜答案的情況。

這個方向要解決的問題很明確：不少模型在看影片、聽聲音後，雖然能描述內容，但一遇到需要同時對齊時間、事件因果或細節關聯的題目，表現便會下跌。LatentOmni 提出的做法，是把文字推理流程與影音潛在狀態交錯進行，並用 OSPE 這類時間同步設計，幫助模型對準聲畫節奏。

從使用角度看，現時這個 GitHub 儲存庫仍以論文與概念介紹為主，訓練程式、推論程式、模型權重和資料集尚未正式釋出。因此較適合先拿來了解新一代多模態推理方法，或者作為研究與技術評估的參考，而不是立即部署到產品流程。

核心亮點是統一聲音與畫面的潛在推理，而非只輸出文字式思路
加入特徵層級監督與 OSPE，目標是保留時間對齊與跨模態關聯
配套資料集為 LatentOmni-Instruct-35K，用來訓練交錯式影音推理軌跡
論文指出它在多個影音推理基準上，表現優於明確文字 CoT 基線

整體來看，這個項目最吸引之處，是它把「模型怎樣思考」由文字中介，推前到更接近原始聲畫訊號的層面。適合關注 MLLM、影音理解、跨模態推理的人留意；若你想比較相關模型，也可把它與依賴文字 CoT 的開源多模態模型放在同一條線上觀察。不過現階段公開內容有限，性能細節仍應以論文報告為準，評估時要保持審慎。

GitHub： https://github.com/yfanDai/LatentOmni

Paper： https://arxiv.org/pdf/2605.22012

Categories: 開源, 香港科技大學, 影像處理, 模型, 聲效, 視覺模型, 中國, 清華大學, 北京大學

PresentAgent-2：將查詢變成影片簡報

2026 年 5 月 17 日

如果你曾經試過為一個新題目做簡報，就會知道最花時間的往往不是排版，而是先找資料、定重點、再把內容講清楚。PresentAgent-2 想處理的，正正是由一句自然語言提問開始，逐步變成一段有旁白的簡報影片，而不是假設你一開始已經有一份完整文件。

這個專案的流程相當清晰：先把模糊問題收窄成較聚焦主題，再整理候選來源，抽取文字、圖片、GIF 甚至影片素材，之後才規劃簡報結構、生成投影片與講稿，最後合成音畫對齊的影片。對一般用家來說，可以理解為把「搜集資料、寫大綱、做 slides、配音」串成一條自動化工作流。

較有意思的是，它不只做單一講者式內容，還支援多講者討論，以及有根據的互動問答三種形式。另一方面，動態素材會盡量保留為 GIF 或影片，而不是全部截成靜態圖，這令最後成品更接近真正可觀看的解說片，而不只是會動的投影片。

如果你想了解它是否適合自己，較合用的情境包括教學短片、研究題目導讀、產品介紹，或需要快速把一個概念講清楚的內容製作。現階段它更像研究型框架，較適合 AI、多模態內容生成、代理式工作流的開發者與研究者參考，而非即開即用的普通消費工具。

由短查詢出發，不需要先準備完整原稿
可產出投影片、講稿、旁白與最終影片
支援單人講解、多人討論、互動問答
能保留 GIF 與影片等動態素材，表達力較強
評估方式包含選擇題測試與主觀打分，重視內容與呈現效果

相關模型方面，倉庫資料提到以 VLM 參與評估，扮演觀眾回答問題及進行評分，但公開資訊未見完整列出所有底層模型名稱。若你關心的不是單一模型，而是「怎樣把多個能力串成可交付影片」，PresentAgent-2 的參考價值會比單看文字或圖像生成工具更高。

網址： https://github.com/AIGeeksGroup/PresentAgent-2

Categories: 開源, 視頻模型, 中國, 北京大學

Agent-ValueBench：AI 代理有冇價值觀？這個基準想測清楚

2026 年 5 月 13 日

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講，佢唔只睇模型答得啱唔啱，而係觀察一個會用工具嘅語言模型代理，喺有衝突嘅情境入面，實際行動會偏向邊一種價值。

呢個專案較特別嘅地方，係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境，同 4,335 個價值衝突任務；每個案例都會定義任務、可用工具、執行環境，同評分規則，令比較唔再停留喺主觀印象。

實際使用上，研究者可以先用現成案例同環境，令代理喺指定任務中運行，再記錄成條行為軌跡，之後用已儲存嘅 rubric 去評分，分析代理較支持邊一方價值。對一般開發團隊嚟講，佢更似係一套測試框架，用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

重點唔係知識問答，而係代理喺工具使用過程中點樣作取捨
有完整流程，由環境生成、案例建立、軌跡生成，到評分與整體分析
可執行沙盒環境 令測試更貼近真實操作，而唔只係紙上談兵
用 rubric 評分，有助將價值判斷變成較有系統嘅比較

如果你關心 AI 安全、代理治理、企業內部自動化助手，或者想比較唔同代理喺價值衝突下嘅表現，呢個專案相當適合。相反，如果你只係想快速部署聊天功能，呢個儲存庫未必直接幫到手，因為佢主要價值在於研究、測試同評估，而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench

Categories: 開源, Agentic, 北京大學

HumanNet：百萬小時影片庫，點樣幫AI更識人類動作

2026 年 5 月 11 日

HumanNet 是一個以「人類活動」為核心的大型影片資料庫，目標是幫研究團隊訓練模型，更準確理解動作、互動同身體運動。它收集接近百萬小時影片，重點不只是片量大，還包括第一身與第三身視角的配對，以及動作相關標註。

實際使用上，這個專案較適合做 AI 研究、資料集分析，或者作為影片理解模型的預訓練基礎，而不是一般用家即裝即用的應用程式。現階段公開資訊顯示，完整語料、整理流程同驗證程式碼仍在陸續釋出，較像研究預覽版本。

它最值得留意的創新，是把資料整理流程本身當成核心設計，包括以人為中心的篩選、視角分類、去重、品質控制同私隱審查。相比單純堆影片數量，HumanNet 更著重資料是否適合訓練模型理解細緻動作，這點對機械人學習同具身智能尤其重要。

根據項目提供的結果，在受控的 vision-language-action 後訓練設定下，用 HumanNet 內約 1,000 小時第一身影片作初始化，效果可追近甚至略勝較少量真實機械人資料，亦明顯縮窄與超大型機械人資料基線的差距。這代表當機械人實拍數據昂貴又難收集時，人類第一身影片可能是更可擴展的替代方案。

做什麼：提供大規模人類活動影片，用於動作理解、影片學習與具身 AI 預訓練。
點樣用：適合研究人員用來訓練、初始化或評估影片與動作模型。
主要特色：兼有第一身與第三身視角，並附說明文字、動作、手部與身體訊號。
最適合場景：機械人學習、活動辨識、從影片學習操作行為。
要注意：目前看來仍屬研究預覽，部分資料與流程尚未完全公開。

Source: https://github.com/DAGroup-PKU/HumanNet

Categories: 開源, 模型, 視覺模型, 中國, 北京大學

Page 2 of 2

« Previous 1 2