MobileGym:手機操作測試搬到瀏覽器

MobileGym — Program Mobile Worlds. Train GUI Agents. Verify by State. A verifiable and highly parallel simulation platfo

MobileGym 是一個放在瀏覽器內運行的手機模擬環境,重點不是做出一部「像真手機」,而是讓研究者可以穩定測試手機操作代理。它針對真機與模擬器常見的難題,例如狀態難以重現、評分不穩、成本高,提供一套較可控的做法。

使用相當直接:先開啟模擬環境,再把代理接上去執行任務,之後用內建評分函式檢查有沒有完成目標。這個項目提供 28 個模擬 app、416 個任務模板,也支援把整個環境狀態存成 JSON,方便重設、比較與重跑同一組測試。

MobileGym 在「結果驗證」不靠模糊文字比對,也不依賴視覺模型做人手味很重的判斷,而是直接檢查結構化狀態。這代表系統不止能知道任務是否成功,還能發現副作用,例如錯誤追蹤了某個帳戶,或誤發訊息,這類情況在真機流程往往較難完整看見。

  • 支援 256 個並行實例,同一台伺服器可同時跑大量測試
  • 每個實例約 400 MB 記憶體,冷啟動約 3 秒
  • 評分為可程式化且具決定性,官方稱可達亞毫秒級
  • 已展示模擬到真機的轉移效果,保留約 95.1% 的訓練增益

性能數字是這個項目的另一個賣點:官方資料指 256 個任務的完整評估可在約 6 分鐘完成,而且 CPU 佔用不高。對需要反覆訓練、比較不同策略或模型的人,例如 Qwen3-VL-4B 搭配 GRPO 這類流程,這種可並行、可重現的設計比單靠真機測試更實際。

整體來看,MobileGym 適合做手機 GUI 代理研究、評測流程設計,以及強化學習訓練驗證。它未必取代真機,但作為前期迭代與大規模評估平台,定位十分明確;尤其當你重視可重現性、成本控制,以及能否清楚知道代理到底做對了甚麼、又做錯了甚麼,這個項目值得留意。

GitHub: https://github.com/Purewhiter/mobilegym

Categories: 開源, 香港中文大學, 框架, 北京大學

LatentOmni 想重寫影音推理方式

LatentOmni

LatentOmni 是一個面向影音多模態大語言模型的研究項目,重點不是叫模型先把線索全都翻成文字再慢慢推理,而是讓聲音與畫面的資訊在同一個潛在空間內一起運作。簡單講,它想保留更多原始感官訊號,減少中途只靠語言猜答案的情況。

這個方向要解決的問題很明確:不少模型在看影片、聽聲音後,雖然能描述內容,但一遇到需要同時對齊時間、事件因果或細節關聯的題目,表現便會下跌。LatentOmni 提出的做法,是把文字推理流程與影音潛在狀態交錯進行,並用 OSPE 這類時間同步設計,幫助模型對準聲畫節奏。

從使用角度看,現時這個 GitHub 儲存庫仍以論文與概念介紹為主,訓練程式、推論程式、模型權重和資料集尚未正式釋出。因此較適合先拿來了解新一代多模態推理方法,或者作為研究與技術評估的參考,而不是立即部署到產品流程。

  • 核心亮點是統一聲音與畫面的潛在推理,而非只輸出文字式思路
  • 加入特徵層級監督與 OSPE,目標是保留時間對齊與跨模態關聯
  • 配套資料集為 LatentOmni-Instruct-35K,用來訓練交錯式影音推理軌跡
  • 論文指出它在多個影音推理基準上,表現優於明確文字 CoT 基線

整體來看,這個項目最吸引之處,是它把「模型怎樣思考」由文字中介,推前到更接近原始聲畫訊號的層面。適合關注 MLLM、影音理解、跨模態推理的人留意;若你想比較相關模型,也可把它與依賴文字 CoT 的開源多模態模型放在同一條線上觀察。不過現階段公開內容有限,性能細節仍應以論文報告為準,評估時要保持審慎。

GitHub: https://github.com/yfanDai/LatentOmni

Paper: https://arxiv.org/pdf/2605.22012

Categories: 開源, 香港科技大學, 影像處理, 模型, 聲效, 視覺模型, 中國, 清華大學, 北京大學

PresentAgent-2:將查詢變成影片簡報

image

如果你曾經試過為一個新題目做簡報,就會知道最花時間的往往不是排版,而是先找資料、定重點、再把內容講清楚。PresentAgent-2 想處理的,正正是由一句自然語言提問開始,逐步變成一段有旁白的簡報影片,而不是假設你一開始已經有一份完整文件。

這個專案的流程相當清晰:先把模糊問題收窄成較聚焦主題,再整理候選來源,抽取文字、圖片、GIF 甚至影片素材,之後才規劃簡報結構、生成投影片與講稿,最後合成音畫對齊的影片。對一般用家來說,可以理解為把「搜集資料、寫大綱、做 slides、配音」串成一條自動化工作流。

較有意思的是,它不只做單一講者式內容,還支援多講者討論,以及有根據的互動問答三種形式。另一方面,動態素材會盡量保留為 GIF 或影片,而不是全部截成靜態圖,這令最後成品更接近真正可觀看的解說片,而不只是會動的投影片。

如果你想了解它是否適合自己,較合用的情境包括教學短片、研究題目導讀、產品介紹,或需要快速把一個概念講清楚的內容製作。現階段它更像研究型框架,較適合 AI、多模態內容生成、代理式工作流的開發者與研究者參考,而非即開即用的普通消費工具。

  • 由短查詢出發,不需要先準備完整原稿
  • 可產出投影片、講稿、旁白與最終影片
  • 支援單人講解、多人討論、互動問答
  • 能保留 GIF 與影片等動態素材,表達力較強
  • 評估方式包含選擇題測試與主觀打分,重視內容與呈現效果

相關模型方面,倉庫資料提到以 VLM 參與評估,扮演觀眾回答問題及進行評分,但公開資訊未見完整列出所有底層模型名稱。若你關心的不是單一模型,而是「怎樣把多個能力串成可交付影片」,PresentAgent-2 的參考價值會比單看文字或圖像生成工具更高。

網址: https://github.com/AIGeeksGroup/PresentAgent-2

Categories: 開源, 視頻模型, 中國, 北京大學

Agent-ValueBench:AI 代理有冇價值觀?這個基準想測清楚

Agent-ValueBench logo

Agent-ValueBench 係一個用嚟評估 AI 代理「價值取向」嘅基準工具。簡單講,佢唔只睇模型答得啱唔啱,而係觀察一個會用工具嘅語言模型代理,喺有衝突嘅情境入面,實際行動會偏向邊一種價值。

呢個專案較特別嘅地方,係將抽象嘅價值問題變成可執行任務。資料庫包含 28 套價值系統、332 個價值維度、394 個沙盒環境,同 4,335 個價值衝突任務;每個案例都會定義任務、可用工具、執行環境,同評分規則,令比較唔再停留喺主觀印象。

實際使用上,研究者可以先用現成案例同環境,令代理喺指定任務中運行,再記錄成條行為軌跡,之後用已儲存嘅 rubric 去評分,分析代理較支持邊一方價值。對一般開發團隊嚟講,佢更似係一套測試框架,用嚟檢查代理系統喺敏感決策情境下是否一致、可比較。

  • 重點唔係知識問答,而係代理喺工具使用過程中點樣作取捨
  • 有完整流程,由環境生成、案例建立、軌跡生成,到評分與整體分析
  • 可執行沙盒環境 令測試更貼近真實操作,而唔只係紙上談兵
  • 用 rubric 評分,有助將價值判斷變成較有系統嘅比較

如果你關心 AI 安全、代理治理、企業內部自動化助手,或者想比較唔同代理喺價值衝突下嘅表現,呢個專案相當適合。相反,如果你只係想快速部署聊天功能,呢個儲存庫未必直接幫到手,因為佢主要價值在於研究、測試同評估,而唔係即用型產品。

Source: https://github.com/ValueByte-AI/Agent-ValueBench

Categories: 開源, Agentic, 北京大學

HumanNet:百萬小時影片庫,點樣幫AI更識人類動作

teaser

HumanNet 是一個以「人類活動」為核心的大型影片資料庫,目標是幫研究團隊訓練模型,更準確理解動作、互動同身體運動。它收集接近百萬小時影片,重點不只是片量大,還包括第一身與第三身視角的配對,以及動作相關標註。

實際使用上,這個專案較適合做 AI 研究、資料集分析,或者作為影片理解模型的預訓練基礎,而不是一般用家即裝即用的應用程式。現階段公開資訊顯示,完整語料、整理流程同驗證程式碼仍在陸續釋出,較像研究預覽版本。

它最值得留意的創新,是把資料整理流程本身當成核心設計,包括以人為中心的篩選、視角分類、去重、品質控制同私隱審查。相比單純堆影片數量,HumanNet 更著重資料是否適合訓練模型理解細緻動作,這點對機械人學習同具身智能尤其重要。

根據項目提供的結果,在受控的 vision-language-action 後訓練設定下,用 HumanNet 內約 1,000 小時第一身影片作初始化,效果可追近甚至略勝較少量真實機械人資料,亦明顯縮窄與超大型機械人資料基線的差距。這代表當機械人實拍數據昂貴又難收集時,人類第一身影片可能是更可擴展的替代方案。

  • 做什麼:提供大規模人類活動影片,用於動作理解、影片學習與具身 AI 預訓練。
  • 點樣用:適合研究人員用來訓練、初始化或評估影片與動作模型。
  • 主要特色:兼有第一身與第三身視角,並附說明文字、動作、手部與身體訊號。
  • 最適合場景:機械人學習、活動辨識、從影片學習操作行為。
  • 要注意:目前看來仍屬研究預覽,部分資料與流程尚未完全公開。

Source: https://github.com/DAGroup-PKU/HumanNet

Categories: 開源, 模型, 視覺模型, 中國, 北京大學

Page 2 of 2
1 2