Agents’ Last Exam 評測框架:當 AI 代理考專業試

logo

這個開源項目是一套AI 代理人評測基準,專門用來量度 Computer-use agents(CUAs)在長時間、跨步驟的真實工作流程中表現如何。它的設計目標是讓業界能用同一把尺,去比較 Claude Code、Codex、Openclaw 等不同代理人在真實場景下的能力差距,而不再停留在簡單的問答測試。

ALE 與坊間常見的排行榜最大分別,在於它把任務對齊到美國 O*NET / SOC 2018 職業分類,涵蓋 55 個非實體行業,例如動畫、工程製造、建築設計與神經影像分析等。基準的題目並非由研究員憑空設計,而是由 300 多位業界專家收集並驗證,因此每一條任務都貼近真實工作場景,而且配有隱藏參考答案與確定性評分機制,杜絕模型「走旁門左道」蒙混過關。

在技術架構上,評測框架由三部分組成:代理執行環境(harness) 負責驅動底層基礎模型;虛擬沙箱(sandbox) 模擬真實作業系統環境;任務單元(task) 則以可執行方式描述一項專業工作。目前公開的 150 條任務屬於 1,500 題以上語料庫的子集,整個項目正在朝 5,000 題目標推進。評測時,框架會在雲端建立沙箱、讓代理人完成任務,再以確定性評分器評分,過程全自動化。

測試前需要先在 Google Cloud 完成一次性設定(約 10 分鐘,現有 $300 美元免費額度足以應付),之後即可在自家模型上執行 hello-world 任務以熟悉流程,進一步換成正式任務。這個項目適合 AI 代理人開發者、企業採購團隊、學術研究者,以及任何想用客觀分數比較不同 CUA 表現的人。

  • 代理評測基準:專為 Computer-use agents 設計的真實工作流程測試。
  • 行業覆蓋廣:對齊 O*NET / SOC 2018,涵蓋 55 個行業,公開 150 條任務。
  • 結果可驗證:採用隱藏參考答案與確定性評分器,公平且可重現。
  • 雲端沙箱環境:在 Google Cloud 內建立虛擬機重現真實作業流程。
  • 社群共創:由柏克萊 RDI 與 300 多位業界專家共同維護。

GitHub: https://github.com/rdi-berkeley/agents-last-exam

項目: https://agents-last-exam.org/

Categories: 開源, Agentic, 框架

LWS:聽寫說三通道:語音模型也能即時寫出程式碼?

Listen-Write-Speak tri-channel legend

一般語音大型語言模型只能說出口頭回應,許多文字擅長的工作(例如編寫程式、條列分析、逐步推理)在即時對話中往往被犧牲。Listen-Write-Speak(LWS)正是針對這個瓶頸而設計,它讓單一自回歸大型語言模型同時處理三個通道:持續聆聽使用者音訊、即時生成可見的文字、並行輸出語音回應,三者共享同一個因果注意力脈絡。

這是模型、框架,還是什麼? LWS 是一個完整的語音模型項目,包含推理服務、Triplex/LWS runtime、前端展示以及測試,並非單純的網頁展示殼層。它建基於 OpenBMB 的 MiniCPM-o-4_5,再透過 Token Schema 機制在不改動模型架構的前提下,把文字輸出提升為第一公民的通道。

創新之處在於打破了「文字只是隱藏中間狀態」的慣例:寫入螢幕的內容不再只是語音的草稿,而是可被檢視、可被複製、可被審核的正式輸出。這對於需要邊說邊整理思緒的場景特別有幫助,例如教學、編程輔助、會議摘要。

性能與評估方面,項目在 VoiceBench AlpacaEval 達到 4.72 分,書寫與語音一致性為 92.6%,並在 Full-Duplex-Bench 與多語言 URO-Bench 都有穩定表現,顯示三通道並行並未犧牲即時反應。

適合的對象包括研究語音介面的開發者、需要可審核對話紀錄的團隊,以及對全雙工(full-duplex)互動有興趣的 AI 工程師。如想測試,可透過 ModelScope 下載基座模型 OpenBMB/MiniCPM-o-4_5 與 LWS 資產後運行推理服務與前端展示。

重點摘要

  • 三通道並行:聆聽、可見書寫、語音輸出共享一個因果注意力脈絡
  • 文字優先:寫入內容是第一公民輸出,不再是隱藏草稿
  • 無需改架構:透過 Token Schema 在標準自回歸 LLM 上實現
  • 完整開源 runtime:包含推理服務、runtime 與前端,非單純展示
  • 多項基準驗證:在 Full-Duplex-Bench、VoiceBench、URO-Bench 均有報告數據

GitHub: https://github.com/zly-idleness/lws_demo

項目: https://royalzhang.com/project/lws-page/

Categories: 開源, 編程, 語音

OmniCap-IF:讓影片描述模型聽懂你的格式要求

OmniCap-IF evaluation framework

現時不少多模態模型可以為影片自動生成字幕或描述,但當用戶要求「用 Markdown 表格整理時間點」或「特別提及背景音樂」等具體指示時,模型往往只輸出一般化文字。OmniCap-IF 正正針對這個落差,研究模型能否在理解畫面與聲音之餘,亦嚴格跟隨用戶指定的結構、風格、時間、視覺、音訊與音視覺等多重限制。

這個項目由南京大學 NJU-LINK 團隊與快手 Kling 團隊合作推出,包含三部分:用作評估的 OmniCap-IF Benchmark、用作訓練的 OmniCap-IF-54K 數據集,以及以此微調出來的 OmniCaptioner-IF 模型系列。基準涵蓋 480 段影片共 1,920 條樣本,橫跨 50 種約束類型,平均片長約 54.6 秒,並以清單式評分機制同時檢查格式與內容。

對研發人員而言,最直接的做法是透過 Hugging Face 下載預訓練模型(提供 3B 與 7B 兩個版本),再以 Python 載入影片並輸入帶有格式要求的指令。模型會根據指令產生相應的影片描述,研究者便可與基準結果比較,判斷自家系統在指令遵從度上的強弱。

這個項目的創新之處在於雙軌評分機制:一方面驗證輸出是否符合結構規定(例如段落、表格、時間戳),另一方面把內容拆成視覺、音訊與音視覺三個維度逐一核對,並加入時間定位。這種「分項打分」比單純的整體相似度更能診斷模型失誤的位置。配套的 54K 訓練集亦採用了「內容與格式分離生成」的策略,令模型在複雜格式下仍能保持內容準確。

適合從事影片理解、字幕生成、內容審核或需要可控 AI 輸出的團隊。

重點摘要:

  • OmniCap-IF Benchmark:1,920 條樣本、50 種約束的影片描述指令遵從評估基準。
  • OmniCap-IF-54K:54,000 條影片—指令—回應三元組的訓練數據集。
  • OmniCaptioner-IF:3B 與 7B 兩款模型,可從 Hugging Face 直接下載。
  • 雙軌評分機制:分開檢查結構格式與視覺/音訊/音視覺內容。
  • 時間定位能力:把時間戳準確度納入評分,支援需要時序分析的應用。

GitHub: https://github.com/NJU-LINK/omnicap-if

項目: https://nju-link.github.io/OmniCap-IF/

Categories: 開源, 視覺模型, 框架

AHA-WAM:讓機械人決策一致的世界動作模型

PDF

機械人學習操作技能時,往往要把「預測未來畫面」和「即時輸出動作」綁在同一個節奏上,導致規劃與控制互相拉扯。上海交通大學、百度智能雲及上海人工智能實驗室等團隊提出的 AHA-WAM(Asynchronous Horizon-Adaptive World-Action Modeling)項目,就是要把兩者拆開來處理。

核心架構:雙分支異步運作

AHA-WAM 採用兩個 Diffusion Transformer(DiT)分支:低頻的 video DiT 負責長程的視覺世界規劃,並利用滾動式 K/V 記憶體儲存可重用的上下文;高頻的 action DiT 則接收本體感覺訊號,向 video DiT 查詢所需上下文後,即時產生短時閉環動作區塊。兩者各司其職,避免互相拖累。

兩項關鍵訓練與推論機制

  • Horizon-Adaptive Offset Training(水平自適應偏移訓練):讓執行器在規劃器與執行器出現相位差時仍能穩定運作。
  • Observation-Guided Video-Context Routing(觀察引導的視覺上下文路由):根據最新觀察調整快取的規劃上下文,無需重新運行 video DiT 即可對齊當下狀態。

實測表現亮眼

在 RoboTwin 2.0 模擬環境的 50 項雙臂任務中,AHA-WAM 達到 92.80% 平均成功率,且無需任何機械人數據預訓練;在四項原始設定的真實雙手任務中則取得 78.33% 成功率。控制頻率方面,閉環頻率達 24.17Hz;經 ODE 蒸餾的輕量版 AHA-WAM-Flash 更可達 56.95Hz,相比 Fast-WAM 提升約 10.82 倍。

AHA-WAM 適合研究世界模型、機械人操控策略,以及追求高頻閉環控制的開發團隊;其異步架構亦為離線規劃與即時控制分離的設計思路提供新參考。

項目: https://serene-sivy.github.io/aha-wam/

Categories: 開源, 香港大學, 模型, 視頻模型, 世界模型, 上海人工智慧實驗室, 百度

SwiftVR:低清、模糊影片實時修復

SwiftVR qualitative comparison

把低清、模糊的影片即時變成清楚版本,一直是擴散式(diffusion-based)影片修復(VR, Video Restoration)模型的痛點:畫質漂亮,卻慢得跑不動。SwiftVR 是一個以單步生成(one-step generative)路線設計的串流修復框架,主打把高解析度延遲壓到可即時播放的範圍,同時保持擴散模型的視覺品質。

為何能跑得這麼快? 項目作者從兩個瓶頸下手。第一是空間注意力在高解析度下的二次方成本:SwiftVR 引入 MFSWA(Mask-free shifted-window self-attention),把每個空間窗口預先重排成稠密張量,讓每次注意力呼叫都走標準的 SDPA(Scaled Dot-Product Attention)路徑,省掉遮罩、循環位移、稀疏 kernel,吞吐量比全注意力教師模型提升約 1.62×。第二個瓶頸是傳統 3D VAE 解碼太笨重:他們改用一個輕量級的 ReAE(Restoration-aware Autoencoder),與 DiT(Diffusion Transformer)聯合在像素空間微調,讓分塊解碼不再卡住流水線。

數字上多誇張? 同一個權重檔,在單張 H100 上,QHD(2560×1440)24 幀約 31 FPS、4K(3840×2160)約 14 FPS,而所有比較的擴散式 VR baseline 在 4K 都 OOM(Out-of-Memory,記憶體溢位)。換到消費級的單張 RTX 5090,1080p 可達約 26 FPS,達到即時串流門檻,且全程不需重寫 kernel 或重新訓練。所有推理走預設 PyTorch SDPA 與 bfloat16。

誰適合關注? 需要為直播、視訊會議、老片修復平台做即時前處理的研究員與工程師;對 DiT、串流推理、邊緣部署有興趣的開發者;以及想找一個 open-source 起點、把生成式 VR 推上消費硬體的團隊。

與同類相比的相對位置: 對照組 DOVE、SeedVR2-3B、FlashVSR-Tiny 在 QHD 下分別約 0.85、1.39、9.61 FPS,SwiftVR 約 31.32 FPS,速度差距明顯。論文亦宣稱在無參考感知品質指標上具競爭力,但具體分數請以原論文表格為準。

重點摘要:

  • 單步生成路線:放棄多步擴散,以一步生成換取低延遲。
  • MFSWA 注意力:把窗口預聚集成稠密張量,繞過稀疏 kernel。
  • ReAE 解碼器:取代 3D VAE,解放分塊解碼的瓶頸。
  • 因果分塊串流:無滾動 KV、快取即可限制時間軸成本。
  • 消費級硬體可達即時:RTX 5090 1080p 約 26 FPS,H100 一路到 4K。

GitHub: https://github.com/H-oliday/SwiftVR

項目: https://h-oliday.github.io/SwiftVR/

Categories: 開源, 影像處理, 模型, 視頻模型

OASIS:模擬訓練、部署人形機器人框架

Cover

OASIS(Simulation Data Collection to Real-World Humanoid Loco-Manipulation)由中國電信 TeleAI 等機構開源,目標是讓人形機器人的「移動+操作」(loco-manipulation)策略,靠模擬數據訓練後就能直接搬到 Unitree G1 真機執行,省去費時的真機遙操作。

整個流程有三個核心階段。先用 3D 生成模型把真實物品影像重建為可用的 3D 資產;接著透過 PICO VR 頭盔搭配 Isaac Lab v2.1.0 進行沉浸式遙操作收集示範數據,過程中 PICO 會即時接收頭部相機畫面,X、Y、A、B 鍵分別負責錄影、停止、重置、視角切換,板機與握把可控制夾爪開合;最後在 replay 階段加入多樣化的光照與環境隨機化,並訓練層次化視覺運動策略(hierarchical visuomotor policy)。

論文結果指出,在零樣本(zero-shot)部署下,純模擬數據訓練的策略在大多數任務的成功率,反而高於用真機遙操作數據訓練的版本,主要原因是模擬能涵蓋真機難以拍攝的光照與環境變化。團隊也展示了一鍵重啟的故障恢復機制,解決真機跌倒後需要人工搬運、重置場景的痛點。

OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation

幾個重點摘要:

  • 項目定位:模擬數據驅動的人形機器人 loco-manipulation 框架,並非通用 LLM 或多模態模型
  • 創新處:以 3D 生成模型重建資產,加上後處理階段的 domain randomization,解決模擬到真機的差距
  • 相關模型/組件:Unitree G1 人形機器人、Isaac Lab 模擬器、PICO VR、PICO SDK、GMR、XRoboToolkit
  • 硬體要求:PC 必須安裝 Ubuntu 22.04,PICO 須與 PC 處於同一網段
  • 適用場景:研究 humanoid 移動操作、想用模擬取代部分真機遙操作成本、Unitree G1 開發者

適合機器人研究團隊、人形機器人開發者,以及想嘗試 sim-to-real 路線的人。不過整套環境對 VR 設備與 Linux 版本要求嚴格,純 Windows 或 Mac 用戶門檻偏高,建議先評估手上硬體是否到位再投入。

GitHub: https://github.com/TeleHuman/OASIS

Paper: https://arxiv.org/pdf/2606.08548

Categories: 開源, Robotic, 框架

Bayesian-Agent:讓代理流程愈跑愈準

Bayesian-Agent banner

Bayesian-Agent 是一個 Bayesian self-evolving agent framework,更準確地說,它像是疊在代理系統之上的演化層:把已驗證的 agent trajectories 整理成可重用、帶證據權重的 Skills 與 SOPs。它不改動底層模型參數,而是調整推理階段可見的證據、失敗模式與流程選擇,目標是令代理在有限樣本下也能持續修正決策。

這個項目最實用的地方,在於它不要求你由零重建整套系統。文件顯示它支援三種路線:從零開始跑完整任務、接到既有代理後只修補失敗軌跡、以及在不同 execution harness 之間轉接。對手上已有 agent workflow 的團隊來說,這比重新訓練模型更貼近日常維護需要。

v0.5 加入 first-party native harness,內含自己的 LLM loop、workspace tools、三層記憶與 trajectory capture;同時保留 GenericAgent、mini-swe-agent、Claude Code 等 compatibility backends。這表示項目的重點不是綁死某一套框架,而是用可攜的 trajectory schema 和 adapter boundary,令 Skills 演化結果能跨環境沿用。

  • 核心定位是 Bayesian Skill Evolution,不是單純聊天模型
  • 可把 verified success/failure evidence 轉成可重用 Skills 與 SOPs
  • 支援 full-run evolution、incremental repair、cross-harness adaptation
  • 內建 Bayesian Evidence Model,亦保留 Beta-Bernoulli backend 作 ablations
  • 適合已有代理流程、想減少重試成本與修復失敗任務的團隊

表現方面,公開資訊提到 SOP-Bench、Lifelong AgentBench、RealFin-Bench 的實驗結果,並列出 deepseek-v4-flash 與 deepseek-v4-pro 的 native-harness 測試,但這裡未見完整數字,較穩妥的判斷是:項目已朝可比較、可驗證的方向整理實驗,而不是只停留在概念。若你正管理會反覆執行任務的 agent 項目,尤其需要判斷何時停止、重試或重寫流程,Bayesian-Agent 的價值會比一次性 Demo 更明顯。

GitHub: https://github.com/DataArcTech/Bayesian-Agent

項目: https://dataarctech.github.io/Bayesian-Agent/

Categories: 開源, 香港科技大學, Agentic, 框架

CoVEBench 檢查影片編輯模型的真功夫

近年不少影片編輯模型已能根據文字改片,但一遇到多個要求同時出現,例如一邊改主體、一邊保留背景與動作連貫,表現就容易失準。CoVEBench 是一個診斷型 benchmark,專門檢查 compositional instruction-guided video editing 在複雜條件下是否真的做得到。

這項目的判斷方法比一般「整體看起來差不多」更嚴格。它把表現分成指令完成度、畫質與來源保真度三條線來看,並用細緻 checklist 檢查多個編輯點有沒有同時成立;就算模型個別要求做到幾項,只要無法通過 union criterion,分數仍然不高,這種設計能更早看出模型短板。

如果想了解它的內容,較合適的做法是先看示範頁與資料集規模,再對照評估指標。CoVEBench 收錄 416 段來源影片、626 條多重指令、9,990 個細項檢查點,預設會抽取 10 張等距 frame 做 frame-level metrics;AES、VQR、MSM 則只針對 edited videos 計算,方便把「改得夠不夠」與「有沒有改壞其他地方」分開分析。

  • 核心用途是評測 video editing models,不是直接拿來剪片
  • 主要指標包括 Union Accuracy(UAS)、Instruction Following Score(IFS)、Video Realism Score(VRS)、Semantic Consistency(SEM)
  • 設計重點在細粒度 checklist,而非只看單一總分
  • 結果顯示強模型未必兼顧保留原片內容,編輯力度與保真度存在拉扯
  • 項目亦比較了 joint editing 與 stepwise decomposition 的差異,前者表現更好

從公開資訊看,CoVEBench 的價值在於它把失敗原因拆得夠清楚,適合研究團隊、評測人員,以及想比較閉源與開源方案的人參考。相關模型包括 Wan2.7 與 HappyHorse1.0;即使領先系統在複合編輯上較強,UAS 仍未算高,反映這個領域離穩定可靠還有一段距離。

GitHub: https://github.com/NJU-LINK/CoVEBench

項目: https://nju-link.github.io/CoVEBench/

Categories: 開源, 影像處理, 框架

Echo-Memory 讓世界模型認得回家的路

Echo-Memory paper teaser and workflow

當 AI 影片模型控制鏡頭離開某個場景再折返時,常常會「認錯地方」——同一條街、同一件家具,回來時卻變成另一個看起來合理、但其實陌生的世界。Echo-Memory 想解的,正是這個讓生成影片失去一致性的老問題。整個研究的設計非常克制:只更換「記憶模組」,其餘一概不動。

Echo-Memory 以同一套 Wan 2.1 1.3B 動作到影片(action-to-video)模型作為共用底座,把記憶方式分成四大類——Context(原始幀滑窗)、Compression(壓縮後的學習 token)、Spatial(顯式空間讀寫狀態)、State-Space(區塊式 SSM 遞迴更新)。所有變體都掛在相同的寫入—讀取介面上,差別只在於「存什麼」和「怎麼取回」。這種單一變因的設定,讓四種記憶家族的表現可以乾乾淨淨地比較。

對研究員和工程師而言,項目提供了開發者指南。Echo-Team 已把訓練到 30,000 步的 Wan 2.1 1.3B 權重放在 Hugging Face 的 Echo-Team/Echo-Memory,並附上 SpatialVID 子集的動態訓練池設定文件,開發者指南亦提供中英雙語流程。評測方面,項目提供 GT replay、in-domain 180 度折返,以及 open-domain 編輯式回訪三種探測腳本,涵蓋靜態回放和場景重訪兩個維度。

要注意的是,目前的權重僅限 Wan 2.1 1.3B(epoch-0),Wan 2.2 以及 5B/14B 多尺度底座、以及超越靜態重訪的動態評測,仍列在路線圖上等待補齊。對於研究世界模型長期一致性、做可控影片生成,或是想在 LoRA/記憶外掛(memory adapter)方向動手的人,這個項目提供了一個難得的可重現基準;對一般讀者來說,它也示範了當鏡頭「回家」時,AI 為何會迷路、又該怎麼讓它記路。

重點摘要:

  • 統一底座、只換記憶:以 Wan 2.1 1.3B 為共用骨幹,比較 Context、Compression、Spatial、State-Space 四種記憶家族。
  • 可控變因設計:所有模組共享寫入—讀取介面,差異集中在「存什麼、怎麼取回」。
  • 完整可重現資源:公開 30,000 步權重、SpatialVID 訓練池設定、雙語開發者指南與評測腳本。
  • 三種回訪探測:GT replay、in-domain 180 度折返、open-domain 編輯式回訪,分別檢驗重播與折返記憶。
  • 未來路線:Wan 2.2、5B/14B 多尺度底座與動態評測仍待補齊。

GitHub: https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory

項目: https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/

Categories: 開源, 香港大學, 香港科技大學, 框架, 清華大學, 北京大學

LatentSpatialMemory:Mirage 影片世界模型:把 3D 記憶藏在潛在空間裡

Latent Spatial Memory logo

由微軟研究院、浙江大學、阿德萊德大學及 Monash University 共同發表的 Mirage,主打一個名為「Latent Spatial Memory」的方法,目標是讓 AI 影片世界模型在長序列生成時,仍能維持空間一致性。傳統做法會把 3D 場景快取為點雲,再反覆渲染成 RGB 影像重新編碼,Mirage 則直接把靜態場景以 3D latent tokens 儲存,於潛在空間中完成讀取、去噪與更新,繞開了 RGB 來回轉換的開銷。

這個項目想解決的問題很明確:影片世界模型在長時間生成下,3D 快取會愈來愈大、速度愈來愈慢,但場景內容其實變化有限。 Mirage 把「場景記憶」與「生成流程」解耦,用一套 Initialize、Read、Denoise、Update 的記憶生命週期,讓模型在生成每個 chunk 時直接讀寫一份共享的潛在快取,省下重複編碼的成本。

依據官方項目頁公布的 World-R1 基準數據,Mirage 達到約 70.36 的 WorldScore 平均成績,生成速度達到 10.57 倍提升,3D 快取記憶體用量則降低約 55 倍。論文亦提供與 Spatia、Voyager、Gen3C、VMem 等四個基準的定性比較,覆蓋同一軌跡下的條件輸入結果。官方程式碼則標示為「Coming Soon」,目前較適合研究員先閱讀論文與項目頁示範影片。

這個項目特別適合研究影片世界模型、3D 場景理解或擴散模型加速的團隊與學生,亦可作為 generative world model 課程的延伸閱讀。 對一般讀者而言,它展示了把「記憶」留在潛在空間而不還原成像素,是兼顧一致性與效率的可行方向。

重點摘要:

  • 核心方法:以 3D latent tokens 儲存靜態場景,避免 RGB render-and-reencode。
  • 記憶生命週期:Initialize、Read、Denoise、Update 四個步驟跨 chunk 共享快取。
  • 效率數據:World-R1 上生成速度約 10.57 倍、3D 快取記憶體降約 55 倍、WorldScore 70.36。
  • 比較基準:Spatia、Voyager、Gen3C、VMem。
  • 目前狀態:論文已公開,程式碼尚未釋出。

GitHub: https://github.com/microsoft/LatentSpatialMemory

項目: https://microsoft.github.io/LatentSpatialMemory/

Categories: 開源, 模型, 框架

Page 5 of 43
1 3 4 5 6 7 43