OVO-S-Bench:考驗多模態模型的串流空間智能

OVO-S-Bench overview

由清華大學、上海 AI 實驗室及北京航空航天大學共同推出的 OVO-S-Bench,是一套專門測試多模態大型語言模型 (Multimodal Large Language Models, MLLMs) 在連續影片中空間理解能力的基準。它針對機械人、AR 眼鏡和自動駕駛等需要「邊看邊想」的真實場景,要求模型根據問題時間點之前看到的畫面片段,推理出地點與佈局的變化,而非讀取整段影片。

題目來源相當多元,涵蓋室內導覽、第一視角活動、戶外場景、駕駛影片及帶有 3D 註解的環境,共 348 段影片。12 位具備 3D 視覺背景的標註員耗時約 804 小時撰寫及反覆核對每條題目,並透過「文字探針」和盲測覆核機制,剔除可憑題幹文字或常識直接答對的題目,確保難度真正來自空間理解。

題目分為四個難度層級,由當下畫面的瞬時感知 (Instantaneous Egocentric Perception)、追蹤離開視野的空間脈絡 (Spatiotemporal Context Tracking)、推測空間變化的生成式推理 (Generative Spatial Reasoning),到建構全局拓樸地圖 (Global Topological Mapping)。在 38 個開源及商用模型的評估中,即使是表現最佳的 Gemini-3.1-Pro,分數仍比人類專家低 27 分 (59.2 比 86.6),全局拓樸層級是最大的樽頸。

更值得留意的是,部分聲稱針對串流或空間任務微調的模型,表現反而不如其底層基座模型;而無根據的思維鏈 (chain-of-thought) 推理,往往會放大空間錯誤。這套基準為下一代串流空間模型提供了清晰且嚴謹的試金石。

重點摘要:

  • 涵蓋 1,680 條人工撰寫題目及 348 段影片,總標註工時約 804 小時
  • 設有問題時間點及證據區間,評估時模型只看到查詢前的影片片段
  • 分為四個遞進難度層級,由瞬時感知到全局拓樸建圖
  • 38 款 MLLM 中,Gemini-3.1-Pro 取得 59.2 分,人類專家為 86.6 分
  • 串流及空間微調模型表現可能反遜於原底座模型

GitHub: https://github.com/InternLM/OVO-S-Bench

項目: https://internlm.github.io/OVO-S-Bench/

Categories: 開源, 清華大學, 框架, 上海人工智慧實驗室

PaddleOCR 把圖片和 PDF 變成 LLM 吃得到的結構化資料

Star-history

處理 PDF 和圖片一直是企業導入 LLM 應用時最頭痛的關卡,傳統 OCR 工具只會吐出零散文字,遇到表格、公式或多語言混排就頻頻出錯。PaddleOCR 由百度 PaddlePaddle 團隊開源,目標是把雜亂的掃描檔和圖片整理成 LLM 友善的 JSON 或 Markdown,後續無論餵給 RAG 檢索還是 Agent 流程都更順暢。

這個項目以兩個核心模型撐起整套能力。PaddleOCR-VL-1.6 是一款 0.9B 參數的視覺語言模型,專注文件解析,在 OmniDocBench v1.6 取得 96.33% 分數,對古文、罕見字、印章及圖表也有顯著強化。PP-StructureV3 則補足了另一條路線,提供表格儲存格、文字等更細粒度的座標資訊,方便需要版面重建的場景。最新版 PP-OCRv5 支援 100 多種語言,準確度較前代提升約 13%,同時保持輕量部署特性,可在 CPU、GPU、NPU 等不同硬體運行。

目前的 LLM-RAG 開源生態中,Dify、RAGFlow、Cherry Studio 等知名項目都採用 PaddleOCR 作為文件解析層,社群也累積超過 6,000 個依賴它的下游項目。對需要批次處理合約、研究論文、政府公文或多語文件的人來說,這套工具兼具商用級準確度與邊緣裝置可用的效率,動手前只要準備好 Python 3.8 至 3.12 環境即可開始試跑。

重點摘要

  • PaddleOCR-VL-1.6 (0.9B) 在 OmniDocBench v1.6 達到 96.33%,輕量卻具競爭力。
  • PP-StructureV3 補足細粒度座標,適合需要表格與版面重建的應用。
  • PP-OCRv5 支援逾 100 種語言,準確度較前代提升約 13%,硬體需求低。
  • 已被 Dify、RAGFlow、Cherry Studio 等 LLM 應用項目整合採用。
  • GitHub 逾 7 萬顆星、6,000 多個依賴項目,社群驗證度高。

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Paper: https://arxiv.org/pdf/2606.03264

Categories: 開源, 模型, 視覺模型, 中國, Dataset 數據集, 百度

Crafter:把科研圖表交給多智能體助手

crafter architecture

做研究的人都遇過這種困擾:論文裡的圖表要花好幾個小時排版、微調細節,市面上的 AI 生圖工具又常常「整體不錯、局部出錯」,改一個元素就把整張圖搞砸。Crafter 正是針對這個痛點而來,它不是把底層生成模型換得更強,而是在外面包了一層多智能體(multi-agent)協作框架,專門處理「結構化、由離散語意元件組成」的科研圖表。

這個項目分為兩個互補系統。Crafter 負責生成,覆蓋學術圖、海報、資訊圖三種類型,並支援文字生圖、遮罩補完、關鍵元素組合、草圖優化等四種輸入條件,不需要更動架構就能切換。CraftEditor 則把生成的點陣圖轉成「座標精準、可後續編輯」的 SVG 格式,研究者終於可以像在 Illustrator 裡那樣挑出單一元件修改。

為了評估效果,團隊同步釋出 CraftBench——一個 279 筆樣本的基準集,每個樣本都附有人工繪製的參考圖,跨越三種圖表類型與四種輸入條件。在 PaperBanana-Bench 與 CraftBench 上,Crafter 都明顯優於單一生成器與既有的 agentic 基線。CraftEditor 轉出的 SVG 在可編輯性上也勝過所有對照組。

生成部分只要設定 OpenAI 相容端點(例如 OpenRouter)即可跑範例;想啟用 CraftEditor 還需要額外架設一個 SAM3 語意分割伺服器。

重點摘要

  • 解決科研圖表「局部錯誤難修、難以再編輯」的問題
  • 採用多智能體協作框架,不需更換底層模型即可跨類型、跨輸入條件生成
  • 內建 Crafter 生成與 CraftEditor 點陣轉 SVG 兩套流程
  • 釋出 CraftBench 評測集,含 279 筆人工標註樣本
  • 適合需要大量產出與修改學術插圖的研究者、團隊與會議海報設計者

GitHub: https://github.com/HaozheZhao/Crafter

Paper: https://arxiv.org/pdf/2605.30611

Categories: 開源, 中國, Dataset 數據集, 北京大學, 清華大學, 框架

Lumos-Custom:DAMO 學院的影片生成套件

ETV task prompt

Lumos-Custom 是阿里巴巴DAMO 學院的開源影片定制研究合集,把三個子項目整合在同一個儲存庫,方便研究者各自取用。三個子項目分別對應不同的影片生成難題:身份與屬性定制、打光控制,以及結合推理的統一生成。

其中最受關注的是 Lumos-Nexus (arXiv 2605.31603)。它解決了一個長期痛點:把大型高保真生成器放進統一訓練迴圈成本太高,改為訓練一個輕量的連接器對齊理解模組,再用「Unified Progressive Frequency Bridging (UPFB)」在推論時把任務交接給預訓練的高容量生成器,既省訓練資源又保留視覺品質。為了補足推理類影片生成的評測空白,作者還發布了 VR-Bench

第二個項目是 LumosX,已被 ICLR 2026 接收。它的切入點是「多主體個性化影片生成」:先用字幕與 MLLM 抽取的先驗建構關係結構,再透過 Relational Self-Attention 與 Relational Cross-Attention 編碼主體與屬性之間的依賴。評測資源集中在 LumosX/benchmark/,權重已上傳 Hugging Face。

第三個項目是 UniLumos(NeurIPS 2025),專注於圖像與影片的統一重新打光,採用 RGB 空間幾何回饋配合 flow-matching 主幹,適合需要控制光影的研究與應用場景。

總結要點:

  • ** DAMO 是 Discovery, Adventure, Momentum and Outlook
  • Lumos-Nexus:輕量訓練搭配 UPFB 頻率交接,兼顧推理品質與視覺保真度
  • LumosX:以關係式注意力處理多主體個性化生成,附 benchmark 與 Hugging Face 權重
  • UniLumos:統一圖片與影片重新打光,採用 flow-matching 與幾何回饋
  • VR-Bench:補上推理驅動影片生成的評測缺口
  • 子項目獨立部署:每個子項目都有獨立 README,支援單獨安裝與重現

這個項目適合研究影片生成、多模態統一模型與個性化生成的研究者與工程師。如果你想驗證 Lumos-Nexus 的推理影片效果,可進入 Lumos-Nexus/ 跟隨 README 取得 OmniVideo 權重並跑批次推論;想評測打光則可參考 UniLumos 提供的流程。

✧ Repository layout ✧

Lumos-Custom/
├── README.md                 # This file: umbrella overview
├── LumosX/                   # ICLR 2026 · personalized multi-subject video generation
│   └── README.md
├── UniLumos/                 # NeurIPS 2025 · unified relighting + LumosBench/
│   ├── README.md
│   └── LumosBench/
└── Lumos-Nexus/              # arXiv preprint · reasoning-driven unified video generation + VR-Bench
    ├── README.md
    └── vr_bench_eval/

GitHub: https://github.com/alibaba-damo-academy/Lumos-Custom

項目: https://jiazheng-xing.github.io/nexus-lumos-home/

Categories: 開源, 阿里巴巴, 香港科技大學, 影像模型, 視頻模型, 清華大學

ClawTrojan:揭開代理工具的隱藏後門危機

ClawTrojan benchmark overview

隨著 LLM 代理開始具備讀寫檔案、呼叫工具的能力,惡意指令不再只藏在當下對話中,而是能被植入工作區,潛伏到日後才發動。ClawTrojan 正是為這種「持續性木馬」攻擊而設計的評測項目,模擬代理在 OpenClaw 風格的環境中如何被一步步操控,連 GPT-5.4 都曾達到 95.5% 的攻擊成功率。

在採用 GPT-5.4 的 OpenClaw 模擬工作空間中,ClawTrojan 的攻擊成功率 (ASR) 高達 95.5%,而現有的單回合提示注入攻擊在同一模型上的 ASR 幾乎為零。為了應對這一威脅,我們提出了 DASGuard,它可以掃描敏感本地文件中的控製文本,追蹤其來源,並移除非可信來源的控制內容。

這個項目解決了傳統單輪防禦的盲點:每一步看似無害,但串連起來就能把不可信文字變成持久控制內容。ClawTrojan 內建範例、步驟標註與可執行的工作區,方便研究者重現攻擊鏈。

配套的 DASGuard 防禦機制是另一亮點。它會掃描敏感本地檔案中的控制類文字,追蹤來源是否可信,並在執行階段阻擋攻擊同時清理已污染的內容。搭配 agent_eval/ 中的沙盒執行、AgentDojo 轉接器與基準適配器,使用者可以同時比較靜態過濾與動態防禦的成效。

這個項目特別適合關注 LLM 代理安全、AI 紅隊演練或企業內部工具防護的團隊。對一般使用者而言,理解它的價值在於:現成的代理並非滴水不漏,部署前需要這類多步驟壓測來找出漏洞。

重點摘要

  • 專注於「多步木馬」場景,補上單輪提示注入防禦的缺口
  • 在 GPT-5.4 上展示 95.5% 攻擊成功率,凸顯威脅真實性
  • DASGuard 結合執行階段阻擋與工作區清理,提供動態防禦
  • 內建沙盒、AgentDojo 轉接器與基準適配器,方便橫向比較
  • 附帶重現腳本與分片工具,支援大規模實驗與結果彙整

GitHub: https://github.com/RUC-NLPIR/ClawTrojan

Paper: https://arxiv.org/pdf/2605.31042

Categories: 開源, Agentic, 中國, 框架, Skill 技能

Qwen-VLA 用單一模型打通機械人任務

Hero image preview

Qwen-VLA 是一個把視覺、語言與動作整合起來的項目,目標是用同一套模型處理機械人操作、導航,以及軌跡預測。過往很多 embodied intelligence 系統都只針對單一任務或單一機械人設計,結果是能力分散,換場景、換任務或換機體後便難以沿用。

這個項目以 Qwen3.5 Vision-Language Model 為基礎,再加入 DiT-based action decoder,令模型不只看圖和理解文字,還能產生連續動作與軌跡。研究團隊亦加入 embodiment-aware prompt conditioning,用機械人專屬文字描述去標示當前機體與控制方式,讓同一模型可支援多種 robot embodiments。

核心概念是把不同類型資料一同訓練,包括 robotics manipulation trajectories、human egocentric demonstrations、synthetic simulation data、vision-and-language navigation data,以及 auxiliary vision-language data。對開發者來說,這代表項目不是只做問答或只做控制,而是把 manipulation、navigation 與 trajectory prediction 放進同一個 action-and-trajectory prediction 框架。

重點可先看以下幾項:
– 用單一 Vision-Language-Action Model 處理多類 embodied 任務
– 同時支援文字回應、動作生成與軌跡生成
– 透過 embodiment-aware prompt conditioning 適配不同機械人平台
– 強調 out-of-distribution generalization,涵蓋光線、背景、物件配置與機體變化
– 適合研究通用機械人控制、跨任務遷移與多平台部署的人員

論文列出 Qwen-VLA-Instruct 在多個基準上有不錯表現,包括 LIBERO 97.9%、Simpler-WidowX 73.7%、RoboTwin-Easy/Hard 86.1/87.2%、R2R 的 69.0% OSR、RxR 的 59.6% SR;在真實世界 ALOHA 實驗亦錄得 76.9% average OOD success,在 DOMINO dynamic manipulation 有 26.6% zero-shot success rate。若你關注的是一個可橫跨任務、環境與 robot embodiments 的通用型項目,展示了統一式 Vision-Language-Action Modeling 的清晰方向。

Paper: https://arxiv.org/pdf/2605.30280

Categories: 阿里巴巴, Agentic, 模型, 世界模型, 中國

AgentDoG:輕量級 AI agent 安全護欄

AgentDoG Welcome

AgentDoG 1.5 是一個針對 AI agent 安全與對齊的項目,重點不只是事後評分,而是把風險診斷、訓練同線上護欄串連起來。它面對的是長流程規劃、工具調用,以及跨環境互動帶來的新風險,特別貼近 OpenClaw、Codex 這類 agent 場景。

使用這個項目時,可先到 Hugging Face 或 ModelScope 找出以 AgentDoG- 開頭的 checkpoints,再按自己要做的是安全分類、訓練還是線上監察去配合相應模型。對一般團隊來說,最容易理解的用途是把它當成部署前的安全檢查器,或部署中的即時守門員。

這個項目的核心進展,在於它用更新過的 agent safety taxonomy 配合 ATBench family,把安全問題拆成更細緻的風險類型,再用大約 1k 訓練樣本建立輕量版本。公開資料亦提到它提供 0.8B、2B、4B、8B 等型號,並支援 agentic SFT 與 RL 訓練流程,令成本和擴展性較易控制。

  • 支援 AgentDoG-0.8B、AgentDoG-2B、AgentDoG-4B、AgentDoG-8B 等版本
  • 針對 ATBench-Pro、AT-Codex、AT-Claw 等基準作安全診斷
  • 標準 8-core 機器可支援超過 10,000 個並行 agentic environments
  • 可作 training-free online guardrail,用於即時安全監察與介入

資料顯示,AgentDoG 1.5 在多個基準上可接近,甚至部分情況超過 GPT-5.4、Gemini-3-Flash、Qwen3.5-397B、Qwen3-235B、Qwen3-Guard 等模型;其中 AgentDoG-4B 與 AgentDoG-4B-U 的結果較突出。不過不同數據集差異明顯,較穩妥的看法是:它在 agent 安全這個窄而深的任務上很有競爭力。

這個項目較適合正在做 AI agent、工具調用工作流、企業自動化,或需要把安全檢查放進部署流程的團隊。若你關心的不是聊天效果,而是 agent 會否在複雜環境中做錯事、越權或造成真實風險,AgentDoG 的定位就相當清晰。

GitHub: https://github.com/AI45Lab/AgentDoG

Categories: 開源, Agentic, 安全, 模型, 編程, 中國, 上海人工智慧實驗室

LiteCoder:輕量編程代理再推前一步

image.png

LiteCoder 是一個圍繞終端機代理訓練的項目,核心目標很清楚:讓小型和中型 code agent 模型,在 command-line 工作流中做得更好。它今次公開的不只是 LiteCoder-Terminal-SFT 模型與資料,還包括 11,255 條軌跡資料,以及 602 個附完整測試的 Harbor terminal environments,整體比單放模型更有研究價值。

一般 coding model 比較像「幫你寫 code」。
這個更像「幫你在 terminal 裡完成任務」,所以它的重點是行動能力,不是只會生成代碼片段 。

這個項目主要回應兩個常見難題:一是 terminal agent 訓練資料難找,二是很多任務描述無法直接驗證成效。LiteCoder 以可執行環境取代純文字題目,並把任務整理成可測試約束,令模型學到的不只是答題格式,而是多步驟操作、回饋修正與狀態轉換。

使用時可先從已公開的模型與 datasets 入手,再配合 GitHub 內的 code 檢視資料結構、環境生成方法與訓練脈絡。對研究者或工程團隊來說,這種「模型+資料+環境」一套齊的形式,方便重現結果,也方便延伸到 RL、偏好優化或自家 terminal 任務。

  • 已公開相關模型:LiteCoder-Terminal-30b-a3b-sft、LiteCoder-Terminal-4b-sft
  • 已公開相關資料:LiteCoder-Terminal-SFT、LiteCoder-Terminal-World-Model-SFT、LiteCoder-Terminal-RL-preview
  • 資料規模由不足 1k 擴大到 11,255 trajectories,涵蓋 10 個 domains
  • 訓練由 Terminus-only 擴展到 multi-scaffold,任務類別也加入 coding、scientific/numerical computing、games
  • 基準結果較前一版提升,並報告 Terminal Bench 1.0/2.0/Pro 與 pass@4

從論文附帶資訊看,Qwen-family models 經過 Supervised Fine-Tuning(SFT)後,表現明顯優於 base model;其中 32B 版本在 Terminal Bench 1.0、2.0、Pro 的 pass@1 分別達 29.06%、18.54%、34.00%。數字不算誇張,但對長步驟 terminal 任務來說已有參考意義。

這個項目特別適合想研究 Computer-use agents、CLI agent、合成環境生成,或想建立可驗證訓練流程的人。若你關心的不是聊天回覆,而是模型能否在終端機內逐步完成工作,LiteCoder 提供了一條相對完整而且可追蹤的路線。

GitHub: https://github.com/icip-cas/LiteCoder

Paper: https://arxiv.org/pdf/2605.29559

Categories: 開源, Agentic, 模型, 編程, 中國

AsyncTool 點樣測試代理多工工具能力

Dataset construction pipeline

AsyncTool 是一個基準測試項目,重點不在教模型怎樣調用工具,而是檢查它在多個任務同時進行、而 Function Calling 回應又有延遲時,會否亂了節奏。一般工具使用測試多數假設結果即時返回,但這個項目刻意加入等待時間,看看代理能否先處理其他不相依的步驟。

AsyncTool 主要是透過儲存庫內的 runner 與評估腳本,將模型接到模擬工具環境,再比較它在同步與非同步情境下的表現。同時可配合 OpenRouter API 的 deepseek/deepseek-chat-v3.1:free,亦可接本地 vLLM endpoint 上的 Qwen/Qwen2.5-7B-Instruct,對想測試不同部署方式的人算是方便。

AsyncTool 把「等工具結果時應否轉做別的事」變成可量化問題。它不單看工具有沒有調對,還會檢查代理是否記得任務狀態、能否遵守步驟依賴、何時切換任務,以及最後能否完整完成整個流程。

  • 核心焦點是 asynchronous tool calling,不是假設工具即時回應
  • 評分分成 step-level、sub-task-level、task-level 三層
  • 會觀察 task switching 時機,而非只計切換次數
  • 內含 benchmark data、tool executors、evaluation scripts

項目顯示不少模型在同步設定下尚可,但遇上非同步延遲後,成功率會明顯下跌。這反映問題未必在於模型不懂用工具,而是它未必擅長長時間追蹤依賴關係和維持多項目狀態。

這項目適合研究 LLM-based agents、agentic workflow、工具調用編排的人,也適合想替自家代理流程做壓力測試的團隊。若你關心的不是單一步驟答對,而是代理在繁忙環境下能否穩定完成工作,AsyncTool 的測試角度相當有參考價值。

項目由中國科學技術大學及多倫多大學合作

GitHub: https://github.com/StoKou/repo-asynctool

Categories: 開源, Agentic, 中國, 框架

GenClaw 用寫程式方式改造 AI 生成圖

teaser

GenClaw 是一個研究中的項目,核心不是不停改 prompt,而是把程式碼變成可控制的視覺草稿,再交給圖像模型完成渲染。對一般讀者來說,可以把它理解成先畫草圖、定位置、排文字,之後才交由 AI 上色和補質感。

這個項目想處理的痛點很明確:很多 image generation 流程仍然像黑盒,生成失敗時只能反覆重寫提示詞碰運氣。GenClaw 將流程拆成 concept、sketch、render 幾步,令畫面中的物件數量、空間配置,甚至文字排版,都有機會透過可執行程式直接調整。

這做法結合搜尋、推理與程式繪圖,使用 SVG、HTML/CSS、Python,亦提到 Three.js 這類輕量 3D 方式來建立中間畫布;最後再調用 image generation model 補上材質、光影與真實感。這種設計比單次生成更容易檢查、修改,亦較貼近人類由草稿到完稿的創作步驟。

  • 把程式碼當成視覺畫筆,而非只靠文字提示
  • 適合複雜場景、海報文字、空間佈局等要求較高的畫面
  • 中間結果可檢查與回退,降低黑盒生成的不確定性
  • 論文提到可配合 GPT-Image、Qwen-Image、Nano-Banana 一類模型理解其定位

現階段要留意的是,儲存庫已公開 technical report,但 code 和 demo 仍在準備中,所以目前較適合先讀論文了解方法,再觀察後續釋出。從論文描述看,它較適合做視覺生成研究、代理系統開發,或者需要高控制度圖像流程的團隊;至於效能評估,公開頁面以方法與示例為主,較完整的量化表現仍需以論文內容和日後程式發布為準。

GitHub: https://github.com/yejy53/GenClaw

Paper: https://arxiv.org/pdf/2605.30248

Categories: 開源, 香港中文大學, Agentic, 清華大學

Page 3 of 7
1 2 3 4 5 7