SpaceDG 評測:模糊影像下的空間推理

logo

SpaceDG是一個圍繞空間理解而設的評測項目,重點不在「清晰圖片答得幾好」,而是進一步檢查圖片出現模糊、低光、壓縮失真、天氣干擾或鏡頭變形之後,模型仲能否判斷方向、位置同物件關係。這點很貼近真實環境,因為不少現場影像本來就未必完美。

動手方式相當清楚:先按項目提供的 EASI 流程準備環境,再下載 SpaceDG-Bench 數據,之後便可把自己的多模態模型放入同一套評測框架比較表現。對研究或產品測試來說,這比單看一般 VQA 分數更有參考價值,因為它專門檢查模型在「睇得唔清楚」時會點樣失準。

這個項目的特別之處,在於它不是隨便加噪聲,而是把九種影像退化效果納入 3D Gaussian Splatting 渲染流程,令退化更接近物理成因。公開資料顯示,整體數據規模約有 100 萬組問答,覆蓋接近 1,000 個室內場景,另有人工驗證的 SpaceDG-Bench,包含 1,102 條問題、11類推理任務與超過 1 萬個 VQA 例子。

  • 已評測 25 個開源及閉源模型,覆蓋面算廣
  • 影像退化會普遍拉低空間推理表現,人類亦同樣受影響
  • 退化監督微調可同時改善乾淨與受干擾圖片的表現
  • 物件計數等細節感知,似乎比部分幾何推理更易受影響
  • 文中提到的相關模型包括 GPT-5.4、Gemini-3.1-Pro、Qwen3.6Plus、InternVL 3.5-38B 及作者的 8B 版本

整體來看,SpaceDG最適合做模型評估、穩健性研究,以及需要處理監控、機械人、室內導航等場景的團隊。若你關心的不只是模型「最好情況」有幾叻,而是它在普通甚至較差畫面下是否仍可靠,這個項目相當值得留意;至於個別分數與完整設定,仍建議配合論文與基準頁面一併閱讀。

GitHub: https://github.com/Visionary-Laboratory/SpaceDG

Paper: https://arxiv.org/pdf/2605.22536

Categories: 開源, 上海人工智慧實驗室, 框架

Pi-Bench 點評:測試主動型助手夠唔夠醒

Pi-Bench Overview

OpenClaw 等個人助理代理的興起凸顯了大型語言模型在支援使用者日常生活和工作方面日益增長的潛力。這些環境中的一個核心挑戰是主動協助,因為使用者通常從未明確說明的請求開始,而未說明重要的需求、限製或偏好。

Pi-Bench 不是一般聊天問答,而是評測檢查個人助手型代理在長流程工作中,能否及早察覺用戶未講出口的需要。這類情境很常見,因為不少人一開始只會講大方向,細節、限制同偏好往往在後續對話才慢慢浮現。

這個項目收錄了 100 個多輪任務,涵蓋 researcher、marketer、pharmacist、law trainee、financier 五類角色,並且把任務放進可持續保存的工作空間,模擬跨時段處理事情的情況。相比只測短回合回答的基準,它更接近「一路做、一路補需求」的助手工作模式。

Pi-Bench 的特別之處,在於它同時看兩件事:助手夠不夠主動,以及最後交付是否完整。前者會看系統能否提早推斷隱藏意圖,或主動追問關鍵資訊;後者則檢查輸出是否符合清單要求。README 提到評分包含隱藏意圖判斷與 checklist 驗證,而且審核分歧低於 4%,顯示評估設計有一定穩定性。

對研究代理系統、評估 LLM 助手,或者想比較 OpenClaw、Nanobot、Claude Code 一類模型/系統表現的人,這個項目幾有參考價值。使用時重點不是「跑出高分」本身,而是觀察模型在哪些回合漏問、忘記前文,或者只懂被動完成指令。

  • 針對長流程、多輪互動,不只測單次回答
  • 納入隱藏需求、跨任務依賴與跨 session 延續性
  • 以主動性與完整度兩條線一齊評估
  • 包含 5 種角色、100 個任務,場景較立體
  • 適合比較個人助手型代理,而非純文字問答模型

整體來說,Pi-Bench 最有價值的地方,是把「助手是否主動幫到手」拆成可觀察、可比較的評測問題。它未必直接提升模型能力,但很適合作為檢查工具,幫團隊看清楚一個助手究竟只是跟指令做事,還是真正懂得提前補位。

GitHub: https://github.com/Simplified-Reasoning/Pi-Bench

項目: https://simplified-reasoning.github.io/Pi-Bench/

Categories: 開源, 香港中文大學, 中國, Dataset 數據集, 框架

TransitLM:點樣評估生成巴士地鐵路線

Repository image for HotTricker/TransitLM

TransitLM 重點不是直接幫你找車程,而是提供一套評估流程,專門量度模型生成公共交通路線的表現。它配合同名論文與資料集使用,主要服務「不靠地圖引擎、直接由資料學出路線」這類研究方向。

項目已經附上示例 CSV,並按不同情境分成幾個評估腳本,包括單一路線、偏好路線、多路線多樣性,以及透過遠端 API 評估一般大語言模型輸出。因為只依賴 Python 標準函式庫,環境要求相對輕巧,想重現論文評估流程的人會較容易開始。

這個項目最值得留意的地方,是它不只給一個總分,而是把結果拆成多層來看,例如路線是否可達、站點是否對應得上、整體結構是否一致,以及時間、距離、票價估算是否可信。對比只看「答得似唔似」,這種分層做法更容易找出模型到底是認錯站、接錯線,還是只在數值估算上失準。

  • 支援四類評估情境,覆蓋論文基準與一般 LLM 輸出
  • 評分拆成多個維度,比單一總分更有診斷價值
  • 可檢查偏好是否符合,例如少轉車、避開地鐵等
  • 多路線模式會額外比較替代路線與多樣性
  • 安裝負擔低,適合重現與快速驗證

從論文資訊看,TransitLM 背後資料規模相當大,涵蓋超過 1,300 萬筆公共交通規劃紀錄、四個中國城市、120,845 個站與 13,666 條路線;相關研究亦提到模型可在沒有明確地圖對接下,學到站點對應與路線結構。不過這個儲存庫本身偏重「評估」而非「訓練」,所以較適合研究人員、做交通路線生成的模型開發者,或者想比較 GPT、Qwen 這類一般模型在路線任務上表現的人。

整體來看,TransitLM 的價值在於把一個很易流於主觀的任務,整理成可重現、可分解、可比較的評估項目。對非專業讀者來說,可以把它理解成一把較精細的尺:不是幫你直接畫路線,而是幫你判斷模型畫出來的路線,到底有幾可信。

GitHub: https://github.com/HotTricker/TransitLM

Paper: https://arxiv.org/pdf/2605.22355

Categories: 開源, 阿里巴巴, 中國, Dataset 數據集, 框架

MM-OCEAN:拆解 AI 人格判斷盲點

Repository image for kkkcx/MM-OCEAN

MM-OCEAN 是一個用來評估多模態大語言模型的基準項目,核心不是單看模型能否判斷一個人的人格傾向,而是檢查它有沒有根據影片中的可觀察行為去推理。它聚焦 Big Five 五大人格維度,並指出一個很值得關注的現象:不少模型即使評分答對,背後也未必有可靠證據支持。

這個項目解決的問題很清楚。以往不少評估只看最後分數,但人格判斷牽涉表情、語氣、動作和互動線索,單靠結果很難知道模型是「看懂了」,還是只是碰巧猜中。MM-OCEAN 進一步把評估拆成評分、文字解釋和線索對應三層,令研究者可以分辨模型是理解不足、胡亂補充,還是無法把線索整合成合理結論。

資料規模方面,項目包含 1,104 段 15 秒影片、約 13,500 條經人工核實的細粒度行為觀察、5,520 份有證據支持的人格分析,以及 5,320 題多項選擇題。倉庫亦提供評分腳本和提示模板,研究者可以依照既定流程,把自己的模型輸出放入同一套框架比較;相關評測涵蓋 27 個多模態模型,屬於頗完整的橫向觀察。

最有新意的地方,是它不把「答對」視為終點,而是加入幾種失誤指標去量化問題,例如答對但沒有線索依據、線索對了但推理不通,或找到線索卻得出錯誤結論。論文摘要提到,整體有 51% 的正確評分並非建立在檢索到的線索之上,而更嚴格的整體通過表現最高亦只有約 33.5%,這說明現時模型距離可靠的人格推理仍有明顯差距。

  • 重點不是只計分數,而是同時檢查理由與證據是否一致
  • 提供三層評估流程,較易看出模型錯在觀察、推理還是整合
  • 涵蓋 27 個多模態模型,方便做基準比較
  • 適合研究多模態理解、AI 安全、公平性與人機互動的團隊
  • 可留意的相關模型類型,包括閉源與開源多模態大模型,但倉庫摘要未逐一列出名稱

對研究團隊、評測設計者,甚至關心 AI 是否會憑表面印象下判斷的人來說,MM-OCEAN 都很有參考價值。它不是一般可直接拿來日常應用的小工具,而是偏向研究與驗證用途;但正因如此,它把問題講得夠具體,亦讓人更清楚看到今天多模態模型在人格理解上仍有甚麼盲點。

GitHub: https://github.com/kkkcx/MM-OCEAN

Paper: https://arxiv.org/pdf/2605.22109

Categories: 開源, 影像處理, Dataset 數據集, 框架

PixVerve-95K:衝擊超高像素生圖評測

image

PixVerve-95K 是一個圍繞原生文字生成圖片而設的研究項目,重點放在把輸出推向 100MP 等級的超高解析度。它不只是提供資料,還連同模型方法與評測基準一併整理,方向相當清晰:回答「高像素生圖到底做得夠唔夠好」這個常見但難量化的問題。

對一般讀者來說,最易理解的切入點是把它視為一個「比較平台」。研究人員或開發者可先查看公開的資料集與基準設定,再用自己的文字生成圖片模型產出結果,之後按它提出的評估方式比較畫面細節、主體是否貼合描述,以及不同縮放層級下的穩定度。

這個項目的亮點,在於它不是只看一張圖表面是否好看,而是更重視超高解析度下的完整性與一致性。README 提到的 Multi-scale Fidelity Index(MSFI)與 Instance-centric Compliance Score(ICS),反映它嘗試由多尺度保真度與主體對應程度兩方面衡量結果,這比單純看主觀觀感更有系統。

重點可先看這幾項:
– 目標聚焦於原生文字生成圖片走向 100MP
– 內容涵蓋資料集、模型方法、基準評測三部分
– 評估指標包括 MSFIICS
– 適合拿來比較不同模型在高解析度場景的表現
– 已提及可配合 Qwen3.5-35B-A3B 與 vLLM 相關流程使用

適合關注這個項目的人,包括做文字生成圖片研究的團隊、想測試高解析度輸出能力的模型開發者,以及需要有系統 benchmark 的學術場景。若你平時留意的模型包括 Qwen3.5-35B-A3B,或其他文字到圖片生成系統,PixVerve-95K 的價值更像是一把尺,幫你判斷模型在大尺寸畫面下是否仍能守住細節與語意一致性。

GitHub: https://github.com/HaojunChen663/PixVerve-95K

Paper: https://arxiv.org/pdf/2605.20147

Categories: 開源, 中國, 框架, 清華大學

Aurora:把影片編輯指令講清楚的 AI 代理

Repository image for yeates/Aurora

Aurora 是一個面向影片編輯的 AI 項目,重點不只是「生成畫面」,而是先理解你想改甚麼。它把使用者一句較口語、甚至有點含糊的要求,整理成較明確的編輯計劃,再交給影片模型處理,目標是減少「講唔清、改唔準」的情況。

這個項目想解決的核心問題,是影片編輯要求經常不完整。你可能只說想「換走背景」、「刪除路人」或「改成某種風格」,但未必提供參考圖,亦未必指出遮罩範圍;Aurora 會嘗試補回這些缺口,例如用圖像搜尋找參考,或用分割方式找出需要修改的位置。

它較有新意的地方,在於把多種影片編輯工作放進同一個框架,而不是每種效果各自一套模型。根據目前資料,這個項目支援替換、移除、風格轉換,以及根據參考內容插入元素,背後並結合了工具增強的視覺語言模型代理,以及統一的影片 diffusion transformer,也就是影片 DiT。

動手了解這個項目時,可先把它當成「會先幫你整理需求的影片編輯助手」。現階段儲存庫內容顯示官方實作仍在準備中,所以較適合先閱讀論文與項目頁,理解它如何把原始要求拆成指令、任務標籤、圖像搜尋查詢與遮罩描述四部分,再留意之後公開的程式。

  • 同一個項目框架處理多類影片編輯工作
  • 會先重寫使用者要求,再交由影片模型生成
  • 可補足缺少的參考圖與編輯區域資訊
  • 相關模型重點包括工具增強 VLM 代理與影片 DiT
  • 另有 AgentEdit-Bench,用來評估這類代理式影片編輯能力

對內容創作者、影像研究人員,或者關心人機協作編輯流程的人來說,Aurora 特別值得留意。它未必是即刻可用的成品,但從設計方向看,這個項目著重的不是單次炫技效果,而是令影片編輯指令變得更完整、更可執行。

GitHub: https://github.com/yeates/Aurora

Paper: https://arxiv.org/pdf/2605.18748

Categories: 開源, NVIDIA, Agentic, 中國, 框架

HASP 真正會出手的技能框架

Hero image preview

這篇論文介紹 HASP,一個用來提升大型語言模型代理表現的框架。它想解決的核心問題很直接:以往不少代理會把過往經驗當成文字提示,但這些提示很多時只是「建議」,未必會在出錯前真正介入。

HASP 的做法,是把技能轉成可執行的 Program Functions(PFs)。簡單理解,PFs 會在代理進行推理、搜尋或寫程式時,檢查當前狀態和下一步動作;如果偵測到常見失誤,例如太早下結論、重複無效步驟,便會插手修正,或者補充有用脈絡。

這個項目的特別之處,在於技能不再只是放進提示詞的文字,而是能夠明確決定「何時啟動」和「怎樣改動下一步」。論文亦指出,HASP 具模組化特性,可在推論階段直接介入代理循環,也可用於後續訓練,甚至讓系統逐步整理和演化已驗證的技能庫。

重點可概括為:
– 把經驗技能由被動提示變成可執行規則
– 可在失誤風險較高的節點主動介入
– 適用於網頁搜尋推理、數學推理與編碼任務
– 既可免訓練使用,也可配合後續訓練與自我改進

如果你正在做代理工作流、工具調用或長步驟推理,這個項目特別值得留意。論文報告顯示,在網頁搜尋推理中,單靠推論階段的 PFs,平均表現比多輪 ReAct Agent 提升 25%;結合後續訓練與受控演化後,對 Search-R1 的提升達 30.4%。

整體來看,HASP 的價值不只是「再加一些提示」,而是為代理加入可重用、可驗證、可介入的技能機制。文中未有把所有細節簡化成通用產品指南,但對想提升代理穩定性、減少重複犯錯的人來說,它提供了一條相當清晰的方向。

Paper: https://arxiv.org/pdf/2605.17734

Categories: 框架

Artifact-Bench:幫你看穿 AI 影片破綻

teaser

近年 AI 生成影片愈來愈像真,但「似真」不等於毫無破綻。Artifact-Bench 這個項目,重點就是評估多模態大語言模型是否真的看得出 AI 影片中的不自然痕跡,而不只是大概明白畫面講甚麼。

它把測試分成三類:分辨真影片與 AI 影片、比較兩段影片哪段更真實,以及指出影片中可能出現的瑕疵位置或類型。這種設計比一般只看語意理解的評測更細緻,因為它直接針對「真實感」與「畫面破綻」做分析。

動手使用這個項目時,先要準備對應的影片資料集,再按照三個任務的 metadata 檔組織輸入。儲存庫亦提供了針對 Qwen3-VL 的評估流程,並支援選擇指定任務、控制輸出長度,以及用多張 GPU 分工推理,對需要批量測試模型的人較方便。

  • 重點不在影片內容摘要,而在辨認 AI 生成痕跡
  • 包含三種評測角度,覆蓋分類、比較與瑕疵辨識
  • 已提供任務 metadata,較容易整理測試流程
  • 內建 Qwen3-VL 評估管線,亦可作為其他模型的參考框架

這個項目特別適合做影片生成、模型評測、內容審核與研究真實感判斷的人參考。從儲存庫資訊可見,現成流程主要圍繞 Qwen3-VL;相關模型範疇則可延伸到多模態大語言模型,例如不同尺寸或版本的 Qwen3-VL。若你關心模型是否只是「識圖識片」,還是真的能講出哪裡假,這個項目有相當清晰的測試價值。

GitHub: https://github.com/FrankYang-17/Artifact-Bench

Categories: 開源, 香港科技大學, 框架

OpenComputer:電腦代理評測更貼地

OpenComputer

OpenComputer 主要處理一個很實際的難題:當 AI 代理要打開瀏覽器、改文件、用設計工具或整理檔案時,怎樣才算「真的完成任務」?它不是靠主觀判斷,而是為不同桌面軟件建立可檢查的狀態驗證方式,令評測結果更穩定,也較容易重現。

動手使用時,重點不是直接把它當成一般應用程式安裝,而是按專案提供的環境設定範本準備評測環境,再選擇本機沙盒或雲端後端,之後用現成任務去跑代理測試。專案亦分開了修復評測、AWS 遠端 Docker 與 Tencent Cloud 中國區部署文件,明顯是為較正式的實驗流程而設。

它最有意思的地方,在於把「出題」和「判卷」都系統化。除了為應用程式建立檢查端點,還會自動生成較真實、可機器驗證的桌面任務,並記錄整段操作軌跡,連部分完成的進度都可計分;比起只看最後答案,這種做法更適合分析代理卡在哪一步。

  • 覆蓋 33 個桌面應用程式與 1,000 個已定稿任務
  • 場景包括瀏覽器、文書、創作工具、開發環境、檔案管理與通訊軟件
  • 評測不只看成敗,亦會保留操作過程與部分分數
  • 驗證方式較依賴程式化檢查,不單靠語言模型做裁判

專案適合做 AI 代理、桌面自動化、基準測試或研究評估方法的團隊;一般用家未必會直接拿來日常使用。從論文內容看,相關對比亦涉及 frontier agents、open-source models,以及 OSWorld-Verified 這類評測結果,反映它比較像研究基建,而不是單一模型展示頁。整體而言,OpenComputer 的價值在於把電腦操作代理的評測,從「似乎做到」推進到「可以核實做到多少」。

GitHub: https://github.com/echo0715/OpenComputer

Paper: https://arxiv.org/pdf/2605.19769

Categories: 開源, 框架

AntiSD 點樣改善推理訓練盲點

fig1a overview

AntiSD 係一個研究型專案,主力處理語言模型做數學推理時嘅訓練偏差。一般做法會叫模型向一個「已知答案、更有提示」嘅自己學習,但作者指出,呢種安排往往會令模型更著重格式化、收尾式嘅字詞,反而削弱真正幫到逐步思考嘅中間推理線索。

呢個專案最特別嘅地方,係將常見嘅自我蒸餾方向反轉。簡單講,唔再一味逼學生版本貼近「已經知道答案」嘅老師版本,而係用一種受控制嘅方式保留兩者差異,等模型唔會過早放棄探索思路;同時再加上一個基於不確定度嘅開關,避免訊號去到後期失控。

實際睇法上,呢個方法唔係畀一般用家即裝即玩,而係較適合已經做緊推理模型訓練、想比較不同強化學習策略嘅人。閱讀論文、配合 GitHub 內嘅實驗設定同 W&B 結果去重現,會係較合理嘅使用方式;重點係觀察訓練步數、最終準確率,同埋模型喺中間推理字詞上有冇被過度壓縮。

  • 針對數學推理訓練中「答案啱,但思路變薄」嘅問題
  • 核心做法係反轉自我蒸餾訊號,而唔係沿用標準貼近策略
  • 論文提到以 pointwise mutual information 解釋點解方法有效
  • 在多個 4B 至 30B 模型上,據報可用更少訓練步數追平或超過基線
  • 相關模型包括 Qwen3-4B、Qwen3-8B,以及其他同級 4B 至 30B 語言模型

以定位來講,AntiSD 比較似一個畀研究員同模型工程團隊參考嘅訓練配方,而唔係面向終端用戶嘅應用程式。對於關注 AIME、HMMT、BeyondAIME 呢類數學推理基準,或者正用 GRPO 一類方法微調模型嘅團隊,呢個專案提供咗一個值得認真比較嘅替代方向。

GitHub: https://github.com/FloyedShen/AntiSD

Paper: https://arxiv.org/pdf/2605.11609

Categories: 開源, 中國, 框架

Page 11 of 13
1 9 10 11 12 13