清華大學 Archives - Page 3 of 4

SpatialWorld：測試多模態代理空間理解的統一基準

2026 年 6 月 10 日

SpatialWorld 是一個用來測試 Multimodal Large Language Models（MLLMs）與代理能力的 benchmark。它把 8 個不同的 3D 模擬後端整合成同一套 observation–action 介面，讓模型只靠自然語言指令、第一身 egocentric RGB 畫面，以及統一的文字動作指令完成任務。

如果你想知道一個模型是否真的懂得在環境中探索、轉向、移動、判斷位置與完成多步驟任務，SpatialWorld 提供了較一致的測試方法。它包含 760 個人工標註任務，覆蓋家居、出行、協作與數碼 3D 遊戲等場景，並以 human-validated terminal-state verifiers 判定結果。

讓代理輸入文字動作，例如 Move、Rotate，再由 action parser 轉成各個模擬器原生指令。這種做法的重點，是避免每個 simulator 各有一套流程，令不同模型之間較容易作橫向比較。

統一 8 個 3D backends，減少 simulator-specific pipelines 帶來的比較困難
只提供 vision-only partial observability，更接近代理逐步探索的情況
除了 task success rate（TSR），亦會看 step efficiency（SE），不只比較有沒有完成
已評估 15 個代理，方便對照現有模型表現

從公開結果看，這個項目揭示了目前模型的限制。GPT-5 的平均 TSR 為 17.4%，領先的 open-source 模型 Qwen-3.5 為 14.1%；若看 Physical Overall TSR，GPT-5 只有 14.4%，Qwen-3.5-397B-A17B 為 12.2%。這表示模型即使能理解圖片與文字，也未必能穩定完成需要空間推理與長步驟規劃的任務。

相關模型有 GPT-5、Qwen-3.5、Qwen-3.5-397B-A17B 與 Gemini-3.1-Pro，其中 Gemini-3.1-Pro 在 digital 3D games 達到 39.0% TSR。若你是做 agent、embodied AI、MLLM 評測，或者想比較不同模型在互動式空間任務的差異，SpatialWorld 會是一個很有參考價值的項目。

GitHub： https://github.com/Hongcheng-Gao/SpatialWorld

項目： https://spatial-world.github.io/

Categories: 香港大學, 多模態模型, 框架, 清華大學, 北京大學

Echo-Memory 讓世界模型認得回家的路

2026 年 6 月 9 日

當 AI 影片模型控制鏡頭離開某個場景再折返時，常常會「認錯地方」——同一條街、同一件家具，回來時卻變成另一個看起來合理、但其實陌生的世界。Echo-Memory 想解的，正是這個讓生成影片失去一致性的老問題。整個研究的設計非常克制：只更換「記憶模組」，其餘一概不動。

Echo-Memory 以同一套 Wan 2.1 1.3B 動作到影片（action-to-video）模型作為共用底座，把記憶方式分成四大類——Context（原始幀滑窗）、Compression（壓縮後的學習 token）、Spatial（顯式空間讀寫狀態）、State-Space（區塊式 SSM 遞迴更新）。所有變體都掛在相同的寫入—讀取介面上，差別只在於「存什麼」和「怎麼取回」。這種單一變因的設定，讓四種記憶家族的表現可以乾乾淨淨地比較。

對研究員和工程師而言，項目提供了開發者指南。Echo-Team 已把訓練到 30,000 步的 Wan 2.1 1.3B 權重放在 Hugging Face 的 Echo-Team/Echo-Memory，並附上 SpatialVID 子集的動態訓練池設定文件，開發者指南亦提供中英雙語流程。評測方面，項目提供 GT replay、in-domain 180 度折返，以及 open-domain 編輯式回訪三種探測腳本，涵蓋靜態回放和場景重訪兩個維度。

要注意的是，目前的權重僅限 Wan 2.1 1.3B（epoch-0），Wan 2.2 以及 5B／14B 多尺度底座、以及超越靜態重訪的動態評測，仍列在路線圖上等待補齊。對於研究世界模型長期一致性、做可控影片生成，或是想在 LoRA／記憶外掛（memory adapter）方向動手的人，這個項目提供了一個難得的可重現基準；對一般讀者來說，它也示範了當鏡頭「回家」時，AI 為何會迷路、又該怎麼讓它記路。

重點摘要：

統一底座、只換記憶：以 Wan 2.1 1.3B 為共用骨幹，比較 Context、Compression、Spatial、State-Space 四種記憶家族。
可控變因設計：所有模組共享寫入—讀取介面，差異集中在「存什麼、怎麼取回」。
完整可重現資源：公開 30,000 步權重、SpatialVID 訓練池設定、雙語開發者指南與評測腳本。
三種回訪探測：GT replay、in-domain 180 度折返、open-domain 編輯式回訪，分別檢驗重播與折返記憶。
未來路線：Wan 2.2、5B／14B 多尺度底座與動態評測仍待補齊。

GitHub： https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory

項目： https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/

Categories: 開源, 香港大學, 香港科技大學, 框架, 清華大學, 北京大學

OVO-S-Bench：考驗多模態模型的串流空間智能

2026 年 6 月 4 日

由清華大學、上海 AI 實驗室及北京航空航天大學共同推出的 OVO-S-Bench，是一套專門測試多模態大型語言模型 (Multimodal Large Language Models, MLLMs) 在連續影片中空間理解能力的基準。它針對機械人、AR 眼鏡和自動駕駛等需要「邊看邊想」的真實場景，要求模型根據問題時間點之前看到的畫面片段，推理出地點與佈局的變化，而非讀取整段影片。

題目來源相當多元，涵蓋室內導覽、第一視角活動、戶外場景、駕駛影片及帶有 3D 註解的環境，共 348 段影片。12 位具備 3D 視覺背景的標註員耗時約 804 小時撰寫及反覆核對每條題目，並透過「文字探針」和盲測覆核機制，剔除可憑題幹文字或常識直接答對的題目，確保難度真正來自空間理解。

題目分為四個難度層級，由當下畫面的瞬時感知 (Instantaneous Egocentric Perception)、追蹤離開視野的空間脈絡 (Spatiotemporal Context Tracking)、推測空間變化的生成式推理 (Generative Spatial Reasoning)，到建構全局拓樸地圖 (Global Topological Mapping)。在 38 個開源及商用模型的評估中，即使是表現最佳的 Gemini-3.1-Pro，分數仍比人類專家低 27 分 (59.2 比 86.6)，全局拓樸層級是最大的樽頸。

更值得留意的是，部分聲稱針對串流或空間任務微調的模型，表現反而不如其底層基座模型；而無根據的思維鏈 (chain-of-thought) 推理，往往會放大空間錯誤。這套基準為下一代串流空間模型提供了清晰且嚴謹的試金石。

重點摘要：

涵蓋 1,680 條人工撰寫題目及 348 段影片，總標註工時約 804 小時
設有問題時間點及證據區間，評估時模型只看到查詢前的影片片段
分為四個遞進難度層級，由瞬時感知到全局拓樸建圖
38 款 MLLM 中，Gemini-3.1-Pro 取得 59.2 分，人類專家為 86.6 分
串流及空間微調模型表現可能反遜於原底座模型

GitHub： https://github.com/InternLM/OVO-S-Bench

項目： https://internlm.github.io/OVO-S-Bench/

Categories: 開源, 清華大學, 框架, 上海人工智慧實驗室

Crafter：把科研圖表交給多智能體助手

2026 年 6 月 3 日

做研究的人都遇過這種困擾：論文裡的圖表要花好幾個小時排版、微調細節，市面上的 AI 生圖工具又常常「整體不錯、局部出錯」，改一個元素就把整張圖搞砸。Crafter 正是針對這個痛點而來，它不是把底層生成模型換得更強，而是在外面包了一層多智能體（multi-agent）協作框架，專門處理「結構化、由離散語意元件組成」的科研圖表。

這個項目分為兩個互補系統。Crafter 負責生成，覆蓋學術圖、海報、資訊圖三種類型，並支援文字生圖、遮罩補完、關鍵元素組合、草圖優化等四種輸入條件，不需要更動架構就能切換。CraftEditor 則把生成的點陣圖轉成「座標精準、可後續編輯」的 SVG 格式，研究者終於可以像在 Illustrator 裡那樣挑出單一元件修改。

為了評估效果，團隊同步釋出 CraftBench——一個 279 筆樣本的基準集，每個樣本都附有人工繪製的參考圖，跨越三種圖表類型與四種輸入條件。在 PaperBanana-Bench 與 CraftBench 上，Crafter 都明顯優於單一生成器與既有的 agentic 基線。CraftEditor 轉出的 SVG 在可編輯性上也勝過所有對照組。

生成部分只要設定 OpenAI 相容端點（例如 OpenRouter）即可跑範例；想啟用 CraftEditor 還需要額外架設一個 SAM3 語意分割伺服器。

重點摘要

解決科研圖表「局部錯誤難修、難以再編輯」的問題
採用多智能體協作框架，不需更換底層模型即可跨類型、跨輸入條件生成
內建 Crafter 生成與 CraftEditor 點陣轉 SVG 兩套流程
釋出 CraftBench 評測集，含 279 筆人工標註樣本
適合需要大量產出與修改學術插圖的研究者、團隊與會議海報設計者

GitHub： https://github.com/HaozheZhao/Crafter

Paper： https://arxiv.org/pdf/2605.30611

Categories: 開源, 中國, Dataset 數據集, 框架, 清華大學, 北京大學

Lumos-Custom：DAMO 學院的影片生成套件

2026 年 6 月 2 日

Lumos-Custom 是阿里巴巴DAMO 學院的開源影片定制研究合集，把三個子項目整合在同一個儲存庫，方便研究者各自取用。三個子項目分別對應不同的影片生成難題：身份與屬性定制、打光控制，以及結合推理的統一生成。

其中最受關注的是 Lumos-Nexus （arXiv 2605.31603）。它解決了一個長期痛點：把大型高保真生成器放進統一訓練迴圈成本太高，改為訓練一個輕量的連接器對齊理解模組，再用「Unified Progressive Frequency Bridging (UPFB)」在推論時把任務交接給預訓練的高容量生成器，既省訓練資源又保留視覺品質。為了補足推理類影片生成的評測空白，作者還發布了 VR-Bench。

第二個項目是 LumosX，已被 ICLR 2026 接收。它的切入點是「多主體個性化影片生成」：先用字幕與 MLLM 抽取的先驗建構關係結構，再透過 Relational Self-Attention 與 Relational Cross-Attention 編碼主體與屬性之間的依賴。評測資源集中在 LumosX/benchmark/，權重已上傳 Hugging Face。

第三個項目是 UniLumos（NeurIPS 2025），專注於圖像與影片的統一重新打光，採用 RGB 空間幾何回饋配合 flow-matching 主幹，適合需要控制光影的研究與應用場景。

總結要點：

** DAMO 是 Discovery, Adventure, Momentum and Outlook
Lumos-Nexus：輕量訓練搭配 UPFB 頻率交接，兼顧推理品質與視覺保真度
LumosX：以關係式注意力處理多主體個性化生成，附 benchmark 與 Hugging Face 權重
UniLumos：統一圖片與影片重新打光，採用 flow-matching 與幾何回饋
VR-Bench：補上推理驅動影片生成的評測缺口
子項目獨立部署：每個子項目都有獨立 README，支援單獨安裝與重現

這個項目適合研究影片生成、多模態統一模型與個性化生成的研究者與工程師。如果你想驗證 Lumos-Nexus 的推理影片效果，可進入 Lumos-Nexus/ 跟隨 README 取得 OmniVideo 權重並跑批次推論；想評測打光則可參考 UniLumos 提供的流程。

✧ Repository layout ✧

Lumos-Custom/
├── README.md                 # This file: umbrella overview
├── LumosX/                   # ICLR 2026 · personalized multi-subject video generation
│   └── README.md
├── UniLumos/                 # NeurIPS 2025 · unified relighting + LumosBench/
│   ├── README.md
│   └── LumosBench/
└── Lumos-Nexus/              # arXiv preprint · reasoning-driven unified video generation + VR-Bench
    ├── README.md
    └── vr_bench_eval/

GitHub： https://github.com/alibaba-damo-academy/Lumos-Custom

項目： https://jiazheng-xing.github.io/nexus-lumos-home/

Categories: 開源, 阿里巴巴, 香港科技大學, 影像模型, 視頻模型, 清華大學

GenClaw 用寫程式方式改造 AI 生成圖

2026 年 5 月 29 日

GenClaw 是一個研究中的項目，核心不是不停改 prompt，而是把程式碼變成可控制的視覺草稿，再交給圖像模型完成渲染。對一般讀者來說，可以把它理解成先畫草圖、定位置、排文字，之後才交由 AI 上色和補質感。

這個項目想處理的痛點很明確：很多 image generation 流程仍然像黑盒，生成失敗時只能反覆重寫提示詞碰運氣。GenClaw 將流程拆成 concept、sketch、render 幾步，令畫面中的物件數量、空間配置，甚至文字排版，都有機會透過可執行程式直接調整。

這做法結合搜尋、推理與程式繪圖，使用 SVG、HTML/CSS、Python，亦提到 Three.js 這類輕量 3D 方式來建立中間畫布；最後再調用 image generation model 補上材質、光影與真實感。這種設計比單次生成更容易檢查、修改，亦較貼近人類由草稿到完稿的創作步驟。

把程式碼當成視覺畫筆，而非只靠文字提示
適合複雜場景、海報文字、空間佈局等要求較高的畫面
中間結果可檢查與回退，降低黑盒生成的不確定性
論文提到可配合 GPT-Image、Qwen-Image、Nano-Banana 一類模型理解其定位

現階段要留意的是，儲存庫已公開 technical report，但 code 和 demo 仍在準備中，所以目前較適合先讀論文了解方法，再觀察後續釋出。從論文描述看，它較適合做視覺生成研究、代理系統開發，或者需要高控制度圖像流程的團隊；至於效能評估，公開頁面以方法與示例為主，較完整的量化表現仍需以論文內容和日後程式發布為準。

GitHub： https://github.com/yejy53/GenClaw

Paper： https://arxiv.org/pdf/2605.30248

Categories: 開源, 香港中文大學, Agentic, 清華大學

GEM 把深度圖生成帶入訓練流程

2026 年 5 月 29 日

GEM（Generative-supervised Embodied vision-language Model）是一個面向具身智能的 Vision-Language Models（VLMs）項目，重點不是只靠文字與圖片對答，而是讓模型同時學會場景的空間結構。它加入了深度圖生成這個輔助目標，希望補足一般文字驅動預訓練較少接觸的物理與幾何訊息，令模型不只「看得明」，也更接近「知道怎樣在空間中行動」。

這個設計想解決的問題很清楚：很多模型在語意理解、問答和描述表現不錯，但一牽涉到距離、遮擋、方向、可操作位置，或者下一步應怎樣做，能力就未必跟得上。GEM的做法，是在預訓練階段直接把 depth map generation 放進去，令模型在學文字生成時，也學場景深度與結構。論文亦提到其方法結合 hybrid autoregressive-diffusion architecture，並以 progressive training strategy 先穩定生成模組，再聯合訓練。

GEM 比較適合研究與實驗用途。倉庫已提供 GEM-2B checkpoint、GEM-250K 資料樣本，以及 VLM training / inference 代碼；要動手測試，主要是先準備 Python 3.10+ 環境與 torch、transformers、deepspeed、flash-attn 等依賴，再把資料路徑、depth image 路徑、MODEL_PATH 和 OUTPUT_DIR 設定好。由於資料位置需要手動修改到程式檔案內，整個流程不像一般即開即用工具，比較像給熟悉模型訓練流程的人做重現、微調或延伸開發。

項目的亮點不止於模型結構，還包括資料方向。README 提到釋出的是 GEM-250K 樣本，而論文內容則描述了更大規模的 GEM-4M，涵蓋 grounding、reasoning、planning 以及 depth supervision。這表示團隊的重點不只是堆大模型參數，而是把具身任務常見的空間理解、時序規劃和物理推理，放進同一套訓練資料與目標內，這對 Embodied VLMs 走向 Vision-Language-Action Models（VLA）相當關鍵。

核心方法是在 VLM 預訓練中加入 depth map generation，強化 physical grounding 與 spatial reasoning
已公開的相關資源包括 GEM-2B、GEM-250K，以及訓練與推論代碼
延伸版本 GEM-VLA 面向 Vision-Language-Action Models（VLA）與機械人操作
依賴包含 torch>=2.6.0、transformers>=4.57.0、deepspeed、flash-attn、accelerate、peft、triton、torchcodec
現階段較適合研究人員、ML 工程師，或想重現論文結果的團隊

性能方面，GEM 在多個 embodied benchmarks 上有強勁表現，而論文內容則進一步指出 GEM 與 GEM-VLA 在 diverse embodied benchmarks、LIBERO 模擬環境，以及 real-world robot tasks 取得 state-of-the-art results。從公開資訊可見，它比較的是空間推理、grounding 與任務執行能力，而不只是通用聊天或圖文問答分數。不過，倉庫頁面未完整列出所有可重現的評測表格與設定細節，使用時仍應以論文和後續釋出的完整資料為準。

整體來看，GEM最適合關注機械人、多模態學習、Embodied Intelligence 的讀者留意。若你正在找的是一個現成聊天助手，這個項目未必對口；但若你想了解下一代模型怎樣由「看圖答題」走向「理解空間並支援動作決策」，GEM提供了一條很具代表性的路線。相關模型與基礎包括 GEM、GEM-2B、待釋出的 GEM-8B、延伸版本 GEM-VLA，以及其代碼所建基的 Qwen3-VL、Sana、RDT2。

GitHub： https://github.com/zhaorw02/GEM

Paper： https://arxiv.org/pdf/2605.28548

Categories: 騰訊, Agentic, 模型, 視覺模型, 清華大學

Context-CoT 先讀資料後再推理

2026 年 5 月 28 日

Context-CoT 係一個用來提升大型語言模型「讀完新資料再推理」能力的項目。論文指出，現有模型處理依賴上下文的任務時表現偏弱，在 CL-Bench 上，GPT-5.1 約為 23.7%，開源模型多數只有 13% 至 15%。

這樣就可以解決模型經常只靠原有記憶答題，未能從長篇材料抽取重點再應用。對法律文件、工業排錯或研究資料整理這類工作，這個方向相當實際。

先把長上下文整理成與任務相關的中間資訊，再展開推理。
產生推理資料時盡量隱藏答案與評分規則，減少資料洩漏。
按目標模型的輸出習慣挑選推理路徑，提升微調效率。
實驗指向可明顯減少忽略上下文的錯誤。

你可把它理解為一套「資料合成加微調」流程：先準備長文本任務，再用三段方法生成高質推理資料，最後拿去微調開源模型。這較適合已有模型訓練流程的團隊或研究者。

論文並未展示完整版本、模型名單與全部分數，所以現階段較適合視為有潛力的訓練方法，而非即插即用工具。文中明確提到的模型包括 GPT-5.1，其餘開源模型名稱在現有內容未完整列出。

Paper： https://arxiv.org/pdf/2605.25354v1

Categories: 中國, 北京大學, 清華大學, 框架

LatentOmni 想重寫影音推理方式

2026 年 5 月 23 日

LatentOmni 是一個面向影音多模態大語言模型的研究項目，重點不是叫模型先把線索全都翻成文字再慢慢推理，而是讓聲音與畫面的資訊在同一個潛在空間內一起運作。簡單講，它想保留更多原始感官訊號，減少中途只靠語言猜答案的情況。

這個方向要解決的問題很明確：不少模型在看影片、聽聲音後，雖然能描述內容，但一遇到需要同時對齊時間、事件因果或細節關聯的題目，表現便會下跌。LatentOmni 提出的做法，是把文字推理流程與影音潛在狀態交錯進行，並用 OSPE 這類時間同步設計，幫助模型對準聲畫節奏。

從使用角度看，現時這個 GitHub 儲存庫仍以論文與概念介紹為主，訓練程式、推論程式、模型權重和資料集尚未正式釋出。因此較適合先拿來了解新一代多模態推理方法，或者作為研究與技術評估的參考，而不是立即部署到產品流程。

核心亮點是統一聲音與畫面的潛在推理，而非只輸出文字式思路
加入特徵層級監督與 OSPE，目標是保留時間對齊與跨模態關聯
配套資料集為 LatentOmni-Instruct-35K，用來訓練交錯式影音推理軌跡
論文指出它在多個影音推理基準上，表現優於明確文字 CoT 基線

整體來看，這個項目最吸引之處，是它把「模型怎樣思考」由文字中介，推前到更接近原始聲畫訊號的層面。適合關注 MLLM、影音理解、跨模態推理的人留意；若你想比較相關模型，也可把它與依賴文字 CoT 的開源多模態模型放在同一條線上觀察。不過現階段公開內容有限，性能細節仍應以論文報告為準，評估時要保持審慎。

GitHub： https://github.com/yfanDai/LatentOmni

Paper： https://arxiv.org/pdf/2605.22012

Categories: 開源, 香港科技大學, 影像處理, 模型, 聲效, 視覺模型, 中國, 清華大學, 北京大學

PixVerve-95K：衝擊超高像素生圖評測

2026 年 5 月 22 日

PixVerve-95K 是一個圍繞原生文字生成圖片而設的研究項目，重點放在把輸出推向 100MP 等級的超高解析度。它不只是提供資料，還連同模型方法與評測基準一併整理，方向相當清晰：回答「高像素生圖到底做得夠唔夠好」這個常見但難量化的問題。

對一般讀者來說，最易理解的切入點是把它視為一個「比較平台」。研究人員或開發者可先查看公開的資料集與基準設定，再用自己的文字生成圖片模型產出結果，之後按它提出的評估方式比較畫面細節、主體是否貼合描述，以及不同縮放層級下的穩定度。

這個項目的亮點，在於它不是只看一張圖表面是否好看，而是更重視超高解析度下的完整性與一致性。README 提到的 Multi-scale Fidelity Index（MSFI）與 Instance-centric Compliance Score（ICS），反映它嘗試由多尺度保真度與主體對應程度兩方面衡量結果，這比單純看主觀觀感更有系統。

重點可先看這幾項：
– 目標聚焦於原生文字生成圖片走向 100MP
– 內容涵蓋資料集、模型方法、基準評測三部分
– 評估指標包括 MSFI 與 ICS
– 適合拿來比較不同模型在高解析度場景的表現
– 已提及可配合 Qwen3.5-35B-A3B 與 vLLM 相關流程使用

適合關注這個項目的人，包括做文字生成圖片研究的團隊、想測試高解析度輸出能力的模型開發者，以及需要有系統 benchmark 的學術場景。若你平時留意的模型包括 Qwen3.5-35B-A3B，或其他文字到圖片生成系統，PixVerve-95K 的價值更像是一把尺，幫你判斷模型在大尺寸畫面下是否仍能守住細節與語意一致性。

GitHub： https://github.com/HaojunChen663/PixVerve-95K

Paper： https://arxiv.org/pdf/2605.20147

Categories: 開源, 中國, 框架, 清華大學

Page 3 of 4

« Previous 1 2 3 4 Next »