北京大學 Archives

WATER：WordArt 場景文字識別新突破

2026 年 6 月 26 日

這是一個由復旦大學（上海多模態具身 AI 重點實驗室）與騰訊 WeChat Vision 聯合發佈的研究項目（屬於數據集＋模型基準組合），同時收錄於 ECCV 2026。針對 WordArt-oriented scene TExt Recognition（WATER）這項任務，原有 STR 數據集與方法普遍圍繞「規則場景文字」與「固定模板輸入」建構，難以應對 WordArt 高度自訂的字體、紋理與版面，因此表現受限。WATER 從兩端突破：數據方面構建 2M 規模合成數據集 WATER-S，模型方面提出支援任意形狀輸入的 STR 基線 WATERec。

WATER-S 數據集設計包含兩個互補子集：WATER-T（1M）由 SynthWordArt 渲染引擎透過 11,250 款藝術字體生成，提供高可控的精準合成樣本；WATER-Z（1M）則結合 Qwen3-VL 提示詞挖掘與 Z-Image 影像合成，覆蓋更真實且多元的場景。再搭配 WATER-R（3.2M，整理自 Union14M-L、WordArt、WAS-R 並去重）作為真實訓練集，整體數據規模較既有藝術文字數據提升數百倍。

WATERec 模型架構採用類似 NaViT 的編碼器搭配 RoPE，支援任意形狀輸入，再以自回歸解碼器處理複雜版面，從結構上打破固定模板 STR 的瓶頸。在 WordArt-Bench 上以 90.40% 準確率成為首個突破 90% 的結果，大幅超越 HunyuanOCR（81.54%）及其他通用或 OCR 專用視覺語言模型。

使用方法需配合外部資源：WATERec 訓練與推理程式碼位於 OpenOCR-WATERec 倉庫；模型權重、數據集（包含 WordArt-Bench）、273K 條 WATER-Z 提示詞模板與 112K 款藝術字體皆託管於 HuggingFace。複製本倉庫後，可透過 SynthWordArt/ 目錄取得 WATER-T 渲染流程，prompts/ 目錄提供 caption_mining.py 與 fewshot_expansion.py 兩階段提示詞挖掘，Z-Image/gen_zimage.py 支援多 GPU 並行生成，eval_vlm/ 則整合 Qwen3-VL-8B、InternVL3.5-8B、GOT-OCR2.0、DeepSeek-OCR-2、PaddleOCR-VL、PP-OCRv5、HunyuanOCR、Nemotron-VL-8B 等基線評測腳本。

重點摘要：
– 復旦大學與騰訊 WeChat Vision 團隊合作，獲 ECCV 2026 收錄
– WATER-S 含 WATER-T（字體渲染）與 WATER-Z（VLM + 影像合成）兩條合成路徑
– WATERec 以任意形狀編碼器 + 自回歸解碼器突破固定模板限制
– WordArt-Bench 90.40% 為首次突破九成，超越 HunyuanOCR 等專用 VLM
– 所有模型、數據、字體與提示詞均開源於 HuggingFace

從評估對照來看，不論是通用 VLM、OCR 專用 VLM 或一般 OCR 工具，在 WordArt-Bench 上皆明顯落後於 WATERec，反映藝術文字仍是當前多模態模型的弱項。對從事海報辨識、品牌素材處理、廣告設計自動化，以及需要處理高度風格化文字的團隊而言，這套數據＋模型組合是目前少數針對該場景強化的開源方案。

GitHub： https://github.com/YesianRohn/WATER

模型： https://huggingface.co/Yesianrohn/WATERec-Models

Categories: 開源, 騰訊, DeepSeek, Image, 多模態模型, 模型, 深度學習, 視覺模型, 中國, 北京大學, Dataset 數據集

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 北京大學, 清華大學, 框架, 上海人工智慧實驗室

PerceptionDLM：多區域圖像描述加速方案

2026 年 6 月 22 日

現時不少 Multimodal Large Language Models (MLLMs) 做區域描述時，仍然依賴 autoregressive (AR) 逐段生成：一張圖有幾多個 mask，就要逐個區域慢慢解讀。PerceptionDLM 提出的方向很明確，改用 Multimodal Diffusion Language Model，同一輪 denoising process 內同時輸出多個區域描述，目標是解決多區域感知在延遲上隨數量線性上升的問題。

這是一個偏向模型加基準測試的開源項目：核心是 PerceptionDLM 與 PerceptionDLM-Base，另加 ParaDLC-Bench、PerceptionDLM-Data 和 Bee / Honey 系列訓練資料配方。作者點名批評舊範式主要卡在 autoregressive region captioning，因此加入 efficient prompting 與 structured attention masking，讓平行生成不只停留在概念，而是落到 sequence level 同 token level。

從公開資料看，這個項目較適合以 Hugging Face 已釋出的模型、資料集與 evaluation suite 來理解和測試；想重現結果的人，亦可沿住訓練資料配方、Training 與 Evaluation 流程部署。對一般開發團隊而言，最有參考價值的不是安裝細節，而是它示範了 diffusion VLM 怎樣處理「多區域同時描述」這種以往較少由 DLM 承擔的任務。

單次 denoising pass 可同時描述多個 masked regions，官方稱在密集多區域情境可有最高 3.4× throughput speedup
PerceptionDLM-Base 據稱在 16 個 multimodal benchmarks 之中，15 個勝過 LLaDA-V
ParaDLC-Bench 不只看 caption quality，也把 inference efficiency 一併納入
已公開 code、model weights、training data recipe、evaluation suite，重現門檻比只放論文低

它較適合做視覺理解、圖像標註、自動資料整理，或者需要一次看多個區域的研究團隊。限制也很清楚：目前公開資訊主力強調 benchmark 與吞吐提升，對一般產品場景的記憶體需求、延遲分佈與部署成本仍要再看實測；相關模型則包括 PerceptionDLM、PerceptionDLM-Base，以及其 backbone LLaDA-8B-Instruct，對比對象則有 LLaDA-V。

GitHub： https://github.com/MSALab-PKU/PerceptionDLM

項目主頁： https://msalab-pku.github.io/projects/PerceptionDLM/index.html

項目： https://huggingface.co/collections/MSALab/perceptiondlm-model-zoo

Categories: 開源, 字節跳動, Stable Diffusion, 多模態模型, 提示詞, 模型, 模型訓練, 視覺模型, 北京大學, Dataset 數據集

OmniDirector：免配對數據的多鏡頭運鏡克隆技術

2026 年 6 月 15 日

OmniDirector 由清華大學（Yu-Shen Liu 為北京清華大學團隊）與 Kling Team（快手科技）的研究團隊，共同開發，成員包括 Jiwen Liu、Shujuan Li、Zhixue Fang 等人，團隊來自多個機構，橫跨學術界與業界。研究團隊提出一種無需交叉配對數據的通用多鏡頭相機克隆方法，解決從參考影片中複製運鏡來驅動靜態圖像的難題。

傳統相機控制方法往往依賴大量成對數據進行訓練，而 OmniDirector 的核心創新在於提出「相機網格」（camera grid）表示法。將參考影片的相機姿態渲染為三維空間中的運動軌跡，形成統一的網格表示。配合階層式提示詞擴展代理（hierarchical prompt expansion agent），把多模態控制信號整合成協調的指令。

使用時，使用者只需提供一張源圖像和一段參考影片，OmniDirector 便能克隆其中的運鏡動作，生成動態影片。多鏡頭場景下，新方法支援鏡頭之間的連貫過渡與一致的內容呈現，保持原始的視覺語言。特殊運鏡方面，涵蓋希區柯克式變焦、子彈時間與鏡頭畸變效果，適用的場景類型包括人像、動物、建築及 AIGC 內容等。

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

Watch this video on YouTube

OmniDirector 適合從事影片創作、動畫製作或需要快速生成動態素材的內容創作者，以及研究相機控制技術的開發者。經過與其他頂尖相機控制方法的對比，新方法在控制穩定性與物件形變方面表現出色。

重點摘要：
– 核心創新為「相機網格」表示法，免依賴交叉配對數據
– 支援極端運鏡、多鏡頭連貫過渡與特殊相機效果
– 場景泛化能力強，涵蓋人像、動物、建築及 AIGC 內容
– 開源提供論文與程式碼，方便研究與應用

目前 github.com/lisj575/OmniDirector 這個倉庫是空的，沒有 source code 或 model 。

項目： https://ymlinfeng.github.io/OmniDirector.github.io/

Categories: Video, AI productions, 模型, 數字人, 視覺模型, 框架, 清華大學, 北京大學

SpatialWorld：測試多模態代理空間理解的統一基準

2026 年 6 月 10 日

SpatialWorld 是一個用來測試 Multimodal Large Language Models（MLLMs）與代理能力的 benchmark。它把 8 個不同的 3D 模擬後端整合成同一套 observation–action 介面，讓模型只靠自然語言指令、第一身 egocentric RGB 畫面，以及統一的文字動作指令完成任務。

如果你想知道一個模型是否真的懂得在環境中探索、轉向、移動、判斷位置與完成多步驟任務，SpatialWorld 提供了較一致的測試方法。它包含 760 個人工標註任務，覆蓋家居、出行、協作與數碼 3D 遊戲等場景，並以 human-validated terminal-state verifiers 判定結果。

讓代理輸入文字動作，例如 Move、Rotate，再由 action parser 轉成各個模擬器原生指令。這種做法的重點，是避免每個 simulator 各有一套流程，令不同模型之間較容易作橫向比較。

統一 8 個 3D backends，減少 simulator-specific pipelines 帶來的比較困難
只提供 vision-only partial observability，更接近代理逐步探索的情況
除了 task success rate（TSR），亦會看 step efficiency（SE），不只比較有沒有完成
已評估 15 個代理，方便對照現有模型表現

從公開結果看，這個項目揭示了目前模型的限制。GPT-5 的平均 TSR 為 17.4%，領先的 open-source 模型 Qwen-3.5 為 14.1%；若看 Physical Overall TSR，GPT-5 只有 14.4%，Qwen-3.5-397B-A17B 為 12.2%。這表示模型即使能理解圖片與文字，也未必能穩定完成需要空間推理與長步驟規劃的任務。

相關模型有 GPT-5、Qwen-3.5、Qwen-3.5-397B-A17B 與 Gemini-3.1-Pro，其中 Gemini-3.1-Pro 在 digital 3D games 達到 39.0% TSR。若你是做 agent、embodied AI、MLLM 評測，或者想比較不同模型在互動式空間任務的差異，SpatialWorld 會是一個很有參考價值的項目。

GitHub： https://github.com/Hongcheng-Gao/SpatialWorld

項目： https://spatial-world.github.io/

Categories: 香港大學, 多模態模型, 北京大學, 清華大學, 框架

Echo-Memory 讓世界模型認得回家的路

2026 年 6 月 9 日

當 AI 影片模型控制鏡頭離開某個場景再折返時，常常會「認錯地方」——同一條街、同一件家具，回來時卻變成另一個看起來合理、但其實陌生的世界。Echo-Memory 想解的，正是這個讓生成影片失去一致性的老問題。整個研究的設計非常克制：只更換「記憶模組」，其餘一概不動。

Echo-Memory 以同一套 Wan 2.1 1.3B 動作到影片（action-to-video）模型作為共用底座，把記憶方式分成四大類——Context（原始幀滑窗）、Compression（壓縮後的學習 token）、Spatial（顯式空間讀寫狀態）、State-Space（區塊式 SSM 遞迴更新）。所有變體都掛在相同的寫入—讀取介面上，差別只在於「存什麼」和「怎麼取回」。這種單一變因的設定，讓四種記憶家族的表現可以乾乾淨淨地比較。

對研究員和工程師而言，項目提供了開發者指南。Echo-Team 已把訓練到 30,000 步的 Wan 2.1 1.3B 權重放在 Hugging Face 的 Echo-Team/Echo-Memory，並附上 SpatialVID 子集的動態訓練池設定文件，開發者指南亦提供中英雙語流程。評測方面，項目提供 GT replay、in-domain 180 度折返，以及 open-domain 編輯式回訪三種探測腳本，涵蓋靜態回放和場景重訪兩個維度。

要注意的是，目前的權重僅限 Wan 2.1 1.3B（epoch-0），Wan 2.2 以及 5B／14B 多尺度底座、以及超越靜態重訪的動態評測，仍列在路線圖上等待補齊。對於研究世界模型長期一致性、做可控影片生成，或是想在 LoRA／記憶外掛（memory adapter）方向動手的人，這個項目提供了一個難得的可重現基準；對一般讀者來說，它也示範了當鏡頭「回家」時，AI 為何會迷路、又該怎麼讓它記路。

重點摘要：

統一底座、只換記憶：以 Wan 2.1 1.3B 為共用骨幹，比較 Context、Compression、Spatial、State-Space 四種記憶家族。
可控變因設計：所有模組共享寫入—讀取介面，差異集中在「存什麼、怎麼取回」。
完整可重現資源：公開 30,000 步權重、SpatialVID 訓練池設定、雙語開發者指南與評測腳本。
三種回訪探測：GT replay、in-domain 180 度折返、open-domain 編輯式回訪，分別檢驗重播與折返記憶。
未來路線：Wan 2.2、5B／14B 多尺度底座與動態評測仍待補齊。

GitHub： https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory

項目： https://echo-team-joy-future-academy-jd.github.io/Echo-Memory/

Categories: 開源, 香港大學, 香港科技大學, 北京大學, 清華大學, 框架

AffordanceVLA：為機械臂加入「先想再做」的能力

2026 年 6 月 7 日

機械臂聽到「把杯子拿起來」這類指令時，傳統的視覺語言動作模型（Vision-Language-Action Model, VLA）往往要直接把影像和文字翻譯成關節角度，中間欠缺一個「思考」步驟。AffordanceVLA 嘗試在這個鴻溝上架一道橋：先讓模型預測結構化的可供性（affordance），再據此生成動作。

整個框架由三個專家模型組成，按單向的 UAA 注意力串接。Understanding Expert（M_und）以 PaliGemma（SigLIP + Gemma）為骨幹，把畫面、指令與機械臂自身狀態融合成統一的語意表示。Affordance Generation Expert（M_gen）以 Gemma 搭配可學習查詢，把上述表示解碼為三種可供性標記：Which2Act 判斷要操作的物件、Where2Act 標出二維互動熱區、How2Act 則推估三維幾何資訊。最後 Action Expert（M_act）以 flow matching 方式輸出整段動作序列（action chunk）。這個設計呼應了論文「Affordances serve as a perfect bridge」的核心想法。

由於現成機器人數據集中缺乏密集的可供性標註，作者額外提供了一條自動化標註管線，並以三階段漸進式課程訓練 MoT 架構。訓練時須留意 model.chunk_size 與 data.chunk_size 保持一致，否則動作 attention mask 會錯位；Which2Act 的 Flux loss 預設為 MSE，可在 src/models/which2act_decoder.py 頂端切換。

這個項目適合研究 VLA、機器人操作策略，或對可供性表示有興趣的開發者。需要一支能跑 PaliGemma 與 flow matching 的 GPU 環境，並準備好仿真或實機評測流程。論文中的模擬與真機實驗橫跨多種操作場景，顯示加入可供性中間層能提升泛化與精確度，但具體數字仍以官方報告為準。

重點摘要

以 Which2Act、Where2Act、How2Act 三段式可供性作為視覺、語言與動作之間的中間橋樑。
採用 MoT 架構，串接 PaliGemma 為基礎的 Understanding、Gemma 為基礎的 Affordance 與 Action Expert。
配套自動化可供性標註管線，緩解機器人數據標註不足的問題。
訓練採三階段漸進式策略，flow matching 輸出整段動作序列。
模型、訓練與標註腳本皆隨開源項目釋出，歡迎社群延伸。

GitHub： https://github.com/Skywalker-yqz/AffordanceVLA

Categories: 開源, 香港中文大學, 香港科技大學, 多模態模型, 模型, 模型訓練, 北京大學

LoomVideo：阿里巴巴 5B 模型挑戰統一影片生成

2026 年 6 月 6 日

LoomVideo 由北京大學與阿里巴巴聯合發布，主打「統一多模態輸入的影片生成與編輯」，把文字、影片、圖片等多種輸入整合到同一個模型。傳統的統一影片模型動輒超過 13B 參數，且為了加入來源影片條件，往往要把所有 token 接在一起，導致序列長度翻倍、self-attention 成本暴增四倍。LoomVideo 的核心定位，就是用更小、更快的設計，達到同等甚至更好的效果。

這個項目基於 MLLM（多模態大語言模型）加 DiT（Diffusion Transformer）的組合，並提出三個關鍵設計：Deepstack Injection 從 MLLM 每一層抽取特徵，再透過 cross-attention 注入對應的 DiT 層；Scale-and-Add Conditioning 把乾淨的來源影片潛在變數按時間步長縮放後直接加到雜訊目標上，免去 token 拼接的額外負擔；Negative Temporal RoPE 為參考圖片指定負的時間索引，讓多圖片條件可以無縫整合。

LoomVideo 目前支援四種任務：文生影片、純文字指令編輯、影片加圖片加文字的指令編輯，以及多張參考圖的條件生成，全部由同一個 5B 模型處理。論文報告在多項基準上取得領先或具競爭力的表現，並宣稱比同級模型快至少 5.41 倍。對於電子商務與時尚場景的影片生成，論文也展示了針對性的優勢。

這個項目適合關注影片生成效率的研究者、影像創作工具開發者，以及需要快速生成短影片內容的團隊。目前模型權重已公開在 Hugging Face 的 MSALab/LoomVideo，程式碼亦同步釋出，有興趣的讀者可以直接到 GitHub 與 Hugging Face 取得資源並測試。

重點摘要：

5B 參數的統一影片生成與編輯模型，定位比 13B+ 同類更輕量。
以 MLLM + DiT 架構為基礎，並提出 Deepstack Injection、Scale-and-Add Conditioning 與 Negative Temporal RoPE 三大設計。
支援文生影片、文字指令編輯、影片加圖片文字編輯，以及多圖片條件生成四種任務。
論文聲稱比同級模型快至少 5.41 倍，並在電商與時尚場景表現突出。
模型與程式碼已公開，方便研究者與開發者快速試用與改進。

GitHub： https://github.com/MSALab-PKU/LoomVideo

項目： https://msalab-pku.github.io/projects/LoomVideo/index.html

Categories: 開源, 阿里巴巴, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 北京大學

Crafter：把科研圖表交給多智能體助手

2026 年 6 月 3 日

做研究的人都遇過這種困擾：論文裡的圖表要花好幾個小時排版、微調細節，市面上的 AI 生圖工具又常常「整體不錯、局部出錯」，改一個元素就把整張圖搞砸。Crafter 正是針對這個痛點而來，它不是把底層生成模型換得更強，而是在外面包了一層多智能體（multi-agent）協作框架，專門處理「結構化、由離散語意元件組成」的科研圖表。

這個項目分為兩個互補系統。Crafter 負責生成，覆蓋學術圖、海報、資訊圖三種類型，並支援文字生圖、遮罩補完、關鍵元素組合、草圖優化等四種輸入條件，不需要更動架構就能切換。CraftEditor 則把生成的點陣圖轉成「座標精準、可後續編輯」的 SVG 格式，研究者終於可以像在 Illustrator 裡那樣挑出單一元件修改。

為了評估效果，團隊同步釋出 CraftBench——一個 279 筆樣本的基準集，每個樣本都附有人工繪製的參考圖，跨越三種圖表類型與四種輸入條件。在 PaperBanana-Bench 與 CraftBench 上，Crafter 都明顯優於單一生成器與既有的 agentic 基線。CraftEditor 轉出的 SVG 在可編輯性上也勝過所有對照組。

生成部分只要設定 OpenAI 相容端點（例如 OpenRouter）即可跑範例；想啟用 CraftEditor 還需要額外架設一個 SAM3 語意分割伺服器。

重點摘要

解決科研圖表「局部錯誤難修、難以再編輯」的問題
採用多智能體協作框架，不需更換底層模型即可跨類型、跨輸入條件生成
內建 Crafter 生成與 CraftEditor 點陣轉 SVG 兩套流程
釋出 CraftBench 評測集，含 279 筆人工標註樣本
適合需要大量產出與修改學術插圖的研究者、團隊與會議海報設計者

GitHub： https://github.com/HaozheZhao/Crafter

Paper： https://arxiv.org/pdf/2605.30611

Categories: 開源, 中國, 框架, 清華大學, Dataset 數據集, 北京大學

Context-CoT 先讀資料後再推理

2026 年 5 月 28 日

Context-CoT 係一個用來提升大型語言模型「讀完新資料再推理」能力的項目。論文指出，現有模型處理依賴上下文的任務時表現偏弱，在 CL-Bench 上，GPT-5.1 約為 23.7%，開源模型多數只有 13% 至 15%。

這樣就可以解決模型經常只靠原有記憶答題，未能從長篇材料抽取重點再應用。對法律文件、工業排錯或研究資料整理這類工作，這個方向相當實際。

先把長上下文整理成與任務相關的中間資訊，再展開推理。
產生推理資料時盡量隱藏答案與評分規則，減少資料洩漏。
按目標模型的輸出習慣挑選推理路徑，提升微調效率。
實驗指向可明顯減少忽略上下文的錯誤。

你可把它理解為一套「資料合成加微調」流程：先準備長文本任務，再用三段方法生成高質推理資料，最後拿去微調開源模型。這較適合已有模型訓練流程的團隊或研究者。

論文並未展示完整版本、模型名單與全部分數，所以現階段較適合視為有潛力的訓練方法，而非即插即用工具。文中明確提到的模型包括 GPT-5.1，其餘開源模型名稱在現有內容未完整列出。

Paper： https://arxiv.org/pdf/2605.25354v1

Categories: 中國, 北京大學, 框架, 清華大學

Page 1 of 2

1 2 Next »