中國 – Page 4 – InferNews

AgenticDataBench：數據代理基準點樣睇

2026 年 7 月 3 日

AgenticDataBench 是一個用來評測 data agents 的 benchmark，而唔係直接幫人做分析的模型或應用。它要解決的是：LLM-based data agents 能否穩定完成 data science workflow，並且用可比較、可重現的方式量度表現。

現有做法多數只用零散任務、單一資料集，或者只看最終答案，較難知道代理究竟卡在哪個步驟。這個項目改用 344 個任務、15 個領域，再配合細緻的 skill labels 同 ground-truth，將問題拆成可重用的 data science skills，例如缺失值處理一類操作模式，令評測唔只得總分，仲可以見到技能層面的強弱。

部署同理解方式都幾直接：資料集可由 HuggingFace 下載後放入 testbed/datasets/，任務、gold 標註同結果目錄已經分開，另外保留咗 98 個 private test tasks 維持 leaderboard 的可信度。README 亦提到需要設定 API keys，反映它主要係一個開放測試台，方便用不同 agent harness 跑同一批任務，而唔係單機即開即用的終端工具。

同類 benchmark 相比，它的取向唔係追求最少題目下的快速排行，而係強調真實性、技能覆蓋率同冗餘控制。項目一方面收錄真實 B2B fintech use cases，另一方面用 skill-aligned hierarchical clustering 同系統化生成流程補足缺少真實任務的領域，這種做法的代價是建置與維護較重，但換來更完整的比較基線。

覆蓋 15 個領域，包含真實 B2B fintech 任務
提供 tasks、ground-truth、skills 同 results 結構化內容
支援比較不同 agent harness，如 Smolagents、DA-Agent、Claude Code、CodeX
已列出 Qwen3.5-397B-A17B、Kimi-K2.5、Claude Sonnet 4.6 的初步實驗

這個項目最適合做 data agent 研發、模型選型同內部驗證的團隊，也適合研究人員用來檢查代理在哪類 data skills 失分。性能資訊目前以 leaderboard 結果為主，重點不只是 accuracy，仲包括 skill-level insight；相關模型至少包括 Qwen3.5-397B-A17B、Kimi-K2.5 同 Claude Sonnet 4.6。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Agentic, API, Anthropic, Skill 技能, Dataset 數據集, 清華大學

PerceptionRubrics 點出多模態評測盲點

2026 年 7 月 3 日

PerceptionRubrics 是一個多模態評測框架兼資料集，主力檢查 Multimodal Large Language Models 是否真正看清圖片內容，而唔係只係在傳統 benchmark 拿到高分。它要解決的問題很直接：現有 caption 評測常用 holistic semantic matching 或平均分，容易把嚴重錯誤沖淡，但人類閱讀結果時，關鍵事實一錯，整體輸出已經未必可信。

作者把舊有範式拆開重做，改用 atomic auditing，把每張圖分解成可核實的細項，再分成 Must-Right 與 Easy-Wrong 兩條 rubric 流。Must-Right 針對必要事實，Easy-Wrong 針對模型常見的細節遺漏、幻覺或誤判；再配合 gated scoring，只要必要視覺事實出錯，就會被明顯扣分，而唔係被其他小分數平均掩蓋。

資料規模方面，項目提供 1,038 張 information-dense images，同超過 10,000 條 instance-specific rubrics，來源是用 Circular Peer-Review 建立的 Golden Captions，再蒸餾成評測規則。覆蓋範圍包括 natural scenes、OCR documents、GUIs、charts、STEM、logic puzzles 同 creative/cultural images，明顯偏向高資訊密度、容易出現感知失真的場景。

測試方式不算複雜：這個 GitHub 儲存庫主要提供 evaluation code 和 data，較適合研究團隊、模型開發者，或者需要比較多個 MLLMs 表現的人，把模型輸出的 captions 對照 rubric 計分。它不是部署給終端用家的應用程式，而是拿來驗證模型在圖像理解任務到底穩不穩；使用前亦要接受一點，這類更嚴格的評分會令模型成績比傳統 leaderboard 更難看，但診斷價值更高。

核心取向是由 holistic semantic matching 轉向 atomic auditing
Must-Right 與 Easy-Wrong 直接對應關鍵事實與常犯細錯
gated scoring 強調「關鍵錯一項就要反映出來」
資料集中在 GUIs、文件、圖表等高密度視覺任務
適合用來比較 20+ 主流 MLLMs 的感知可靠性，而唔只係比較平均分

項目指出模型經常能辨認零碎元素，卻未能同時滿足多個關鍵視覺約束，尤其在 GUIs、documents 同 structured charts 更明顯。README 與 supporting context 亦提到曾評測 20+ 主流 MLLMs，包括 GPT-5.5；不過這個儲存庫重點仍然是評測框架本身，而唔係推出新模型，所以較值得留意的是它怎樣暴露 perception brittleness，而不是單一排行榜名次。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 字節跳動, Gemini, DeepSeek, OpenAI, 多模態模型, 清華大學, Dataset 數據集

PRA：像素級自回歸生圖的新路線

2026 年 6 月 30 日

PRA 是一個以 PyTorch 實作的影像生成研究項目，屬於 class-conditional pixel-space autoregressive image generation 模型與訓練框架。它要解決的問題，是直接在像素空間逐步生成圖片時，單步誤差大、而且 teacher-forced training 與推理流程不一致，令誤差一路累積。

現有 pixel-space continuous-token autoregressive 做法，多數直接預測高維像素 patch，或用 x-prediction、input noise injection 減輕誤差，但改善有限；exact rollout training 雖然更貼近推理，代價又太高。PRA 的取向是加入 Parallel Rollout Approximation (PRA)：先生成低維 intermediate states，再經 pixel decoder 映射回 pixel-space tokens，同時用近似推理時的 pixel-feedback 方式保留平行訓練效率。

這個設計的重點，不是單純追求更大模型，而是重新處理「訓練見到的輸入」與「生成時真正收到的回饋」之間的落差。論文資料顯示，它在 ImageNet-1K 256×256 的 class-conditional 生成上，PRA-S 135M 參數已做到 FID 2.58，優於先前 billion-scale pixel-space AR 的 3.60；PRA-L 511M 進一步到 1.94，定位很清楚，就是衝着 pixel-space AR 的 SOTA 而來。

部署理解上，儲存庫已提供 environment.yml、requirements.txt、預訓練權重與 sample_ddp.py，代表作者預設你會用多卡分散式抽樣與評測。評估指標包括 FID、Inception Score、precision、recall，另有 ImageNet classification probing accuracy 作為生成以外的補充觀察，表示作者也在測試表徵能力，而不只看出圖漂亮與否。

項目類型：研究原型兼模型實作，集中展示 PRA 訓練與取樣流程
相關模型：PRA-S、PRA-B、PRA-L，參數量約 135M、250M、511M
主要差異：不用離散 tokenizer，維持 pixel-in、pixel-out AR 介面
較適合情境：研究 pixel-space AR、比較生成指標、重現 ImageNet 類條件生圖結果
需要留意：目前公開內容偏向研究重現，不是即裝即用的終端應用工具

受益最大的，會是做影像生成研究的團隊、想比較 autoregressive 與 diffusion 路線的人，以及要研究像素空間建模取捨的學術項目。對一般開發者來說，這個項目較像高水準實驗平台；有現成 checkpoint 和評測流程是優點，但 CUDA、PyTorch 與 FlashAttention 相容性仍需自行處理。

GitHub · Paper

Categories: Image, Python, 影像模型, 模型訓練, 北京大學

ProMSA 把 KB-VQA 變成會搜尋的代理

2026 年 6 月 30 日

這是一個針對 Knowledge-Based Visual Question Answering（KB-VQA）的研究原型兼訓練項目。它要處理的問題，是模型不只要看懂圖片內容，還要連接外部知識來源例如 Wikipedia，先找對實體，再用足夠證據回答問題。

現有做法多數採用固定的 retrieve-then-generate 流程：先選好 retriever、設好 static top-k，再做一次檢索後直接生成答案。作者認為這種範式遇到 long-tail entities 很脆弱，第一步找錯就難以修正，也不擅長組出 multi-hop 證據鏈；所以 ProMSA 改成 progressive multimodal search agent，讓同一個 MLLM 逐輪決定用 image search、text search，還是 stop。

這個項目的取向很明確：它不是單純把檢索接到模型前面，而是把搜尋本身變成推理流程一部分。配合 de-duplication exclusion list、tool-call budget 同 reward penalty，它會避免重覆撈同一批內容，亦會在證據足夠時停手，減少無效工具呼叫；訓練上再用 TN-GSPO，而不是只靠 GRPO 或 vanilla GSPO，目標是令長度與工具步數不同的軌跡都能較穩定更新。

支援 image search、text search、stop 三種動作
針對錯誤首次檢索加入 failure recovery 與 multi-hop 搜尋
採用 veRL 工具介面，包含 multi-turn rollout、reward 與 loss
policy backbone 包括 Qwen/Qwen2.5-VL-7B-Instruct、Qwen/Qwen3-VL-2B-Instruct、Qwen/Qwen3-VL-8B-Instruct

網頁已交代 Installation、Data & Model Preparation、Service Architecture、Training 同 Evaluation，表示它不只是概念展示，而是有完整實驗流程的研究項目；不過部署時應預期需要 Python 3.10+、veRL、外部搜尋服務同相應資料準備。結果描述提到在 E-VQA 與 InfoSeek 對強 RAG 和 agent baselines 有一致提升，但目前提供的是研究報告式結論，較適合做 KB-VQA、multimodal agent、RAG policy 訓練的團隊參考，而不是即裝即用的通用產品。

項目主頁 · GitHub · Paper

Categories: Qwen, Agentic, Python, RAG, 模型訓練, 視覺模型, 中國, 清華大學

PhysisForcing 提升機械人世界模擬可靠性

2026 年 6 月 29 日

這是一個用於機械人操作的世界模擬訓練框架，名為 PhysisForcing。它主要解決影片生成模型在模擬抓取、推動與物件互動時，常出現動作軌跡不連續、物件變形和互動不合物理規律的問題。

PhysisForcing 的做法不是單靠生成更像真的畫面，而是把訓練重點放在與物理相關的區域，並同時加入像素層與語意層兩種約束。像素層的 trajectory alignment loss 會用參考點軌跡監督 DiT features，語意層的 relational alignment loss 則利用凍結的影片理解編碼器，對齊區域之間的互動關係，令機械臂與物件之間的時空關聯更穩定。

和一般通用影片生成模型，或只針對機械人資料做微調的方法相比，這個框架更集中處理「物理合理性」而非單純畫面觀感。它可套用在標準 diffusion video backbones 之上，已展示於 Wan2.2-I2V-A14B 與 Cosmos3-Nano 這兩個基礎模型。

核心重點是分層物理對齊：同時改善運動一致性與互動關係一致性
適合用於 embodied world simulation、robotic manipulation 與下游動作規劃
在 R-Bench、PAI-Bench、EZS-Bench 都較強基線有提升
R-Bench 上，Wan2.2-I2V-A14B 提升 +22.3%，Cosmos3-Nano 提升 +9.2%
納入 WorldArena action-planner protocol 後，closed-loop success rate 由 16.0% 升至 24.0%

這項工作對需要用影片模型做機械人訓練、模擬驗證或策略學習的人較有參考價值，因為它不只改善生成片段的外觀，亦提升作為 world model 的可用性。現有資料顯示，物理對齊後的影片表徵亦能帶動下游 policy success，說明這類方法不只是視覺修飾，而是直接影響機械人操作結果。

項目主頁 · Paper

Categories: 開源, NVIDIA, Video, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, 北京大學, 框架

ViQ 想把影像變成更懂語意的離散碼

2026 年 6 月 27 日

ViQ 是一個視覺量化表示研究框架，也是把影像轉成離散 codes 的模型方法。它要解決的問題，是讓圖片像文字 token 一樣可交給多模態大模型處理，同時盡量不要在量化過程丟失太多語意與畫面細節。

現有做法常見兩條路：一類偏重重建，還原畫面能力較好，但語意資訊不足；另一類依賴 contrastive vision-language learning 的連續特徵，語意較強，卻不容易直接變成高品質離散表示。ViQ 的切入點是先做 Text-Aligned Pre-training，再做量化學習，把「先對齊語言語意、後逐步離散化」拆成清楚兩段。

它的核心設計有幾個辨識度很高的部件：以 pretrained language model 監督視覺編碼器、用 resized positional embedding 與 native patchify 支援 any-resolution input、再用 Proximal Representation Learning 配合 L∞-norm 約束，把特徵逐步推近量化錨點，最後交給 position-aware、head-wise FSQ（Finite Scalar Quantization）處理。論文亦提到基座可接 SigLIP2 vision tower、Qwen2.5 backbone，並透過 LoRA 等輕量組件訓練量化部分，而不是全面微調整個系統。

支援任意解析度輸入，不用被固定尺寸綁死
目標不是只重建圖片，而是兼顧語意理解與細節
多模態訓練可直接吃離散視覺 codes，論文稱效率可提升約 20% 至 70%
已公開訓練與推論程式，並提供 HuggingFace 權重

從部署與測試角度看，這個 GitHub 儲存庫較適合當研究實作與模型驗證項目來理解：可先用已公開權重跑 inference，觀察影像如何被編成離散 codes，再進一步重現單階段訓練示例，之後才嘗試論文中的兩階段 recipe。較受惠的會是做 MLLM、視覺 tokenization、影像重建或訓練加速的團隊；限制則是概念與訓練流程都不算輕，重點較偏研究價值，未必是即裝即用的通用工具。

GitHub： https://github.com/yuxumin/ViQ

Paper： https://arxiv.org/pdf/2606.27313

Categories: 開源, Qwen, 騰訊, Embedding, 多模態模型, 模型, 模型訓練, 視覺模型, 清華大學, 框架

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, LTX, 清華大學, 框架

多模態程式碼生成論文整理：視覺輸入如何改變寫程式

2026 年 6 月 26 日

Awesome-Multimodal-LLM-for-Code 是一份論文整理型資源庫（paper list / survey collection），專門蒐集「多模態大型語言模型（Multimodal LLM, MLLM）用於程式碼生成」相關的研究論文、基準測試與評估方法，核心任務是把「視覺輸入」與「程式碼輸出」串接起來，例如把 UI 截圖、圖表、SVG 向量圖、CAD 草圖轉成可執行的程式碼。

傳統的 text-to-code 研究主要處理純文字描述生成程式碼，但很多真實任務的意圖是透過圖片、影片或互動畫面來表達的，純文字範式無法處理版面配置、視覺語意與互動行為等約束。這個資源庫把研究切成清楚的子題，包括 Web/Mobile UI 程式碼生成、科學圖表程式碼生成、視覺豐富的程式設計題、SVG 生成、簡報生成、UML、CAD、海報、3D 點雲、遊戲程式碼，以及程式修復等，方便研究者按場景查找對應論文。

與一般 Awesome 列表相比，這份資源的差異在於聚焦於「視覺證據如何影響程式正確性」，並收錄了 Design2Code、ChartMimic、Chart2Code、StarVector、PPTAgent、ScienceAgentBench 等具代表性的基準測試與模型。從支援資料可以看到，附帶的 survey 論文進一步把領域分成 GUI、科學視覺化、結構化圖形與前沿任務四大類，並指出視覺相似度不足以評估正確性，還需要語意、互動與領域約束的證據。

對前端工程師、資料視覺化研究者、AI 程式碼助手開發者，以及做 benchmark 設計的人特別有用，能快速掌握 MLLM 在程式碼任務上的最新進展與評測方法。

重點摘要：

屬於論文整理資源庫，聚焦多模態程式碼生成
涵蓋 UI、圖表、SVG、CAD、簡報、3D 等十多個子題
收錄 Design2Code、ChartMimic、ScienceAgentBench 等基準
強調視覺相似度不足以評估程式正確性
原始資料未提供安裝或部署方式，僅供論文索引與閱讀

GitHub： https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code

Categories: 開源, 香港, 香港大學, 香港中文大學, 編程, 中國, 南京大學

WATER：WordArt 場景文字識別新突破

2026 年 6 月 26 日

這是一個由復旦大學（上海多模態具身 AI 重點實驗室）與騰訊 WeChat Vision 聯合發佈的研究項目（屬於數據集＋模型基準組合），同時收錄於 ECCV 2026。針對 WordArt-oriented scene TExt Recognition（WATER）這項任務，原有 STR 數據集與方法普遍圍繞「規則場景文字」與「固定模板輸入」建構，難以應對 WordArt 高度自訂的字體、紋理與版面，因此表現受限。WATER 從兩端突破：數據方面構建 2M 規模合成數據集 WATER-S，模型方面提出支援任意形狀輸入的 STR 基線 WATERec。

WATER-S 數據集設計包含兩個互補子集：WATER-T（1M）由 SynthWordArt 渲染引擎透過 11,250 款藝術字體生成，提供高可控的精準合成樣本；WATER-Z（1M）則結合 Qwen3-VL 提示詞挖掘與 Z-Image 影像合成，覆蓋更真實且多元的場景。再搭配 WATER-R（3.2M，整理自 Union14M-L、WordArt、WAS-R 並去重）作為真實訓練集，整體數據規模較既有藝術文字數據提升數百倍。

WATERec 模型架構採用類似 NaViT 的編碼器搭配 RoPE，支援任意形狀輸入，再以自回歸解碼器處理複雜版面，從結構上打破固定模板 STR 的瓶頸。在 WordArt-Bench 上以 90.40% 準確率成為首個突破 90% 的結果，大幅超越 HunyuanOCR（81.54%）及其他通用或 OCR 專用視覺語言模型。

使用方法需配合外部資源：WATERec 訓練與推理程式碼位於 OpenOCR-WATERec 倉庫；模型權重、數據集（包含 WordArt-Bench）、273K 條 WATER-Z 提示詞模板與 112K 款藝術字體皆託管於 HuggingFace。複製本倉庫後，可透過 SynthWordArt/ 目錄取得 WATER-T 渲染流程，prompts/ 目錄提供 caption_mining.py 與 fewshot_expansion.py 兩階段提示詞挖掘，Z-Image/gen_zimage.py 支援多 GPU 並行生成，eval_vlm/ 則整合 Qwen3-VL-8B、InternVL3.5-8B、GOT-OCR2.0、DeepSeek-OCR-2、PaddleOCR-VL、PP-OCRv5、HunyuanOCR、Nemotron-VL-8B 等基線評測腳本。

重點摘要：
– 復旦大學與騰訊 WeChat Vision 團隊合作，獲 ECCV 2026 收錄
– WATER-S 含 WATER-T（字體渲染）與 WATER-Z（VLM + 影像合成）兩條合成路徑
– WATERec 以任意形狀編碼器 + 自回歸解碼器突破固定模板限制
– WordArt-Bench 90.40% 為首次突破九成，超越 HunyuanOCR 等專用 VLM
– 所有模型、數據、字體與提示詞均開源於 HuggingFace

從評估對照來看，不論是通用 VLM、OCR 專用 VLM 或一般 OCR 工具，在 WordArt-Bench 上皆明顯落後於 WATERec，反映藝術文字仍是當前多模態模型的弱項。對從事海報辨識、品牌素材處理、廣告設計自動化，以及需要處理高度風格化文字的團隊而言，這套數據＋模型組合是目前少數針對該場景強化的開源方案。

GitHub： https://github.com/YesianRohn/WATER

模型： https://huggingface.co/Yesianrohn/WATERec-Models

Categories: 開源, 騰訊, DeepSeek, Image, 多模態模型, 模型, 深度學習, 視覺模型, 中國, Dataset 數據集, 北京大學

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 上海人工智慧實驗室, 框架, 清華大學, 北京大學

Page 4 of 12

« Previous 1 2 3 4 5 6 … 12 Next »