香港 – Page 3 – InferNews

WorldDirector 14B：可控影片世界模型點樣做長時記憶

2026 年 7 月 3 日

Repository image for pPetrichor/WorldDirector

WorldDirector 是一個影片世界模型框架，屬於研究原型兼開源推理項目。它的核心任務，是讓系統在生成長片段影片時，仍能記住動態物件的身份、位置變化與鏡頭運動，減少角色或物件一離開畫面就「變樣」或失去連續性的情況。

它的做法不是直接把所有事情交畀單一生成模型處理，而是先用 Large Language Model（LLM）規劃 3D 物件軌跡與相機路線，再把規劃投影成 2D 控制訊號交畀視覺生成模組。呢種拆分令項目的取向很清晰：先保住語意層面的動作因果，再處理畫面生成，因此比起只靠像素連續性的世界模型，更重視可控性、物件恆常性同長時段一致性。

目前已公開的是完整 inference code 同 WorldDirector-14B 權重，同時亦交代依賴 Torch 2.4.0、FlashAttention，以及 Hugging Face 下載模型的流程。換句話說，現階段較適合已有 GPU 環境、懂得整理 JSON 規劃輸入的人測試；它不是裝完即用的消費級工具，而較接近可重現論文結果的研究型項目。

項目展示的例子集中在人物、車輛、鏡頭切換與長時間事件編排，重點是物件暫時離開視野後再返回，外觀仍能維持穩定。公開資訊提到它支援 persistent dynamic object memory 同 unrestricted viewpoint exploration，但未見提供完整量化基準細節，因此現階段較適合把它理解為一個方向鮮明、控制力強的世界模型方案，而不是已全面驗證的通用產品。

類型定位：影片世界模型框架，主打可控生成與長時記憶
主要差異：把運動規劃同視覺生成拆開，先處理 3D 語意軌跡
較適合情境：研究團隊、影片生成工作流、需要鏡頭與角色一致性的實驗
部署理解：需先配置依賴、下載 WorldDirector-14B，並準備符合格式的 JSON 計劃輸入
相關模型：WorldDirector-14B；流程中亦依賴 Large Language Model（LLM）參與動作與鏡頭規劃

整體來看，WorldDirector 最有價值的地方，在於它把「世界模擬」由單純畫面續寫，推進到可描述、可規劃、可回放的控制流程。對想研究影片 world model、角色一致性與可操控鏡頭生成的人來說，呢個項目值得留意；對只想快速出片的人，現有門檻仍然偏高。

項目主頁 · GitHub · 模型

Categories: 開源, 香港中文大學, 香港科技大學, Google, NVIDIA, 3D, 世界模型, 蘋果

用 vision-language-action 把人類操作轉移到機械人的雙手

2026 年 6 月 30 日

人類操作數據廉價、豐富且多樣化，使其成為擴展機器人學習規範最有前景的資源之一。然而，將人類技能遷移到機器人仍然困難重重：以往的大多數工作都將人類視為另一種雙手6自由度（6DoF）的具身模型，這存在兩個問題：手部姿態估計存在噪聲，並且人類手指的接觸模式與並聯機械臂的接觸模式存在根本差異，導致手腕旋轉與機械臂操作在語義上不一致。我們認為，從人類資料中學習包含旋轉的動作訊號並非最優方案，因此提出了一種橋接動作表示：在初始頭部-攝影機座標系內的相對手腕平移，這是一個人類和機器人共享的動作空間。

如何把人類操作資料轉移到使用 parallel grippers 的雙手機械人，重點方法是用「relative wrist translation within the initial head-camera frame」作為 bridging action representation。

作者認為把人類直接當成另一種 bi-manual 6DoF embodiment 並不理想，因為手部姿態估計本身有噪聲，而且人手手指接觸模式與 parallel gripper 有本質差異。與其硬學包含旋轉的動作訊號，這項工作改為只保留更容易跨人類與機械人共享的平移資訊，減少 embodiment mismatch。

作者建立了一個 π0-like vision-language-action model，配合 interleaved action tokens 與 attention masking，處理不同 embodiment 可能缺少某些動作成分的問題。這種設計的意義，在於模型不需要假設人與機械人擁有完全相同的控制維度，較適合跨載體技能遷移。

以 wrist translation 取代完整 6DoF human actions，降低人手到夾爪的表示落差
採用 vision-language-action 架構，並加入 interleaved action tokens 與 attention masking
在 novel bi-manual manipulation tasks 上，較 noisy 6DoF human actions 有更有效的知識轉移
效果會隨 human data 數量增加而提升，說明方法具備一定擴展性

這項內容較接近方法論與表示學習分析，而不是部署指南。頁面沒有列出推論框架、硬體需求、v2 檔案更新、chat template 或 MTP draft speculation 等資訊；能確定的是，它針對 Robotic 技能轉移提出一種更貼近夾爪機械人控制需求的動作抽象，適合關注 imitation learning、cross-embodiment transfer 與雙手操作研究的人閱讀。

項目主頁 · Paper

Categories: 香港大學, 字節跳動, 多模態模型, 視覺模型, Robotic, Skill 技能

EO-WM：把衛星影像預報變成天氣驅動的世界模型

2026 年 6 月 28 日

這是一個結合物理知識的影片擴散世界模型（EO-WM），專門用於多光譜衛星影像的概率預測。整體目標是把地球觀測（Earth Observation, EO）預報重新定位為「部分可觀察、天氣驅動的世界建模」任務，在稀疏衛星上下文與未來氣象條件下預測地表動態，並支援災害監測、作物產量預估及植被變化追蹤等下游應用。

過去的 EO 預測方法分為兩類：決定式模型把不確定性壓縮成單一未來影像，擴散式方法則往往把天氣變量當成籠統的條件輸入。這兩種做法都難以正確反映「氣象條件如何改變地表狀態」這個核心問題，而且現有 benchmark 多聚焦於像素重建準確度，未能衡量模型在改變天氣條件時是否會產生方向正確的響應。EO-WM 為了解決這個落差，引入一個 EO 專屬 VAE 把稀疏衛星觀測編碼為潛在影片 token，再用擴散 Transformer（diffusion transformer）經由獨立條件路徑同時處理三種信號：氣候基線（climatological baseline）、天氣異常（weather anomaly）與累積物理壓力（cumulative stress），並持續將空間上下文重新注入影片 token 流。

在評測方面，作者提出兩個以 EarthNet2021 為基礎的診斷式 benchmark：Extreme Summer Benchmark 衡量極端熱浪與乾旱下植被退化的嚴重程度感知能力，引入 TN-MAE 與 Drop Amplitude Error；Seasonal Matched-Pair Benchmark 則衡量當天氣條件改變時預測方向與幅度是否正確，以 Divergence Reproduction Ratio、Directional Hit Rate 與 Paired Divergence Correlation 為指標。報告結果顯示 NDVI 下降幅度的預測誤差相對減少 5.63%，方向命中率相對提升 7.80%，同時在像素級 ENS、P-MAE、N-MAE 等指標上仍具競爭力。

這個項目對遙感研究者、農業監測團隊及氣候風險分析團隊特別有價值，因為它同時提供模型與基準資料，讓外界可在統一的評測框架下比較不同方法的天氣響應能力。從工程角度來看，架構設計強調物理分離條件與空間重注入，而非單純堆疊參數，這種取捨有助於提高極端情境下的可解釋性。需留意的是，目前 GitHub 倉庫主要釋出 benchmark CSV 與 Earthformer 參考評測腳本，模型權重與完整訓練流程屬於配套資源，重現完整結果仍需自行準備 EarthNet2021 的 extreme 與 seasonal 切分資料。

重點摘要：

重新定義 EO 預報範式：把衛星影像預測視為天氣驅動的世界建模，而非純粹的影像重建。
物理分離條件：天氣信號被拆分為基線、異常與累積壓力三條獨立條件路徑。
診斷式 benchmark：Extreme Summer 與 Seasonal Matched-Pair 兩個基準專門檢驗模型在天氣改變下的響應正確性。
可量化的天氣敏感度：NDVI 下降誤差降低 5.63%，方向命中率提升 7.80%，標準指標仍具競爭力。
目前釋出內容：以 benchmark CSV 與評測腳本為主，完整訓練流程需搭配 EarthNet2021 資料集。

GitHub · Paper

Categories: 開源, 香港, 香港大學, 香港理工大學, Stable Diffusion, 庫, 模型, 深度學習, 世界模型, 框架

LISA：讓 ControlNet 訓練快 2.78 倍的正則化方法

2026 年 6 月 28 日

LISA（Likelihood Score Alignment）是一種訓練正則化方法，專門用於加速視覺條件可控生成模型（例如 ControlNet）的訓練過程，同時提升最終生成結果在感知品質與條件遵循度上的表現。

現有做法普遍採用「雙分支範式」（dual-branch paradigm）：訓練一個側網絡（side network）來編碼視覺條件，再將其中間層特徵融合到凍結的預訓練主網絡中。這個範式雖然效果顯著，但側分支的角色定位與訓練效率長期未被深入研究。LISA 從基於分數的生成建模（score-based generative modeling）角度重新審視這個範式：主網絡負責提供先驗的無條件分數（unconditional score），側網絡則透過隱式方式貢獻似然分數（likelihood score）。

LISA 的核心做法是從側網絡的指定層提取特徵，透過一個輕量級解碼器（decoder）將其投影到分數潛在空間（score latent space），然後計算解碼器輸出與近似似然分數目標之間的距離，作為額外的正則化損失（regularization loss）。這個設計讓側網絡的特徵在條件建模中更加解耦（disentangled），且推理階段無需任何額外計算。

根據論文實驗結果，LISA 在多種圖像與影片任務、不同網絡架構（UNet/DiT）以及擴散與流匹配模型上均表現穩定，能夠實現超過 2.78 倍的訓練收斂加速（例如在 ControlNet 上），同時帶來可忽略的額外訓練成本與零推理成本。

這項技術特別適合需要快速迭代 ControlNet 或類似條件控制模型的團隊，例如從事姿態引導圖像生成、組合條件生成或可控影片生成的研究人員與開發者。

重點摘要：

方法類型：訓練正則化技術，適用於雙分支視覺條件可控生成框架
核心創新：將側網絡特徵對齊近似似然分數目標，取代純粹依賴擴散損失的訓練方式
訓練效率：在 ControlNet 等場景實現超過 2.78 倍的收斂加速
推理成本：零額外推理開銷，解碼器僅在訓練階段使用
適用範圍：圖像與影片生成任務，兼容 UNet 與 DiT 架構，支援擴散與流匹配模型

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 華為, IDE, 模型, 模型訓練, 深度學習, 視覺模型, 框架

GauntletBench 評測框架點出 Agent 盲點

2026 年 6 月 28 日

GauntletBench 是一個極具挑戰性的基於 Web 的基準測試，用於衡量智能體系統在複雜、基於視覺的專業任務中的泛化能力。

GauntletBench 圍繞著五個鮮為人知的應用場景構建——視頻編輯器、工作流程構建器、3D 建模器、飛行分析器和電路設計器——評估了三個尚未充分探索的能力：時間感知、圖形理解和3D 推理。該基準測試涵蓋100 項人類可完成的任務、模組化的評估流程以及自動化的領域特定評分，揭示了前沿智能體與人類表現之間存在顯著差距：被評估的最強智能體的成功率僅為19.1%，而非專家人類標註者的成功率則超過80%，這表明當前的智能體在復雜的真實世界中仍可達到可靠的真實世界的性能水平。

現有 benchmark 多數放在熱門應用和較直接的任務，容易令新一代 agents 出現分數飽和，未必真能反映它們離真實工作有幾遠。GauntletBench 的取向剛好相反：刻意避開常見 app，改用 Circuit Designer、Flight Analyser、Video Editor、3D Modeller、Workflow Builder 五類較少被覆蓋的環境，重新把問題定義成「能否在不熟悉介面完成視覺密集工作」。

這個 GitHub 項目本身不是模型，而是跑評測的框架；README 已交代可按單一 task、整個 application，甚至用 JSON 批次執行實驗，也支援並行執行與 YAML task file。底層 agent run mechanics 直接沿用 REAL 的 browser harness 與 task loop，這個項目新增的重點則是 evaluation framework、batch runner、objective and LLM-as-a-judge evaluators，以及新的 task suites。

100 個任務，每個應用 20 個，全部屬 vision-intensive tasks
預設模型參數 可指定 --model，預設為 o3
可擴充測試方式，支援 YAML 任務檔與 JSON 批量設定
結果訊號清楚：最佳 agent 約 19.1% 至 20.9% success，非專業人類標註者超過 80% 至 90%

最值得留意的是它反映出一個很實際的落差：agent framework 普遍比單純 raw models 好，但整體距離人類仍然很遠；open-source models 甚至普遍低於 1%。Video Editor 屬較可處理的範圍，Circuit Designer 則接近「幾乎做不到」，所以這套工具特別適合研究 Agentic、Computer-use agents、網頁自動化與多模態能力的團隊，用來找出模型不是「答錯」，而是根本看不懂時間、圖形與空間結構的位置。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港中文大學, Gemini, Agentic, Video, 工具, 3D, 多模態模型, 模型, Anthropic, 框架

CantoneseChat：會聽聲調語氣的粵語聊天 App

2026 年 6 月 27 日

Cantonese Chat iOS app demo — Home / Chat / TTS Lab

CantoneseChat 是一個 iOS 粵語語音聊天工具項目，核心目標不是做通用聊天介面，而是把 iPhone 收音、on-device 粵語 STT、MiniMax cloud 的 LLM + TTS，以及 persona 語氣控制接成一條完整流程。它實際解決的問題，是一般語音助手識到字，但未必講得似香港人，亦未必會按說話者特徵調整語氣。

這個項目最值得留意的地方，是它會先用 AVAudioEngine 收音，再把音訊 downsample 去 16kHz，用 autocorrelation 估 pitch，推斷 VoiceType、Gender 同 AgeGroup，之後把結果注入 LLM system prompt。這種做法不是高精度聲紋身份辨識，而是偏向 heuristic 的語氣適配，所以速度會較直接，代價是分類準確度很受環境噪音、聲線變化同 pitch 規則影響。

安裝與理解方式也算清晰：它是 iPhone 真機導向的 iOS App，因為核心功能依賴 mic、AVAudioEngine、本機語音輸入同雲端模型串接，單看資料已可判斷模擬器未必能完整反映效果。測試時應分開看幾部分：persona 對話是否有語氣差異、TTS Lab 經 AI 粵語優化後是否更口語、pronunciation_overrides.txt 能否修正讀音，以及 iCloud export 有沒有順利保存音頻。

支援 6 個 persona，適合示範同比較不同說話風格
用 pitch heuristic 分類 VoiceType，再推斷 Gender、AgeGroup
整合 on-device 粵語 STT、MiniMax cloud 的 LLM + TTS
提供 pronunciation_overrides.txt 修正粵語讀音
可將生成音頻匯出到 iCloud Drive

受益最大的人，會是想做香港市場語音互動介面的人，例如客服示範、教育對話、角色語音內容，或者想研究粵語人機互動體驗的小團隊。若你重視可控語氣、多 persona 展示同本地口語感，它有明確方向；若你追求嚴格年齡性別判斷，這套規則式分類就應視為體驗輔助，而不是可靠的人口統計模型。

相關模型與模組方面，已知包括 MiniMax cloud 的 LLM 與 TTS、iOS on-device 粵語 STT，以及項目內以 pitch 為基礎的 VoiceType 分類流程。公開資訊未見標準基準測試或 OSWorld 這類評測結果，所以較合理的判斷方式，是把它看成一個完成度不錯、偏產品原型取向的粵語語音互動項目。

GitHub： https://github.com/elbartohub/CantoneseChat

Categories: 開源, 香港, 文字轉語音, Audio, 語音, MiniMax

UnityShots：多鏡頭影音生成的記憶驅動新方案

2026 年 6 月 26 日

UnityShots 是一個研究性質的多鏡頭影音生成框架，核心任務是解決現有方法在長序列多鏡頭影片中難以維持人物、場景與聲音一致性的問題。它基於已有的單鏡頭影音擴散模型 LTX-2.3（22B 參數）建構，從一段結構化提示詞直接生成 3 至 9 個鏡頭的連續 .mp4 影片，確保角色容貌、場景光影與配音語音在各鏡頭間保持連貫。

現有做法通常依賴三種路線：端到端訓練固定長度序列但難以擴展、以記憶庫逐鏡頭生成但容量隨鏡頭數線性膨脹，或用大型語言模型規劃器調度預訓練生成器而缺乏多鏡頭感知骨幹。UnityShots 的切入點是引入邊界感知門控（Boundary-Aware Gating）與雙槽記憶機制：影片流維持兩個固定大小記憶槽，長期記憶（LTM）錨定開場鏡頭，短期記憶（STM）保留前一鏡頭尾部，兩者在每次剪接時由門控網路更新；音訊流則在每個鏡頭注入參考說話者 token，避免滑動音訊庫的負擔。另一個辨識度高的設計是透過 AdaLN 學習離散剪接類型先驗（cut-type prior），讓使用者可在推論階段調整轉場強度。

以下為重點摘要：

類型：多鏡頭影音生成研究框架，附帶資料集與基準測試。
核心差異：用固定大小雙記憶槽取代線性增長的記憶庫，並加入參考語者 token 維持聲音一致性。
控制能力：剪接類型先驗成為推論時可調旋鈕，使用者可指定轉場強弱。
相關模型：以 LTX-2.3 22B 為基座，整合 AdaLN 門控機制。
資料集：釋出 UnityShotsBench，涵蓋六大文化區域、13 種語言的 200 段多鏡頭序列。

現有評估涵蓋 I2V、T2V、R2V 三種條件模式，UnityShots 在跨鏡頭一致性與音畫品質上與開源及閉源基準相當。對從事多鏡頭敘事、短影音自動化或數位人內容生成的團隊而言，這套框架提供了較完整的記憶與控制設計思路。原始資料庫明確指出，檢查點、訓練程式碼與代理系統尚未釋出，因此目前無法從儲存庫直接取得安裝指令或模型權重；讀者若有興趣部署，需等待官方後續發布。資料集本身可從 Hugging Face 的 KlingTeam/UnityShotsBench 下載，供研究者評測自家模型。授權為 CC BY-NC 4.0，僅限非商業學術用途。

GitHub： https://github.com/JIA-Lab-research/UnityShots

項目主頁： https://jackailab.github.io/Projects/UnityShots/

Paper： https://arxiv.org/pdf/2606.21661

Categories: 開源, 香港, 香港中文大學, 香港科技大學, 字節跳動, Video, 庫, 提示詞, 模型, 數字人, 視頻模型, 語音, LTX, 清華大學, 框架

多模態程式碼生成論文整理：視覺輸入如何改變寫程式

2026 年 6 月 26 日

Awesome-Multimodal-LLM-for-Code 是一份論文整理型資源庫（paper list / survey collection），專門蒐集「多模態大型語言模型（Multimodal LLM, MLLM）用於程式碼生成」相關的研究論文、基準測試與評估方法，核心任務是把「視覺輸入」與「程式碼輸出」串接起來，例如把 UI 截圖、圖表、SVG 向量圖、CAD 草圖轉成可執行的程式碼。

傳統的 text-to-code 研究主要處理純文字描述生成程式碼，但很多真實任務的意圖是透過圖片、影片或互動畫面來表達的，純文字範式無法處理版面配置、視覺語意與互動行為等約束。這個資源庫把研究切成清楚的子題，包括 Web/Mobile UI 程式碼生成、科學圖表程式碼生成、視覺豐富的程式設計題、SVG 生成、簡報生成、UML、CAD、海報、3D 點雲、遊戲程式碼，以及程式修復等，方便研究者按場景查找對應論文。

與一般 Awesome 列表相比，這份資源的差異在於聚焦於「視覺證據如何影響程式正確性」，並收錄了 Design2Code、ChartMimic、Chart2Code、StarVector、PPTAgent、ScienceAgentBench 等具代表性的基準測試與模型。從支援資料可以看到，附帶的 survey 論文進一步把領域分成 GUI、科學視覺化、結構化圖形與前沿任務四大類，並指出視覺相似度不足以評估正確性，還需要語意、互動與領域約束的證據。

對前端工程師、資料視覺化研究者、AI 程式碼助手開發者，以及做 benchmark 設計的人特別有用，能快速掌握 MLLM 在程式碼任務上的最新進展與評測方法。

重點摘要：

屬於論文整理資源庫，聚焦多模態程式碼生成
涵蓋 UI、圖表、SVG、CAD、簡報、3D 等十多個子題
收錄 Design2Code、ChartMimic、ScienceAgentBench 等基準
強調視覺相似度不足以評估程式正確性
原始資料未提供安裝或部署方式，僅供論文索引與閱讀

GitHub： https://github.com/xjywhu/Awesome-Multimodal-LLM-for-Code

Categories: 開源, 香港, 香港大學, 香港中文大學, 編程, 中國, 南京大學

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

EventVLA：長時序機器人操作加入事件記憶機制

2026 年 6 月 26 日

EventVLA 是一個由中國科學技術大學、上海人工智能實驗室、上海交通大學、大連理工大學、香港大學、清華大學、北京大學及華為等團隊共同開發的視覺語言動作（Vision-Language-Action, VLA）框架，專門針對長時序機器人操作任務設計。它解決的核心問題是：當機器人需要執行跨越許多步驟的任務時，往往必須回想起數十步之前出現過的視覺線索，而傳統 VLA 政策通常只依賴壓縮後的隱狀態，容易遺失早期關鍵畫面。EventVLA 的做法是引入事件驅動的視覺證據記憶（event-driven visual evidence memory），在執行過程中偵測與任務相關的事件，把對應的關鍵幀以原始影像形式存入記憶體，並在後續動作預測時重新取用這些畫面作為參考。

這個項目同時發佈了 RoboTwin-MeM 基準測試，這是建基於 RoboTwin 2.0 的記憶依賴型操作評測環境，包含八個需要長時序記憶的任務，例如依序拾取物件、按照紙上指示重複放下積木、依指示重現路線等。與同類 VLA 框架相比，EventVLA 的差異在於它不只壓縮隱狀態，而是保留原始關鍵幀影像作為可回溯的視覺證據，這在需要精確回憶早期空間配置的任務上特別有用。

部署與測試方式

建議建立兩個 conda 環境：一個用於 RoboTwin-MeM 模擬，另一個用於 EventVLA 模型訓練與推論。
從 Hugging Face 下載對應的 checkpoint（RoboTwin-MeM 或 RMBench 版本），搭配相應的評測腳本即可在模擬環境中重現結果。
數據集同時提供 HDF5 軌跡格式與 LeRobot 2.1 訓練格式，方便不同訓練流程直接取用。
目前程式碼已支援模擬訓練與評估，真實機器人推論與微調模型仍在開發中。

重點摘要

核心機制：事件驅動的關鍵幀記憶，以原始影像儲存視覺證據而非僅壓縮隱狀態。
配套基準：RoboTwin-MeM 包含八個長時序記憶依賴任務。
目前狀態：模擬環境訓練與評估已開源，真實世界部署尚未釋出。
適用場景：需要回溯早期視覺線索的多步驟機器人操作任務。

從已釋出的資源來看，研究人員與機器人團隊可直接透過 Hugging Face 上的 checkpoint 與 RoboTwin-MeM 數據集進行基準測試與模型微調，評估記憶機制對長時序任務表現的影響。

GitHub： https://github.com/InternRobotics/EventVLA

項目主頁： https://ganlin-yang.github.io/EventVLA.github.io/

模型： https://huggingface.co/ganlinyang/EventVLA/tree/main

Categories: 開源, Qwen, 香港, 香港大學, 華為, 多模態模型, 模型, 模型訓練, 深度學習, 視覺模型, Robotic, 世界模型, 中國, 北京大學, 清華大學, 框架, 上海人工智慧實驗室

Page 3 of 12

« Previous 1 2 3 4 5 … 12 Next »