Robotic

ACE-Data-0：以人為中心的環境式採集構建具身數據引擎

2026 年 8 月 1 日

家居環境入面嘅長時間活動，一直係具身 AI 最難補足嘅數據缺口。ACE-Data-0 聚焦嘅唔係幾秒鐘嘅單一步驟，而係一段完整家務流程點樣一路影響視角、身體動作、物件狀態、接觸訊號同聲音，令模型可以學到「同一件事點樣隨時間演變」。

項目背後用 Ambient Capture Engine（ACE），將真實住宅場景變成同步錄製系統，並且同時覆蓋 table-scale 同 room-scale 兩個尺度。重點唔止係拍到第一身畫面或者外部鏡頭，而係將 ego view、exo views、body motion、hand articulation、object state、audio 同 touch 對齊到同一時間線，整理成可訓練、可標註嘅 embodied AI 數據。

相比只提供單一視角影片、實驗室動作捕捉，或者只得短片段互動記錄嘅常見做法，ACE-Data-0 更著重完整性同連續性。它以 household goal 為單位記錄活動，參與者自然完成任務，過程可以跨房間、牽涉多個物件，亦會保留場景由初始狀態、中途改變到任務完成嘅完整軌跡，較適合研究長程規劃、狀態追蹤同記憶能力。

用同步多模態方式記錄真實家居活動，而唔係只截取短動作片段
同一事件內對齊視角、身體、手部、物件、聲音同接觸訊號
以目標導向活動收集數據，保留跨步驟、跨房間嘅連續變化
適合具身 agents、機械人感知與操作、長時序決策相關研究

現有資料清楚交代咗項目定位、捕捉方式同數據價值，亦提到已釋出技術報告同 Hugging Face dataset。適合先將它理解為一個面向具身 AI 數據收集嘅基礎設施項目，而唔係即時上手型工具。

項目主頁

Categories: Agentic, Video, Audio, Robotic, Dataset 數據集

Gemini Robotics 2 想令機械人動作更完整

2026 年 7 月 31 日

CSJxggUnu5m5TfompiXP2z7YLThhUvDn2 kBueCZv6HCEWWefUt WLzM6wxnTV1sTGqBbvmXDnOTB12W18NDr2NgFVXvHKCiTtjfXpyzuOYPJZXlg=w1440

機械人最難處理的，往往不是單一步驟，而是由看見環境、理解指令，到整個身體協調完成動作的連續過程。Gemini Robotics 2 聚焦的正是這個落差，嘗試把 whole body intelligence 帶入機械人，讓系統不只會辨識和規劃，還能更自然地連動身體控制。

Google DeepMind 把它放在 Gemini Robotics 這條 physical AI 路線之下，定位清楚偏向機械人操作與互動。相比只處理螢幕、語言或單一機械臂任務的做法，這個方向更重視整體行為是否連貫，包括感知、推理、用工具與跟環境互動能否接上同一套能力。

對研究機械人、embodied AI 同 VLA 工作流的人來說，這類項目最有參考價值的地方，在於它瞄準真實場景中的協調問題，而不是只展示單點能力。文章提供的內容仍屬簡介層面，未見完整評測細節、量化指標或部署條件，所以現階段較適合當成技術方向觀察，而不是直接當作可落地規格。

把機械人的感知、推理與身體動作放到同一條能力鏈
核心關注點是 whole body intelligence，而不只是語言或視覺理解
屬於 Gemini Robotics 系列，延伸 Google DeepMind 的 physical AI 佈局
現有公開資訊偏介紹性，性能與限制仍有待更多技術資料補充

整體來看，Gemini Robotics 2 反映出機械人模型正在由「識唔識做判斷」走向「能唔能夠完整做完一個動作」。對需要長步驟操作、工具使用與環境互動的場景，這種整合式能力會比單一模組升級更值得留意。

項目主頁

Categories: Google, Gemini, NanoBanana, Agentic, Video, Audio, 安全, Robotic, 世界模型, VLA, Skill 技能

HiFi-UMI 用純人類示範訓練可落地機械手策略

2026 年 7 月 30 日

收集機械人操作數據一直又貴又慢，尤其牽涉真機示範、重覆錄製同場景對齊時，門檻會再高一截。HiFi-UMI(Universal Manipulation Interface) 聚焦在 robotic manipulation 訓練流程，嘗試只靠高保真人類示範資料，學出之後可以直接部署的 manipulation policy，重點放在減少對 robot data 的依賴。

它吸引人的地方，不是單純把人類影片拿來做模仿學習，而是想處理一個更難的落差：人類動作同機械人執行方式並不一樣，但資料又最容易先由人收集。HiFi-UMI 的方向，是用 high-fidelity UMI data 把這種落差壓低，令純 robot-free data 也有機會支撐 deployable policy。

適合留意這個項目的人，會是做 imitation learning、robot learning，或者正面對資料成本過高的研究與開發團隊。當工作流卡在「冇足夠真機數據先練唔到模型」時，這類方法提供了一條先用高質人類資料起步的路。

核心取向是 robot-free data，減少收集真機示範的成本
重點不只在學習動作，還在能否得到 deployable manipulation policies
依賴的是 high-fidelity UMI data，而唔係低配對、低一致性的隨意示範
最受用的場景是資料昂貴、真機時間有限的 robotic 項目

現有資料只交代了項目的核心主張，未見更完整的模型結構、訓練細節或評測數字，所以現階段較適合把它理解成一個很鮮明的研究方向：先提升人類示範資料的可用性，再把學到的能力推近真實部署。要判斷它比其他做法強幾多，仍要等更完整的技術內容同 benchmark 結果。

項目主頁

Categories: Robotic, Dataset 數據集

VCSD 點樣逼可以 Vision-Language Models 真係睇圖

2026 年 7 月 26 日

不少 Vision-Language Models 會表面上處理圖片，實際卻沿住語言慣性作答。VCSD 屬於模型訓練方法，針對嘅正正係呢種「答案似乎合理，但未必真係由圖像帶動」嘅問題：它讓同一個 EMA teacher 分別看原圖同內容被抹走嘅 control input，再用兩者對每個 response token 嘅分佈差異，提煉出更依賴視覺內容嘅學習目標。

現有 on-policy self-distillation（OPSD）多數靠 privileged answers 或 visual evidence 製造 teacher 比 student 更強嘅訊號，VCSD反過來把 image-content removal 變成非對稱來源。做法唔係直接獎勵某幾個字，而係用原圖分佈 p_hi 同控制輸入分佈 p_ctrl 嘅 log-probability 差，配合 α 調整對比強度，再用 β-plausibility mask 限制只喺 teacher 原本已視為可信嘅 token 集合內重新分配機率；README 亦講明 β 設成 0.0 會令訓練崩潰，代表呢個護欄唔係裝飾，而係方法成立嘅關鍵。

項目目前仍然係 work in progress，代碼、設定同文件都可能再改。倉庫已放出訓練資料格式線索，例如 train.parquet 需要 prompt 同 image 欄位，train_answer.parquet、val_answer.parquet 用作 answer-conditioned validation；訓練則建基於繼承自 verl 嘅 GRPO/PPO 流程，VCSD 相關改動集中喺 verl/trainer/ppo/vcsd.py、verl/workers/actor/dp_actor.py 同 actor 設定檔，表示它比較似可插入現有 RL 訓練管線嘅附加目標，而唔係一套獨立框架。

核心取向係用 visual contrast 代替 privileged answers 或 visual evidence
學生模型學習嘅係 full-vocab KL 目標，唔係逐 token 手動加權
control input 可設成 black、degrade 或 noimg，用來測試答案有幾多真係靠圖像
已公開結果顯示，VCSD 在 ViRL39K 上對 Qwen3-VL 與 Qwen3.5 系列均比 matched OPSD 更好

從已公開數字看，Qwen3-VL 在七個 benchmark aggregate 上由 2B 的 62.27 升到 67.04、4B 由 71.30 升到 73.16、8B 由 72.51 升到 76.26，方向相當清楚：它想改善嘅唔係推理時計算量，而係訓練期間點樣把「圖片真正提供咗乜嘢」變成更乾淨嘅監督訊號。對已經有 Vision-Language Models RL 訓練流程、又想減少外部 teacher 與額外標註依賴嘅研究團隊，呢個項目值得跟進；不過現階段仍要接受文件未齊、介面可能變動，以及結果主要來自論文與項目頁面披露。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Image, 多模態模型, 視覺模型, Robotic, VLA, Dataset 數據集, 框架

TableVerse 想補上機械臂數據缺口

2026 年 7 月 26 日

機械臂要學會喺凌亂桌面執放物件，卡位通常唔在控制器，而在訓練資料太乾淨、太想像化。TableVerse 屬於Dataset 數據集加上資料生成流程，重點不是再用文字幻想場景，而是用 Real2Sim 從網上真實圖片重建可放進模擬器的桌面配置，直接處理泛化操作最缺的場景真實感。

現有做法常見兩條路：text-to-layout hallucination，或者較簡化的 procedural generation。作者批評前者容易做出物理上唔合理的擺位，後者又捉唔到人類日常環境常見的密集雜物；因此 TableVerse 改成 deterministic reconstruction，從非結構化的 in-the-wild image data 還原具備 metric scales、authentic topologies 同 verified mechanical stability 的場景，取向明顯偏向可落地訓練，而唔係只追求合成速度。

項目現時最重要的成果是 TableVerse-100K，公開了 100,000 個 physically consistent 的桌面環境，並配對 interactive manipulation trajectories。網站資料顯示，它還接上自動化 task-conditioned trajectory generation，先由 MLLM 根據場景視角提出 object-to-target 配對，再生成 collision-free pick-and-place demonstrations，令數據不只得靜態場景，亦包含可直接餵給操作策略學習的示範。

以真實圖片重建桌面，而非只靠生成式佈局
提供 100K 場景與 pick-and-place 軌跡，規模夠大
強調物理一致性、機械穩定性與模擬可用性
適合做 generalizable manipulation 與桌面操作研究

部署角度上，這個 GitHub 儲存庫目前更接近論文與資料入口，主要連到 arXiv、HuggingFace dataset 同項目網站，未見完整訓練或評測程式公開。換句話說，研究團隊現階段較可能把它理解為高品質資料來源與方法參考，而不是即裝即跑的機械臂框架；對做 robotic manipulation、模擬訓練數據建構，或者研究 Real2Sim 流程的人，參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Image, 多模態模型, Robotic, Dataset 數據集

SeededGrasp 用自然語言指揮機械人精準抓取雜亂物件

2026 年 7 月 26 日

SeededGrasp: Language-Guided Grasping in Complex Scenes with Multiple Embodiments teaser figure

當桌面堆滿不同物件，機械人要聽得明「拎紅色杯旁邊嗰支筆」這類指令，難處不只在辨認物件，仲要同時算準 3D 空間位置同抓取角度。SeededGrasp 針對的正是這類語言引導抓取場景，重點不是端到端硬推整個動作，而是先找對目標，再生成穩定抓取姿態。

它的做法相當清晰：先用預訓練 Vision-Language Model（VLM）把文字指令轉成影像中的 2D 種子點，再投影到 3D 點雲，交給輕量的 flow-matching grasp model 產生 6DOF 抓取姿態。這種拆分方式把高層語意判斷同低層幾何執行分開，減少重新訓練整個系統的成本，也較容易支援多種 embodiment。

相比直接由 VLM 預測抓取，SeededGrasp 保留語言理解的直觀操作，同時補回空間推理不足；相比把 VLM 同抓取模型一併訓練，它對語言標註資料與算力的需求更克制。團隊亦公開多 embodiment 桌面抓取數據集，包含超過 2.56M 個 cluttered scenes 抓取姿態，涵蓋 Franka Panda、Allegro Hand 同 Robotiq 3-Finger。

用簡單文字指令指定目標，適合雜亂桌面抓取情境
以 2D 種子點連接 VLM 與 3D 抓取生成，降低端到端訓練負擔
支援多種 embodiment，不限單一夾爪或手型
公開 2.56M grasp dataset，補足多 embodiment 訓練資源
模擬成功率達 72%，真實環境抓取實驗達 78%

對機械人操作、語言介面同 grasp planning 有興趣的讀者，會較容易感受到這個項目的價值：它沒有把所有問題塞進同一個大模型，而是用較節制的架構處理語意與幾何之間的落差。現階段重點仍在桌面雜亂場景抓取，但它已經展示出多 embodiment 擴展同資料效率上的實用方向。

項目主頁 · Paper

Categories: Google, 3D, 多模態模型, 模型訓練, 視覺模型, Robotic, Dataset 數據集, 框架

DocOps 直擊文件代理真功夫

2026 年 7 月 26 日

改 Excel、Word、PowerPoint 同 PDF，最難唔係生成一段合理回覆，而係交返一份可用、冇整爛結構的原生文件。DocOps屬於 benchmark 類型，針對 document-operation agents 而設，重點不是問答得分，而是檢查代理能否把文件改到指定狀態，同時保住公式、樣式、大綱、書籤與格式有效性。

現有評測常落在兩個範式：static document understanding 把文件當成唯讀材料做擷取或問答；workflow-oriented software evaluation 則把文件當成在應用程式之間流轉的附屬品。DocOps反過來把「文件本身」放回中心，用 Harbor 格式整理 210 個可執行任務，再用 deterministic artifact-level verifiers 直接驗最終檔案狀態，這種設計比只看可見文字更能捉到破壞性修改與狀態遺漏。

它的取向相當鮮明：不是追求聊天式流暢回覆，而是拆解 document manipulation 到 content、format、structure 三個維度，再按 L1 到 L4 拉開難度，涵蓋局部原子操作、同文件組合操作、單文件流程，到跨文件工作流程。對研究 agent 能否長步驟維持全局一致性的人來說，這個分層比單一總分更有診斷價值。

收錄 210 個 Harbor tasks，覆蓋四種常見文件格式
內建 deterministic verifiers，驗證原生檔案而非只看輸出文字
提供 DocumentTools、Terminus-2、Codex、Claude Code 等 execution harnesses
支援 skill-on / skill-off 評測，較易分辨工具能力與模型能力

這個 GitHub 項目已包 task、skills、harnesses 同 Docker base images，重點在重現 benchmark run，而不是單獨提供某個辦公自動化工具。現有結果亦說明門檻不低：例如 GPT-5.5 在不同 harness 的表現有明顯落差，Claude Sonnet 4.6、DeepSeek-V4-Pro 等模型亦未見接近滿分，反映文件操作代理距離穩定處理端到端工作仍有一段距離。對做 Agentic 評測、辦公自動化代理、或想比較 skill 與模型邊界的團隊而言，DocOps的參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, DeepSeek, OpenAI, Agentic, 軟件, Robotic, Anthropic, Meta, 百度, Skill 技能, Dataset 數據集

Wan Streamer v0.3：讓 AI 學懂「世界不變，只有事件在流動」

2026 年 7 月 17 日

A robot navigates a suburban neighborhood and drives a car through a sequence of events

玩過 AI 影片對話工具的人都會發現一個矛盾：模型可以跟你聊天，但一旦想做動作，畫面就容易卡頓、失憶，甚至換了一張臉。Wan Streamer v0.3 想解決的就是這個問題——它把影片分成兩件事來學，一件是「世界設定」（場景、角色、畫風、聲音這些要長期保持一致的東西），另一件是「事件流」（說話、動作、鏡頭移動、環境變化這些隨時間發生的事）。

這個拆法聽起來抽象，但對使用者來說，最直接的差別就是角色終於可以做自然語言描述的動作了。你打開鏡頭，模型會一邊跟你說話，一邊伸手拿起眼前的物件、轉向聲音來源、或者露出驚訝的表情，而且動作和對嘴的時序是學出來的，不是後製對齊的。延遲仍然維持在約 200 毫秒，解析度 640×368、幀率 25fps，即時互動不會被打斷。

從工作流角度看，這個版本最大的價值是把普通影片變成訓練素材：先建立世界，再沿時間軸學接下來會發生什麼。同一套能力日後可以遷移到漫遊探索、機器人控制等場景，而這次發佈聚焦在即時音視頻對話。

重點摘要：

拆解式學習：將「持續世界」與「事件流」分開建模，避免長對話中場景漂移
自由動作描述：支援用自然語言寫出動作（如拿取物件、轉向、變換姿勢），並與對話同步渲染
即時互動規格：640×368、25fps、約 200ms 模型側延遲，支援全雙工音視頻
普通影片即訓練素材：不需特殊標註，現成影片就能用於學習時間軸上的因果事件
可遷移架構：同一套預訓練能力可延伸至具身導航、漫遊等場景

對於做數位人、虛擬主播、互動敘事或即時陪聊的團隊，這個方向值得留意；對於只是想試試看的個人，現有 demo 已經足夠展示「角色真的在過日子，而不只是在回話」的差異。

項目主頁

Categories: Video, Audio, 多模態模型, 模型訓練, 語音, Robotic, 世界模型, Skill 技能

GigaWorld-Policy-0.5 推向機械人即時反應

2026 年 7 月 17 日

機械人控制最難受的地方，常常不是動作生成本身，而是模型一邊理解畫面、一邊預測未來場景時，推理成本高到難以閉環運作。GigaWorld-Policy-0.5屬於 World Action Model（WAM），重點是保留未來視覺動態對訓練的幫助，但在執行階段只解碼動作，減少為了生成未來影片而付出的額外開銷。

它延續 action-centered 的路線，再加入 Mixture-of-Transformers 架構，將視覺建模與動作生成分成不同 expert。咁樣做的取捨很清楚：訓練期間仍然利用未來場景演化強化動作學習，推理時則走較輕的 action-only pathway，提升即時控制效率。資料提到，它在本地 RTX 4090 上可做到 85ms inference latency，目標就是支援更接近即時的部署。

另一個值得留意的位置，是它不只改模型結構，亦加入 agent-based AutoResearch pipeline 來搜尋訓練配置。這種做法主要是減少手動調 hyperparameter 的時間，讓實驗設定更有系統地被篩選。對做 Robotic、世界模型或策略學習的人來說，這比單純追求更高指標更實用，因為整個訓練流程的效率同樣影響迭代速度。

保留 future visual dynamics 的訓練收益，但推理時只輸出動作
用 Mixture-of-Transformers 分開 visual expert 與 action expert，降低活躍計算量
以 mixed Action-Conditioned World Modeling（AC-WM）和 WAM 訓練，加強視覺與動作的耦合
引入 agent-based AutoResearch pipeline，提升訓練配置搜尋效率
已公開論文、程式碼與模型，方便研究用途跟進

整體來看，GigaWorld-Policy-0.5處理的是世界模型常見的速度與控制落地矛盾：訓練想要看得多、學得深，部署又要夠快。現有資料顯示，它把重心放在更有效率的 action-centered WAM 路線，適合關注即時機械人控制、閉環部署與本地推理表現的人。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 模型, 模型訓練, 編程, Robotic, 框架, 清華大學

[技術文章] Xiaomi-Robotics-U0 小米用世界模型打通機械人

2026 年 7 月 15 日

當世界模型式的影像與影片生成能力要落到機械人場景，難題唔止係出圖或出片，而係同一個場景喺多個視角下都要合理，物件幾何要一致，仲要符合唔同 robot embodiment 嘅操作限制。

Xiaomi-Robotics-U0 屬於 world foundation model 路線，針對的正是這類 embodied synthesis 工作：一邊保留大型 image and video generation model 已學到的視覺知識，一邊補上機械人資料需要的可控性與一致性。

常見做法通常係用有限的機械人資料去微調 foundation model，但作者認為呢種範式容易犧牲大規模預訓練帶來的泛化能力。Xiaomi-Robotics-U0 改用 unified embodied synthesis 設計，把 text-to-image generation、image editing、embodied scene generation、embodied transfer 同 embodied video generation 放入同一個 38-billion-parameter multimodal autoregressive model 聯合優化，將 embodied generation 視為 foundation image and video generation 的延伸，而唔係另一條割裂的任務線。

呢個項目最有用的地方，在於它不只生成好看的資料，而是生成可拿來支援機械人學習的資料。文中提到它首次支援跨多種 robot embodiments 的高品質 multi-view scene generation，亦加入 structured、controllable embodied transfer，做細緻編輯時仍可保留 multi-view consistency 同 interaction dynamics，對要做模擬資料擴增、場景改寫、操作軌跡配套生成的工作流幫助較大。

聯合處理多種任務，減少每個場景各自做模型適配的割裂流程
核心差異在於保住 pre-trained world foundation model 的泛化，同時加入 embodied constraints
支援 multi-view scene generation 與 embodied transfer，重點放在幾何一致性與互動連貫性
生成結果可作為 scalable data engine，服務後續 policy training

效能上，Xiaomi-Robotics-U0 在 single-step 與 sequential generation 任務都做到 state-of-the-art，human evaluations 中於 embodied scene generation 同 transfer 超過 GPT-Image-2.0，embodied video generation 在 World Arena 排名第一。更實際的指標來自真實操作任務：它把 π 0.5 \pi_{0.5} 在 out-of-distribution 情況下的 success rate 由 36.9% 提升到 63.2%，說明這類 world model 不只是內容生成工具，亦開始成為 embodied intelligence 的資料引擎。

文中亦提到完整流程涵蓋 dataset curation、unified annotation pipeline、single-step training、sequential training，以及配合 FlashAR 與 vLLM Integration 的 inference 設計。整體訊息很清楚：作者想證明 foundation world models 可以同時扮演 embodied world models 與合成資料基建，讓機械人訓練不再只依賴昂貴而稀缺的真人示範。

Paper

Categories: Video, Image, 軟件, txt2img, 多模態模型, 影像模型, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, Dataset 數據集, 小米-Xiaomi

Page 1 of 6

1 2 3 … 6 Next »