Dataset:EgoCS-400K 補足遊戲世界模型數據缺口

EgoCS-400K dataset overview

現有做法多數依賴 captioned videos、機械人數據,或模擬器軌跡來訓練 World Models,但前者缺少可執行動作與可靠狀態,後者又常受成本、場景規模或真人互動不足限制。EgoCS-400K 就是針對這個缺口而設的 Dataset 數據集,用公開的 Counter-Strike / CS2 demo 重建第一身視角,將影片、控制輸入、遊戲狀態與語言描述同步整理。

這個項目最核心的價值,不只是「有很多影片」,而是把 replay-grounded 資料做到 tick-level telemetry 對齊。資料同時包含 keyboard/mouse inputs、atomic actions、protected action chains、DP-based temporal segments,以及 multi-grained video-language captions,令模型不只看到畫面,還能追蹤玩家當下做了甚麼、為何畫面會變。

官方資料顯示,它涵蓋超過 400,000 段 first-person videos、10,000 小時以上 gameplay、1,000 多場比賽、40,000 rounds、13 張地圖,規模相當大。它支援的任務亦很明確,包括 action-conditioned future prediction、state- and event-aware scene rollout、replay-grounded captioning,以及 agent egocentric action understanding。

想了解內容,可先用公開 viewer 直接查看樣本,再按需要處理影片;若要生成 VLM captions,才需要 API key。較適合研究 World Models、Gaming Agent、Computer-use agents(CUAs)相鄰方向、影片理解,或想研究人類決策與視角變化如何連動的開發者。

  • 類型屬於 Dataset 數據集,主要解決互動式 World Models 缺乏高質素「影片-動作-狀態-語言」對齊資料的問題
  • 舊範式依賴 web video、robotics data 或 simulator traces,各自欠缺狀態、規模或真人軌跡
  • 辨識度最高的設計,是 replay-grounded、tick-level telemetry 與多粒度標註放在同一條時間線
  • 適合做未來畫面預測、事件感知生成、第一身動作理解與 captioning 研究
  • 相關方向與模型包括 World Models、vision-language-action models、video generation models、Gaming Agent

如果你只想找一般遊戲影片數據,EgoCS-400K 可能顯得偏研究型;但若你在意動作如何驅動畫面與事件,這個項目的資料結構明顯比普通影片庫更有分析價值。它未必直接等於完整訓練方案,但作為高對齊、高時間解析度的基礎數據,定位相當清晰。

GitHub: https://github.com/EgoCS-400K/Dataset

Paper: https://arxiv.org/pdf/2606.18180

Categories: 開源, Agentic, API, Video, IDE, 動畫, 多模態模型, , 模型訓練, Robotic, 世界模型, 香港城市大學, Dataset 數據集

S2L-PO 用小模型帶動大模型推理訓練

S2L-PO method overview

這個項目來自跨校團隊,作者包括 Yiming Ren、Yiran Xu、Zicheng Lin 等人,通訊作者是 Yu Qiao 與 Ruihang Chu;所屬機構包括清華大學、上海人工智慧實驗室、香港中文大學及香港城市大學。以研究背景看,團隊明顯集中在大型語言模型訓練、推理強化學習與數學評測。

這是一個針對 Group Relative Policy Optimization(GRPO)訓練流程的研究型框架,目的是提升大型語言模型在推理任務上的 rollout diversity。現有做法多數靠提高 temperature,從 token-level randomness 增加變化,但論文指出這種固定範式容易在長推理鏈累積噪音,令軌跡變得不連貫。

S2L-PO(Small-to-Large Policy Optimization)換了一個角度:不用同一個大模型不停抽樣,而是找同家族的較小模型做 explorer,先產生一部分 qualitatively different reasoning trajectories,再讓大模型用混合 rollout 依照標準 GRPO 訓練。之後再用 progressive annealing,逐步由 small-model exploration 過渡到 fully on-policy learning,避免中途被小模型能力上限拖慢。

論文提供的結果頗有說服力。以 Qwen3-8B learner 配 1.7B explorer 為例,AIME24 Pass@1 由 15.0 提升到 23.8,AIME25 Pass@1 由 12.1 提升到 22.5;Qwen3-14B learner 配 4B explorer 亦比基線 GRPO 高。作者同時聲稱 rollout compute 還可降低,這點對訓練成本敏感的團隊尤其有吸引力。

如果你想測試這個項目,較合理的方式不是當作即裝即用工具,而是把它視為一個訓練策略參考:先看論文與公開模型設定,再比較自己手上的 GRPO 流程是否同樣受 rollout 同質化影響。硬件門檻不算低,資料列出 8B 模型約需 20 GB GPU 記憶體、14B 模型約需 32 GB,較適合研究人員、模型訓練工程師,或正在做數學推理微調的團隊。

  • 核心判斷:這是模型訓練框架,不是一般聊天應用,重點在改善 GRPO 的探索品質
  • 方法差異:由 token-level randomness 轉向 policy-level diversity,減少長鏈推理失真
  • 主要創新:用較小同家族模型充當 natural explorers,再以 progressive annealing 收回大模型主導權
  • 已列相關模型:Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B
  • 適合場景:數學推理、可驗證獎勵訓練、想提升 RLVR 與 GRPO 收斂效率的項目

GitHub: https://github.com/qishisuren123/S2L-PO

Paper: https://arxiv.org/pdf/2605.30789

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, Agentic, 工具, Python, 模型, 模型訓練, 深度學習, 香港城市大學, 上海人工智慧實驗室, 框架, 清華大學

FORGE:製造場景的細粒度多模態評估

FORGE 標誌
AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架,專門針對視覺語言模型(VLMs)在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究,提供了一種多維度的方法來理解 VLMs 在檢測異常(如錯誤模型、額外零件和缺失組件)方面的能力和限制。

在深入研究 FORGE 時,用戶應首先專注於理解三個主要任務:錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰,使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配,提供了對 VLMs 空間推理能力的洞察。

在實踐中,FORGE 通過利用多種評估設置(包括零樣本、少樣本和上下文學習(ICL))來運作。用戶可以通過 YAML 文件配置這些設置,這些文件控制所有評估參數,如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端,如 OpenRouter、OpenAI、Anthropic 和 Google,使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準,FORGE 幫助這些專業人士識別各種 VLMs 的優缺點,促進在模型選擇和整合方面的明智決策。此外,詳細的輸出文件,包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌,為分析和報告提供了寶貴的數據。

然而,也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線,需要對 VLMs 和異常檢測原理有紮實的理解。此外,運行廣泛評估所需的計算資源可能相當龐大,特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制,這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE,用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的,因為這些知識有助於設計有效的評估策略。此外,利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察,這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具,用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法,涵蓋各種任務和設置,使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求,但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 開源, 香港中文大學, 香港科技大學, , 視覺模型, 香港城市大學