Dataset:EgoCS-400K 補足遊戲世界模型數據缺口

EgoCS-400K dataset overview

現有做法多數依賴 captioned videos、機械人數據,或模擬器軌跡來訓練 World Models,但前者缺少可執行動作與可靠狀態,後者又常受成本、場景規模或真人互動不足限制。EgoCS-400K 就是針對這個缺口而設的 Dataset 數據集,用公開的 Counter-Strike / CS2 demo 重建第一身視角,將影片、控制輸入、遊戲狀態與語言描述同步整理。

這個項目最核心的價值,不只是「有很多影片」,而是把 replay-grounded 資料做到 tick-level telemetry 對齊。資料同時包含 keyboard/mouse inputs、atomic actions、protected action chains、DP-based temporal segments,以及 multi-grained video-language captions,令模型不只看到畫面,還能追蹤玩家當下做了甚麼、為何畫面會變。

官方資料顯示,它涵蓋超過 400,000 段 first-person videos、10,000 小時以上 gameplay、1,000 多場比賽、40,000 rounds、13 張地圖,規模相當大。它支援的任務亦很明確,包括 action-conditioned future prediction、state- and event-aware scene rollout、replay-grounded captioning,以及 agent egocentric action understanding。

想了解內容,可先用公開 viewer 直接查看樣本,再按需要處理影片;若要生成 VLM captions,才需要 API key。較適合研究 World Models、Gaming Agent、Computer-use agents(CUAs)相鄰方向、影片理解,或想研究人類決策與視角變化如何連動的開發者。

  • 類型屬於 Dataset 數據集,主要解決互動式 World Models 缺乏高質素「影片-動作-狀態-語言」對齊資料的問題
  • 舊範式依賴 web video、robotics data 或 simulator traces,各自欠缺狀態、規模或真人軌跡
  • 辨識度最高的設計,是 replay-grounded、tick-level telemetry 與多粒度標註放在同一條時間線
  • 適合做未來畫面預測、事件感知生成、第一身動作理解與 captioning 研究
  • 相關方向與模型包括 World Models、vision-language-action models、video generation models、Gaming Agent

如果你只想找一般遊戲影片數據,EgoCS-400K 可能顯得偏研究型;但若你在意動作如何驅動畫面與事件,這個項目的資料結構明顯比普通影片庫更有分析價值。它未必直接等於完整訓練方案,但作為高對齊、高時間解析度的基礎數據,定位相當清晰。

GitHub: https://github.com/EgoCS-400K/Dataset

Paper: https://arxiv.org/pdf/2606.18180

Categories: 開源, Agentic, API, Video, IDE, 動畫, 多模態模型, , 模型訓練, Robotic, 世界模型, 香港城市大學, Dataset 數據集

Ponytail:幫 AI Agent 減少大量的程式碼

Ponytail, the lazy senior dev

Ponytail 是一個針對 AI Agent 的工具型項目,核心作用不是取代模型,而是替模型加上一套固定判斷規則,令它在寫程式前先問自己:這段東西是否真的需要存在、標準函式庫能否處理、平台本身有沒有現成功能。它想解決的問題很直接,就是不少 AI Agent 會把簡單任務寫得太重,順手加框架、包裝層、額外抽象,最後程式碼變多、回應變慢,成本也上升。

這個項目已相當成熟。它把「少寫不是偷懶,而是保留必要部分」變成一條清晰階梯:先跳過不需要的東西,再優先用 stdlib、原生平台功能、已安裝依賴,最後才自己寫最少可行實作。這種設計對 AI Agent 特別有效,因為模型常見問題不是完全不懂,而是太願意補很多你未必需要的東西。Ponytail 等於把資深工程師那種「先刪再寫」的習慣,包成可重複套用的規則。

如果你想試它,先找幾類容易被模型寫得過火的小任務,例如日期輸入、debounce、rate limiter、簡單驗證或 CSV 處理。倉庫資料顯示,它支援 Claude Code、Codex、GitHub Copilot CLI、Gemini CLI、OpenCode、OpenClaw 等多種環境,亦即它不是綁死單一平台,而是瞄準「那些 AI Agent」的日常編碼流程。對於經常要用 Agent 產生前端小功能、工具腳本、日常後端邏輯的人,這類規則比再換一個新模型更實際。

在 Claude API 的基準測試中,官方列出每項任務程式碼可減少 80% 至 94%,延遲快 3 至 6 倍,成本下降 42% 至 75%。不過這些結果有清楚前提,只能代表特定模型與提示方式下的中位數表現,並非所有模型都一定受惠;倉庫亦明言像 GPT-5.5 這類較簡潔的推理模型,規則注入與思考步驟本身可能抵消節省效果。這種寫法反而增加可信度,因為它沒有把 benchmark 包裝成放諸四海皆準的勝利宣言。

  • 重點不是生成更多程式,而是限制 AI Agent 只寫任務真正需要的部分
  • 支援多個 Agent 宿主,包括 Claude Code、Codex、Gemini CLI、OpenClaw 等
  • 提供 /ponytail-review/ponytail-audit/ponytail-debt 等指令,方便檢查過度工程化
  • benchmark 數據亮眼,但倉庫已提醒不同模型、提示長度與回合數會影響結果
  • 適合經常叫 AI Agent 寫工具碼、介面小功能、重複邏輯的人

Ponytail 的創新在於它把工程判斷流程產品化,讓 AI Agent 先經過一道「有沒有更省、更原生、更少依賴」的篩選。這令它比較像一個行為約束層,而不是新模型或框架。相關模型與環境方面,倉庫內容直接提到 Claude 的 Haiku、Sonnet、Opus,也提到 GPT-5.5,並覆蓋 Codex、Gemini CLI、Antigravity CLI、GitHub Copilot CLI 等代理工具鏈。若你想要的不是更花巧的生成能力,而是更穩定地避免 AI Agent 過度設計,這個項目有很明確的價值;若你的工作本身需要大量自訂架構與長鏈依賴,它未必會永遠選出你最喜歡的答案,但至少會迫使模型先證明「為何需要寫那麼多」。

GitHub: https://github.com/DietrichGebert/ponytail

Categories: 開源, 微軟, Gemini, OpenAI, Agentic, API, 工具, AI productions, IDE, , 模型, Anthropic, OpenClaw, Skill 技能, 框架

JoyAI-VL-Interaction 把影像助手變主動

JoyAI-VL-Interaction overview

現時多數視覺語言模型仍然沿用 turn-based 問答範式:用戶問一句,模型答一句;就算放進視像通話或直播介面,底層仍是被動回應。JoyAI-VL-Interaction 直接挑戰這個做法,改成持續觀看、按秒判斷要沉默、回應,還是把難題交給背景模型處理,目標是把 VLM 從「被問先答」推向即時互動。

這是一個多模態模型可部署系統項目,想解決的不是普通問答,而是「畫面中的關鍵一刻不會等人發問」這個問題。技術報告提到它是 8B vision-first 模型,支援 real-time video-language interaction,並配合 time-aligned interaction data、training recipe 與完整系統,重點放在時間感、主動觸發與持續在線。

如果你想理解它是否適合自己,最容易的測試場景是把 webcam、直播畫面或監控串流接入,觀察它會否在有事件時主動開口,而不是每次都等指令。這種模式較適合直播助理、居家提醒、遠端看護、商務示範,甚至要一邊看影像一邊調用 API 或 agent 的流程。

  • 核心改動是由問答式互動,轉向 watch-and-do 式互動
  • 模型每秒自行決定沉默、回應或 delegation
  • 系統可接駁 ASR、TTS、memory、API 與其他 agent
  • 報告稱可長時間處理連續影片,延遲維持在 sub-second
  • 人工評分比較中,對 Doubao 與 Gemini 的質量與時機掌握都有明顯優勢

創新位不只在模型本身,也在整個開放堆疊一起釋出:模型、數據、訓練方法與部署系統放在同一個項目脈絡,方便研究者與開發者沿原路線延伸。相關模型與組件包括背景大模型、API、agent,以及文中對比的 Doubao、Gemini;若完整開源內容如期提供,這個項目會對即時多模態互動研究有相當高參考價值。

GitHub: https://github.com/jd-opensource/JoyAI-VL-Interaction

項目:https://joyai-vl-video-future-academy-jd.github.io/JoyAI-VL-Interaction/

Categories: 開源, 字節跳動, Gemini, OpenAI, 文字轉語音, Agentic, API, Video, Image, 工具, AI productions, IDE, 多模態模型, 模型, 模型訓練, 視頻模型, 語音

MiniMax Mavis:多 Agent 協作處理長任務

Og image

MiniMax 把原有 Agent 升級並命名為 Mavis,重點是加入 Agent Teams,讓多個 Agent 在桌面版同時運行,並以不同角色分工合作。這個方向主要處理單一 Agent 面對長任務時容易同時做執行者與裁判、資料整理與事實核對混在一起的問題。

過去把一個複雜要求直接交給單一 AI assistant,回覆速度可以很快,但當內容需要最新資料、來源整理、格式輸出與結果驗證時,流程便容易失焦。Agent Team 的做法是把任務拆成前台與後台、有驗收、有記憶的工作流;用戶仍然只需輸入一個要求,系統再判斷是否拆解、哪些角色可並行、哪些結果需要覆核。

對一般用戶而言,這項目最易理解的用法,是把它視為一個可分工的 AI 工作團隊。若你要處理長篇內容整理、跨格式輸出,或需要連續跟進的知識工作,Mavis 會比單一 Agent 更合適;如果只是一次性的小任務,官方亦暗示未必需要動用 Agent Team。

  • 支援多個 Agent 並行,適合長時間與複雜任務
  • 可建立不同角色分工,提升整理、驗證與交付流程
  • 用戶只需提供一次指令,系統會自行判斷是否拆解任務
  • 整合 TokenPlan 與 Agent Plan,CLI、API、Agent 共用訂閱與 credits

另一個更新是把 TokenPlan 與 Agent Plan 合併成單一訂閱,涵蓋 CLI、API、Agent,以及 M2.7、music、video、voice 等能力,credits 亦可共享。對已同時訂閱兩個計劃的用戶,官方表示會補送一個月會籍。這次內容未見具體跑分或量化基準,重點更偏向產品工作流與使用體驗的重整。

項目: https://www.minimax.io/blog/minimax-agent-team-long-running-1779893953

Categories: Agentic, API, Video, 工具, 線上服務, AI productions, IDE, MiniMax

VisualClaw:會進化的視覺代理

VisualClaw icon

現時不少 vision-language agents 主要靠固定提示、整段影片送入模型,或者一次性工具調用去完成任務;作者認為這種 fixed scaffold 容易令延遲、成本同提示長度一齊上升,而且部署後幾乎唔會自己累積經驗。VisualClaw 因而提出一個 modular multimodal agent system,夾在 Claude Code、Codex、OpenClaw 同上游 LLM providers 之間,加入 retrieved memory、skill bank、self-evolution、video processing 同 evaluation hooks。

這個項目屬於框架兼工具型基建,重點唔係再訓練一個新模型,而係幫 Computer-use agents、tool-using vision-language agents 更有效處理影片、工作空間同多輪任務。配套的 VisualClawArena 則是獨立 benchmark/data release,收錄 200 個 scenario,要求代理真正在 workspace 內用影片證據、文件、動態更新與 executable checks 解題,補回一般 video-QA benchmark 對工具使用情境測試不足的缺口。

把它當成 gateway proxy,用熟悉的 OpenAI 或 Anthropic 相容介面接到現有 agent workflow,再逐步打開 skills、memory、video cascade 等模組。對已經在用 Claude Code 或 Codex 的團隊,這種接法尤其實用,因為毋須由零重寫整個代理流程。

  • 核心結構清楚:gateway design 加上 pre/post hooks,方便在提示前後插入技能、記憶與評測。
  • 創新位具體:以 hybrid encoding 處理 streaming video,配合 cascaded gate、keyframe context、hot/cold top-k injection,目標是壓低成本而保留關鍵視覺證據。
  • 會累積經驗:self-evolution 會根據失敗回合與成功記憶更新 skill bank,唔係每次都由同一套靜態提示開始。
  • 評測唔只看答對:VisualClawArena 把多輪問題、影片、workspace 操作同評估輸出綁埋一齊,更接近真實代理任務。

在 4 個 video-QA benchmarks、2 個 VLMs(Gemini 3 Flash、GPT-5.2)上,VisualClaw 對 full-frame upload 的每題 API 成本平均可減 98%,相對 offline uniform 8 frame baseline 亦再降 25.9%,同時多數設定下準確率有提升。到 VisualClawArena,配合 Codex(GPT-5.5)與 Claude Code(Sonnet 4.6)等 backend,macro accuracy 分別提升 2.9% 同 3.2%;如果你關心的是可插拔代理基建、多模態工作流,或者想為 live vision 與影片任務加上可持續進化能力,這個項目比單純模型包裝器更有研究同落地價值。

GitHub: https://github.com/UCSC-VLAA/VisualClaw

項目: https://ucsc-vlaa.github.io/VisualClaw/

Categories: 開源, Gemini, OpenAI, Agentic, API, Video, 工具, AI productions, IDE, Mac, Vibe Coding, 多模態模型, 模型, 模型訓練, 編程, Anthropic, OpenClaw, Skill 技能, 框架, 清華大學

last30days-skill:用人氣做 AI 搜尋

Repository image for mvanhorn/last30days-skill

last30days-skill 是一個 Agentic Skill 搜尋工具項目,核心做法不是依賴編輯式排序,而是把 Reddit、YouTube、TikTok、Instagram、Threads、GitHub、HN、Polymarket 等來源的互動訊號交叉比對,整理出近 30 日最受關注的資訊。它要解決的,是同一個主題分散在不同平台、普通搜尋又難以整合的問題。

這個項目的判斷邏輯相當有意思:不是只看網頁是否存在,而是看 upvotes、likes、留言、甚至真金白銀的市場訊號。對想快速了解某人物、產品、議題近期動向的人,這比傳統搜尋更接近「大家最近在講乜」。若只想先試基本能力,公開資料已可直接涵蓋 Reddit comments;再加入 API key,便可逐步打開 TikTok、Instagram、Threads、Pinterest 及 Perplexity Sonar 等來源。

YouTube transcripts 的候選池擴大了三倍,不再偏向音樂影片,較容易抓到訪談、評論與解說內容;YouTube comments 與 TikTok comments 則屬額外選項,因為每段影片都會增加額外查詢成本。這種把免費來源、付費來源與高成本來源分層處理的方式,反映它比較重視訊號品質與成本控制,而不是一味堆資料。

  • AI agent-led search engine 形式整合多平台近期討論
  • 免費可用來源包括 Reddit comments,並附 upvote 數據
  • 可選接入 Perplexity Sonar、TikTok、Instagram、Threads、Pinterest
  • YouTube transcripts 強化了非音樂內容覆蓋範圍
  • 適合研究人物近況、追話題熱度、做市場觀察初步整理

如果你平日會做內容選題、品牌觀察、人物背景搜集,這個項目幾適合放入工作流程。它未必提供嚴格學術式評測,現有資訊也未見標準 benchmark 成績,但從來源設計與成本開關來看,方向相當明確:用多平台真實互動訊號,讓 AI agent 幫你先篩走雜訊。相關能力亦牽涉 Perplexity Sonar、OpenRouter,以及可承載 Agent Skills 的 Claude Code、Codex、Cursor、Copilot、Gemini CLI、OpenClaw 等環境。

GitHub: https://github.com/mvanhorn/last30days-skill

Categories: 開源, Gemini, Agentic, API, 工具, AI productions, IDE, Anthropic, OpenClaw, Skill 技能

cc-switch:跨平台桌面全方位助理工具

PackyCode
farion1231/cc-switch 在GitHub上

CC Switch作為一個強大的解決方案,適用於使用各種AI驅動的命令列介面(CLI)工具如Claude Code、Codex、Gemini CLI、OpenCode和OpenClaw的開發人員和團隊。這個桌面應用程式將這些工具的管理整合到一個直觀的介面中,顯著降低了手動配置的複雜性和時間成本。對於那些經常在不同供應商之間切換或管理多個專案的用戶來說,CC Switch提供了一種簡化的方法,提升了生產力。

在開始使用CC Switch時,主要應該關注的是熟悉供應商管理功能。該應用程式預設了超過50個供應商設定檔,包括流行的選項如AWS Bedrock和NVIDIA NIM,使得只需幾次點擊即可輕鬆設置和切換不同的配置。這消除了手動編輯JSON、TOML或 .env檔案的需要,從而減少錯誤並節省時間。

實際上,CC Switch通過提供一個視覺介面運作,用戶可以在其中導入供應商、立即切換它們,並管理多個工具間的MCP和技能。系統托盤快速切換功能允許無縫過渡,無需打開整個應用程式,增強了工作流程的效率。此外,該應用程式支援通過Dropbox、OneDrive、iCloud或WebDAV伺服器等平臺進行雲端同步,確保無論使用哪種設備,配置都保持一致。

開發人員和團隊最受益於CC Switch的能力在於其能夠統一管理MCP和技能。此功能實現了四個應用程式之間的雙向同步,確保所有必要的配置都是最新的且可訪問。該應用程式還包括內建的實用工具,例如首次啟動登錄確認、簽名繞過和插件擴展同步,進一步簡化了設置過程。

然而,也有一些權衡需要考慮。雖然CC Switch大大簡化了供應商管理,但用戶必須注意對第三方服務依賴增加的潛在風險。確保這些服務可靠且安全至關重要。另外,儘管該應用程式支援廣泛的供應商,但在較不常見或新興工具中可能會出現相容性問題。用戶在完全將CC Switch整合到他們的工作流程之前,應徹底驗證相容性和功能性。

為了最大化CC Switch的好處,用戶應探索其高級功能,如本地代理熱切換、應用程式級別接管和使用追蹤。這些功能提供了對AI工具行為和性能的更深控制,使更多量身定製和高效的使用案例成為可能。通過有效利用這些功能,開發人員可以顯著提高生產力和工作流程管理。

CC Switch是尋求簡化AI驅動CLI工具管理的開發人員和團隊不可或缺的工具。其強大的功能集、易用性和跨平台相容性使其成為任何開發人員工具箱中的寶貴添加。然而,仔細考慮權衡和徹底測試相容性是確保順利整合和最佳性能的必要步驟。

Source: https://github.com/farion1231/cc-switch

Categories: 開源, Agentic, API

Chrome MCP

Chrome MCP 伺服器是一款基於 Chrome 擴充功能的模型上下文協定 (MCP) 伺服器,它將您的 Chrome 瀏覽器功能開放給 Claude 等 AI 助手,從而實現複雜的瀏覽器自動化、內容分析和語義搜尋。與傳統的瀏覽器自動化工具(例如 Playwright)不同,Chrome MCP 伺服器直接使用您日常使用的 Chrome 瀏覽器,利用現有的使用者習慣、配置和登入狀態,讓各種大型模型或聊天機器人控制您的瀏覽器,真正成為您的日常助理。

Playwright Can't Do This... But This MCP Can.

Categories: 開源, API, MCP, Python

OpenWebUI 0.5.2 更新

更新包括:

🖊️ 頻道輸入指示器:準確了解誰在您的頻道中即時輸入,從而增強協作並保持每個人的參與。
👤 使用者狀態指示器:透過點擊頻道中的個人資料圖像來快速查看使用者的狀態,以獲得更好的協調和可用性見解。
🔒 可設定的 API 金鑰驗證限制:靈活配置 API 金鑰驗證的端點限制,現在預設為關閉,以便在受信任的環境中更順利地進行設定。

MAC ImageWIN Image

Categories: 開源, API, Ollama, RAG

Gemini-Teacher 英語教師

MAC ImageWIN Image

Categories: 開源, API, 語音