MMSkills：幫視覺代理學識睇畫面做事

MMSkills 是一個為視覺代理而設的技能框架，重點不是單靠文字提示，而是把「點做一件事」連同畫面線索、狀態提示和可參考影像一併保存。對一般讀者來說，可以理解成替 AI 準備一本會按情境翻閱的操作手冊，而不是每次由零開始估。

MMSkills 嘗試解決視覺代理在桌面操作或遊戲場景中，經常知道目標卻未必識得判斷畫面進度、失敗跡象，或者下一步應否轉招。MMSkills 的做法是只保留輕量提示，當偵測到當前狀態適合某個技能時，才臨時開一個分支去查看較完整的步驟與視覺參考，減少主上下文負擔。

留意 agent adapter 如何接入現有代理。公開資料顯示，它已提供可搜尋的多領域技能庫，並支援把技能包接到不同代理流程，較適合已有代理系統、想提升穩定性的人使用。

這個項目的新意，在於它不只研究模型本身，而是把外部經驗整理成可重用知識包，再在推理時按狀態調用。論文摘要亦提到，這套方法對前沿模型和較小型多模態模型都有幫助；如果你正在關注電腦代操作、自動化測試、遊戲代理，或者想研究 AI 如何「睇畫面再行動」，MMSkills 值得留意。

GitHub： https://github.com/DeepExperience/MMSkills

網址： https://arxiv.org/pdf/2605.13527