框架 Archives - Page 9 of 13

GUI 智能體總是自己犯錯？RoTS 用樹狀軌跡合成教它如何自救

2026 年 6 月 2 日

Repository image for AlibabaResearch/RoTS

近年 GUI agents（圖形介面智能體）雖然進步神速，但只要自己點錯一個按鈕、誤判畫面狀態，往往就會卡住無法完成任務。這項由阿里雲團隊撰寫、入選 ICML 2026 Spotlight 的工作，正是針對這個「自己造成的錯誤」痛點，從評估與訓練數據兩端同時入手。

他們先推出了 GUI-RobustEval 基準，收錄 1,216 個可執行測試案例，涵蓋 11 種錯誤類型與 4 種錯誤深度，讓開發者能系統化量測智能體的「自救」能力。接著提出 RoTS 框架，以樹狀結構（tree-based）在線生成 80 萬條訓練軌跡，主動探索不同錯誤模式並合成對應的恢復步驟。

基於這批數據微調而成的 RoTS-7B 與 RoTS-32B，在 OSWorld 上於開源權重模型中取得領先表現，其中 RoTS-32B 達到 47.4% 成功率與 33.8% All-Pass@4 分數。研究團隊指出，這些分數顯示長時程錯誤恢復能力，同時提升了整體任務表現。

對從事電腦使用代理（Computer-use agents, CUAs）研究、開源 VLM 微調，或關注 GUI 自動化在真實環境穩定性的團隊而言，這是一份值得追蹤的成果。論文與數據集已公開，但程式碼與評估工具仍在整理中，有興趣的人可先閱讀論文並關注後續釋出。

重點摘要：

解決 GUI agents 因自身策略錯誤而無法恢復的部署瓶頸
GUI-RobustEval 提供 1,216 個測試案例，覆蓋 11 種錯誤類型
RoTS 以樹狀在線合成框架產出 80 萬條高品質訓練軌跡
RoTS-7B 與 RoTS-32B 於 OSWorld 開源模型中表現領先
程式碼與數據集仍在整理階段，論文已於 arXiv 公開

GitHub： https://github.com/AlibabaResearch/RoTS

Paper： https://arxiv.org/pdf/2605.29447

Categories: 開源, Agentic, OpenClaw, 框架

無需外部資料的自博弈訓練：SCOPE 讓模型自己出題自己答

2026 年 6 月 2 日

現有的語言模型自博弈（self-play）訓練方法，大多只能處理有明確對錯的題目，例如數學運算。蘇格蘭愛丁堡大學等機構的研究團隊提出了一個名為 SCOPE（Self-Play via Co-Evolving Policies）的框架，把自博弈拓展到沒有標準答案的開放式任務，例如需要整合多段資料才能完成的問答。研究團隊來自 University of Edinburgh、Imperial College London 與 Miniml.AI。

SCOPE 的核心設計是讓同一個基礎模型分身成三個角色：Challenger（出題者）、Solver（答題者）以及 Judge（評判者）。Challenger 讀取一份文件，透過多輪檢索寫出難度貼近答題者極限的題目；Solver 則要靠自己搜尋資料、整合證據後作答；Judge 凍結在初始狀態，根據同一份文件擬定評分準則，並為每項標準給出嚴格的二元評分。三者完全不依賴人工編寫的題目，也不需要體型龐大的前沿模型做監督。

這個框架解決了一個關鍵痛點：開放式任務沒有固定答案，傳統強化學習難以給出可靠的反饋。SCOPE 透過「文件接地」（document grounding）製造資訊不對稱——Challenger 和 Judge 看得到原文，Solver 看不到，迫使答題者必須主動檢索。同時，題目難度被控制在答題者得分約 50% 的位置，因為這個點的反饋變化最大，最有利於學習；得分低於 0.2 或高於 0.8 的題目會被過濾掉，避免太簡單或太難的內容浪費訓練資源。研究亦加入長度懲罰與品質門檻，防止模型以灌水或抄原文的方式「刷分」。

在 Qwen2.5-7B 等 7–8B 規模的模型上，SCOPE 在 8 個開放式基準測試中最高取得 +10.4 分的提升，整體增幅介於 +5.4 至 +10.4 分，並在 7 個傳統問答基準上同樣有穩定進步，過程中使用了 0 條人工策劃的提示。對於想以有限預算微調開源模型、又要兼顧開放式生成品質的開發者與研究團隊，這個方法提供了一條不依賴外部數據集的路徑。

項目： https://edinburghnlp.github.io/scope/

Categories: 開源, 模型訓練, 框架

dMoE：讓擴散語言模型告別專家暴漲

2026 年 6 月 2 日

擴散式大型語言模型（dLLMs）近年被視為自迴歸模型的另一條路線，本身就支援平行解碼，但一旦搭配 MoE（Mixture-of-Experts）架構來放大模型容量，卻會撞上一個尷尬的牆：dLLM 在同一個前向傳遞中會同時處理多個互相關聯的 token，而傳統 MoE 卻是針對每個 token 各自挑選專家，導致一次推論要啟動的獨立專家數量暴增，記憶體頻寬很快就成為瓶頸。

dMoE 的核心構想相當直觀：與其在每個 token 層級各自決定要用哪個專家，不如在「區塊」層級做統一決策。它會先把同一個區塊內各 token 的專家分佈聚合成一份，再以這個區塊級的分佈去引導整個區塊的路由。這個改動讓啟動的獨立專家數量從原本的 69.5 個左右壓到 14.6 個，記憶體用量減少約 76% 至 80%，端到端延遲也獲得 1.14 倍到 1.66 倍的加速。

在效能維持方面，dMoE 在多項推理與通用基準測試中保留了原模型約 99.11% 的表現。以 MATH500 為例，成績只從 72.0% 微跌到 71.0%，啟動專家數量卻從 70 個降到 14.1 個，是相當划算的交換。

dMoE 直接以 LLaDA-2.0-mini 為基礎建構，沒有更動主架構，因此可順利套用到其他遮罩式 dLLMs，目前亦已在 Hugging Face 上釋出名為 dMoE-16B 的模型權重。對想嘗試 dLLM 卻受限於顯卡的研究者與工程師來說，這個項目是低門檻的延伸切入點；對做模型效率優化的團隊，區塊級路由的設計也提供了有參考價值的方向。

重點摘要

區塊級專家路由：在區塊而非 token 層級做 MoE 決策，大幅壓低啟動專家數量。
記憶體與頻寬壓力減輕：獨立專家從約 69.5 個降到 14.6 個，記憶體用量減少 76%–80%。
速度明顯提升：端到端推論延遲獲得 1.14× 至 1.66× 加速。
表現幾乎不打折：在多項基準測試中保留約 99.11% 原始效能。
隨插即用設計：以 LLaDA-2.0-mini 為基礎，不改動架構即可套用至其他遮罩式 dLLMs。

GitHub： https://github.com/fscdc/dMoE

項目： https://fscdc.github.io/dMoE/

Categories: 開源, 模型訓練, 框架

VLM3：毋需設計專屬模型架構而達專家級 3D 模型的效果

2026 年 6 月 2 日

過往要讓AI理解3D場景，往往需要設計專屬的模型架構、複雜的損失函數，還要加上各種資料增強手段。Meta與Princeton合作提出的VLM³（Vision Language Models Are Native 3D Learners）卻反其道而行，主張標準VLM天生就是3D學習者。

有效的 3D 學習主要靠三點 —— 焦距統一（focal length unification）、文字式像素參照（text‑based pixel reference）、以及資料混合與擴展，而不是新架構、大模型、heavy augmentation 或複雜 regression loss。

VLM³會先把輸入影像縮放至相同焦距（以1000像素為例），解決相機內參歧義；需要指涉物件或像素時，就以文字配合標準化座標範圍（例如[0, 2000)或[0, 1000)）來表達，整個過程不需更動架構或加額外編碼器，僅用標準的文本監督微調（SFT）訓練。

在效能上，VLM³於多個3D基準上繳出亮眼成績：在物件級3D理解上超越SpatialRGPT；於度量深度估計上比肩UnidepthV2與Moge-2，把DepthLM的準確度由0.84提升至0.9；在像素對應上勝過DKM與RoMa；相機姿態估計方面則與DepthAnything3持平並超越VGGT。

這套方法適合關注3D視覺的開發者與研究團隊，特別是希望以單一通用模型涵蓋深度、對應、姿態與物件理解等任務的人。對於想從規模化資料入手，而非投入大量工程設計特定模型的場景，VLM³提供了一條相當務實的路徑。模型目前尚未公開，讀者可先留意論文及官方項目頁面的後續更新。

重點摘要：

焦距統一：把輸入影像縮放至同一焦距，免去相機內參歧義。
文本式像素參考：以標準化座標文字指涉像素，不需加標記或新架構。
資料規模化勝過複雜設計：證明擴展資料與標準SFT已足夠，不需任務專屬模型。
多項指標比肩專家模型：深度、像素對應、相機姿態等任務達到頂尖水準。
統一輸出域：以文字作為統一介面，讓通用模型同時處理多樣3D任務。

GitHub： https://github.com/facebookresearch/VLM3

Paper： https://arxiv.org/pdf/2605.30561

Categories: 開源, 3D, 模型訓練, Meta, 框架

OpenSkillEval：專門審核 LLM 智能體技能生態的測試框架

2026 年 6 月 2 日

OpenSkillEval — automatically auditing the open skill ecosystem for LLM agents

市面上的 LLM 智能體（LLM agents）排行榜大多只看模型本身的強弱，但 OpenSkillEval 卻把焦點放在技能（skill）身上，問一個很實際的問題：那些由社群熱心作者打包出來的技能，到底有沒有讓智能體的成品變得更好？為了回答這個問題，這個項目設計了一套評測流程，固定同一批任務、同一個評審模型，反覆比較「裝上技能」與「完全不裝技能」兩種情況的差異。

整套測試涵蓋 677 個案例，分屬商業、科學、健康、工程與創意五大場景，並對應五類日常常用的產出物：資料視覺化圖表、海報、簡報、分析報告，以及多頁網站。這樣的分佈能貼近真實使用智能體的場景，而不是只跑單一類型的乾淨考題。

更值得留意的是，這個項目同時記錄品質分數與成本資料，包括提示詞、生成、回快取的 token 數，以及實際耗時，方便讀者直接換算每一個技能值多少錢。從目前釋出的榜單來看，頭部模型之間的品質差距只有零點零幾分，但成本差距卻可以拉到 25 倍，凸顯「選模型」和「選技能」對整體花費的影響遠比想像中大。

論文亦點出多個值得技能作者參考的現象：熱門下載的技能未必穩定勝過無技能基準，而技能帶來的增益高度取決於底層模型與智能體框架的搭配方式。

重點摘要：

固定任務、變動技能：以對照方式隔離技能本身的真實貢獻。
五類任務、677 個案例：涵蓋圖表、海報、簡報、報告、網頁設計等常見產出。
品質與成本並列：同時記錄 token 與耗時，方便換算性價比。
適合技能作者、智能體開發者，以及需要評估部署成本的團隊。
相關模型包括 Claude Opus 4.6、GPT-5.5 與 Claude Sonnet 4.6 等前沿選擇。

GitHub： https://github.com/ALEX-nlp/OpenSkillEval

項目： https://yingjiahao14.github.io/OpenSkillEval-Web/

Categories: 開源, Agentic, 框架

ClawTrojan：揭開代理工具的隱藏後門危機

2026 年 6 月 1 日

隨著 LLM 代理開始具備讀寫檔案、呼叫工具的能力，惡意指令不再只藏在當下對話中，而是能被植入工作區，潛伏到日後才發動。ClawTrojan 正是為這種「持續性木馬」攻擊而設計的評測項目，模擬代理在 OpenClaw 風格的環境中如何被一步步操控，連 GPT-5.4 都曾達到 95.5% 的攻擊成功率。

在採用 GPT-5.4 的 OpenClaw 模擬工作空間中，ClawTrojan 的攻擊成功率 (ASR) 高達 95.5%，而現有的單回合提示注入攻擊在同一模型上的 ASR 幾乎為零。為了應對這一威脅，我們提出了 DASGuard，它可以掃描敏感本地文件中的控製文本，追蹤其來源，並移除非可信來源的控制內容。

這個項目解決了傳統單輪防禦的盲點：每一步看似無害，但串連起來就能把不可信文字變成持久控制內容。ClawTrojan 內建範例、步驟標註與可執行的工作區，方便研究者重現攻擊鏈。

配套的 DASGuard 防禦機制是另一亮點。它會掃描敏感本地檔案中的控制類文字，追蹤來源是否可信，並在執行階段阻擋攻擊同時清理已污染的內容。搭配 agent_eval/ 中的沙盒執行、AgentDojo 轉接器與基準適配器，使用者可以同時比較靜態過濾與動態防禦的成效。

這個項目特別適合關注 LLM 代理安全、AI 紅隊演練或企業內部工具防護的團隊。對一般使用者而言，理解它的價值在於：現成的代理並非滴水不漏，部署前需要這類多步驟壓測來找出漏洞。

重點摘要

專注於「多步木馬」場景，補上單輪提示注入防禦的缺口
在 GPT-5.4 上展示 95.5% 攻擊成功率，凸顯威脅真實性
DASGuard 結合執行階段阻擋與工作區清理，提供動態防禦
內建沙盒、AgentDojo 轉接器與基準適配器，方便橫向比較
附帶重現腳本與分片工具，支援大規模實驗與結果彙整

GitHub： https://github.com/RUC-NLPIR/ClawTrojan

Paper： https://arxiv.org/pdf/2605.31042

Categories: 開源, Agentic, 中國, 框架, Skill 技能

用 PEEK 幫影片挑重點影格：省時又精準

2026 年 6 月 1 日

處理長影片時，視覺語言模型 (VLM) 一次只能看幾幀畫面，於是「要挑哪幾幀」就成了影片標題生成的瓶頸。PEEK 這個開源項目正是為了解決這個問題：它是一個 query-free 的影格挑選器，專為低預算 (low-budget) 影片標題任務而設計。

PEEK 的運作分為兩階段。第一階段由凍結的 SigLIP2 SO400M patch14 384 雙編碼器擔任教師模型，利用真實標題與每一幀計算餘弦相似度，並做最小最大正規化 (min-max normalization)，產生幀級相關性分數。第二階段是一個 2 層 Transformer 學生模型，接收凍結的 MobileCLIP2-S0 幀嵌入，以 ListMLE 排序損失 (listwise ranking loss) 學習重現教師的排序。推論時學生模型只需看畫面，無需任何標題或文字編碼器介入。

選幀策略採用「分組取最大」(stratified argmax)：將影片均分成 k 個時間區段，每段挑出分數最高的幀，以兼顧時間分佈。當 k=1 時則退化為全影片取最大。

實驗結果顯示，單一在 ActivityNet 訓練的 PEEK 權重在多個影片標題 VLM 上，於一幀與兩幀設定的 CIDEr 分數均優於均勻取樣，且預算越緊、省下的時間越多。論文亦報告 PEEK 在標題生成流程中僅增加 5.2% 時間，相比 CSTA 的 65.4% 與 MaxInfo 的 211.9% 更為輕量。

適合需要快速處理大量影片的研發團隊、影片摘要系統開發者，以及想為現有 VLM 加上智能取樣的研究者。倉庫已提供教師分數生成、蒸餾訓練、單段影片推論 CLI 與 Python API，並於 Hugging Face 釋出 ActivityNet 訓練的 base 權重。

重點摘要

問題：VLM 處理影片時，如何在極少影格預算下挑出最有資訊量的畫面。
方法：以 SigLIP2 為教師產生排序標籤，再以 MobileCLIP2 + 2 層 Transformer 學生模型做知識蒸餾 (knowledge distillation)。
推論：無需文字查詢，僅靠視覺證據；採用 stratified argmax 兼顧時間覆蓋。
效率：額外開銷僅約 5.2%，遠低於 CSTA 與 MaxInfo 等自適應方法。
資源：開源訓練與推論代碼，並提供 Hugging Face 預訓練權重。

GitHub： https://github.com/momentslab/peek

項目： https://www.killian-steunou.com/peek/

Categories: 開源, 影像處理, 模型, 模型訓練, 視覺模型, 框架

AdaState 令串流影片生成更自然流動

2026 年 5 月 30 日

Motivation figure: attention bias and qualitative comparison of reference strategies

AdaState 是一個用於 Streaming Video Generation 的方法，目的是改善自回歸影片 diffusion 模型過度依賴第一幀的問題。原有做法會把首幀當成固定參考，令後續內容雖然一致，卻容易出現畫面過於靜止、鏡頭難以自然移動、場景變化被壓抑的情況。

項目的核心是用一個會隨內容更新的 adaptive state 取代凍結的 first-frame anchor。這個隱藏狀態會在每個 chunk 與內容一同 denoise，但本身不會直接輸出成畫面，模型改為參考上一個 state 與目前內容，逐步形成會演化的場景錨點。

對一般讀者來說，可以把它理解為：模型不再死跟開頭那一格畫面，而是一路保存一個會成長的「場景記憶」。這樣做有助支援更長的 rollouts，也更容易產生連續 camera motion 和自然的 scene progression，同時不需要額外外接模組。

重點可先留意以下幾點：
– 解決首幀長期主導 attention cache 的限制
– 以 adaptive state 建立可持續更新的隱藏參考
– 採用 relative time 的生成觀念，每一步看到相似的位置結構
– 把 recurrence 引入生成流程，並以 denoising 作為狀態轉移
– 項目頁面表示可提升影片 dynamics、motion 與長時段連貫性

AdaState 的優勢集中在 richer dynamics、longer rollouts 與 coherence 之間的平衡；長片段內容延展、虛擬鏡頭運動的研究。

項目： https://adastate.github.io/

Categories: 開源, 世界模型, 框架

URM 自動駕駛點樣看見被遮擋風險

2026 年 5 月 30 日

這項研究由中國復旦大學提出，聚焦自動駕駛在部分可觀察環境中的難題：前方或路口被遮擋時，系統看不到潛在車輛或行人，但仍要提早規劃安全路線。現有方法通常走兩個方向，一類根據可到達狀態估算風險，往往過於保守；另一類用學習方法預測隱藏目標軌跡，但在高遮擋不確定性下未必夠準。

項目首先提出一個 URM (Unified Risk Map)，把交通流風險與碰撞風險放入同一個時空框架建模。前者從 multimodal trajectory distributions 估算密度，後者則透過模擬 ego vehicle 軌跡，找出不同時間與位置的高風險區域，令系統不只知道「可能有東西」，亦知道「哪裏更危險」。

為了補足遮擋互動場景不足的問題，研究同時加入 diffusion-based scenario generation framework，生成既真實又帶挑戰性的情境，用來訓練 unified risk map。整體框架把風險建模、學習與規劃串連起來，目標是在 partial observability 下支援 risk-aware planning。

重點可概括為：
– 把 traffic flow risk 與 collision risk 合併成單一風險表示
– 針對 occlusion-aware prediction 的盲點，提供更細緻的時空風險判斷
– 用 diffusion-based scenario generation framework 製造稀缺的遮擋互動情境
– 在 Waymo Open Motion Dataset 上，較現有 occlusion-aware baseline 有明顯提升

這個方法在 Waymo Open Motion Dataset 上，把 minimum time-to-collision 改善 0.78 倍，average time-to-collision 改善 1.67 倍，顯示系統能更早避開高風險情況。這個項目較適合關注 autonomous driving、Planning under Uncertainty、Integrated Planning and Learning 的研究者與工程團隊；如果你想了解自動駕駛如何處理視線死角，這套方法提供了相當具體的方向。

Paper： https://arxiv.org/pdf/2605.22189

Categories: 開源, 視覺模型, 世界模型, 框架

EarlyTom 令影片理解模型跑得更快

2026 年 5 月 30 日

EarlyTom 是一個針對 Video Large Language Models（Video-LLMs）而設的 token 壓縮項目，目標很清晰：在不重新訓練模型的前提下，減少影片理解時要處理的視覺 token 數量。它主要處理推理速度慢、計算量高這個痛點，尤其是影片內容比圖片更長、更重，模型很容易在前段編碼就耗掉大量時間。

這個項目的核心想法，不是等資料全部進入模型後才壓縮，而是更早在 vision encoder 階段動手。EarlyTom 會利用早期 transformer layers 的 attention 訊號，先找出冗餘 token，再做裁剪；另有可選的 inner compression，會在 LLM backbone 指定層以 DPC-KNN 做 token 合併。這種早期壓縮方式，重點在於連 vision encoder 的負擔都一併減少。

使用上，項目是建基於 LLaVA-NeXT，並可包裝 LLaVA-OneVision 模型；程式層面是把已載入的模型再套用 EarlyTom。對已經在跑影片問答、影片描述或多模態理解流程的人來說，這代表可在原有模型管線上加入壓縮機制，而不一定要改動整個訓練流程。

免訓練（training-free）壓縮，部署門檻相對較低
分為 outer compression 與 optional 的 inner compression
重點改善 Time-to-First-Token（TTFT）、throughput 與 FLOPs
依賴早期 attention 訊號挑走冗餘視覺 token
相關模型與框架包括 LLaVA-NeXT、LLaVA-OneVision、Qwen2

從公開資料看，作者以 lmms-eval 進行評測，並在論文內容提到會比較 MVBench、EgoSchema、LongVideoBench 與 VideoMME 等常見影片理解基準。結果描述顯示，它在維持接近 full-token 方法準確度的同時，TTFT 最多可降至 2.65×，亦有更高 throughput；不過不同模型大小、影片長度與硬件配置下，實際增益仍要分開看。

這個項目較適合已經使用 Video-LLMs 的研究者、工程團隊，或想在資源有限環境中提升影片理解效率的人。若你關心的是模型答得準之餘，也要更快開始輸出結果，EarlyTom 的價值就在於它把壓縮時機提早，直接針對最花時間的部分下手。

GitHub： https://github.com/viridisGreen/EarlyTom

項目： https://viridisgreen.github.io/EarlyTom/

Categories: 開源, 阿里巴巴, 視覺模型, 框架

Page 9 of 13

« Previous 1 … 7 8 9 10 11 … 13 Next »