Agentic Archives - Page 6 of 14

MiniMax Mavis：多 Agent 協作處理長任務

2026 年 6 月 17 日

MiniMax 把原有 Agent 升級並命名為 Mavis，重點是加入 Agent Teams，讓多個 Agent 在桌面版同時運行，並以不同角色分工合作。這個方向主要處理單一 Agent 面對長任務時容易同時做執行者與裁判、資料整理與事實核對混在一起的問題。

過去把一個複雜要求直接交給單一 AI assistant，回覆速度可以很快，但當內容需要最新資料、來源整理、格式輸出與結果驗證時，流程便容易失焦。Agent Team 的做法是把任務拆成前台與後台、有驗收、有記憶的工作流；用戶仍然只需輸入一個要求，系統再判斷是否拆解、哪些角色可並行、哪些結果需要覆核。

對一般用戶而言，這項目最易理解的用法，是把它視為一個可分工的 AI 工作團隊。若你要處理長篇內容整理、跨格式輸出，或需要連續跟進的知識工作，Mavis 會比單一 Agent 更合適；如果只是一次性的小任務，官方亦暗示未必需要動用 Agent Team。

支援多個 Agent 並行，適合長時間與複雜任務
可建立不同角色分工，提升整理、驗證與交付流程
用戶只需提供一次指令，系統會自行判斷是否拆解任務
整合 TokenPlan 與 Agent Plan，CLI、API、Agent 共用訂閱與 credits

另一個更新是把 TokenPlan 與 Agent Plan 合併成單一訂閱，涵蓋 CLI、API、Agent，以及 M2.7、music、video、voice 等能力，credits 亦可共享。對已同時訂閱兩個計劃的用戶，官方表示會補送一個月會籍。這次內容未見具體跑分或量化基準，重點更偏向產品工作流與使用體驗的重整。

項目： https://www.minimax.io/blog/minimax-agent-team-long-running-1779893953

Categories: Agentic, API, Video, 工具, 線上服務, AI productions, IDE, MiniMax

MiniMax Hub：本機優先的多模態創作工作站

2026 年 6 月 17 日

MiniMax Hub 是一個 Multimodal Creative Agent，定位像 AI 創作工作站，不只是聊天工具。它把 Copy Generation、Image Creation、Video Editing、Audio & Voiceover、Auto Packaging 與 Multi-format Export 整合在同一個流程，讓用家由想法到成片可在一處完成。

它支援 macOS 與 Windows 下載，輸入簡報、文字想法，或直接加入本機素材後，主代理會先理解創作目標，再做 Smart task decomposition，之後交由多個 agents 並行處理文案、視覺與音訊。用家仍可手動選模型，亦會在關鍵節點收到確認，避免流程完全黑箱。

這個項目在於把創作流程保存成可重用的 Skills。系統會隨工作過程累積你的做法與風格，之後可重複套用；如果需要，也可從 MiniMax Skills Market 啟用現成 Skills 或外掛。對經常製作短劇、電商內容、品牌 TVC 與廣告素材的團隊來說，這類流程重用能力相當實用。

本機優先設計，頁面明確指出 local files stay on your machine
單一畫布整合腳本、分鏡、影片、音樂與剪輯流程
支援資產管理與 batch generation，可一次產出多個版本
代理會自動分解任務，並在關鍵步驟要求人工確認
可把工作流程沉澱成 Skills，逐步累積個人或團隊方法

MiniMax Hub較著重工作流編排與創作協作，而不是單一模型能力展示。網站未列出具體性能分數或公開評測結果，因此較適合把它理解為面向內容製作的本地化 AI 工具平台。文中未提供明確模型清單，只提到會自動匹配最合適模型。

項目： https://hub.minimax.io/

Categories: Agentic, Video, Image, Audio, 軟件, AI productions, Mac, Win, 多模態模型, 模型, 視覺模型, 視頻模型, 語音, 音樂, Skill 技能

Nemotron：NVIDIA 打造 Agentic AI 模型家族

2026 年 6 月 17 日

Nemotron 是一個面向 agentic AI 的模型家族加開發資源項目，重點不是只放出權重，而是連 training recipes、deployment guides、資料準備與 use-case examples 一併提供，目標是縮短由研究到部署的距離。對想建立 AI agents 的團隊來說，這種整理方式比單獨下載模型更實用。

這個項目最實際的看法，是它把不同算力環境分得很清楚：Nano 針對 edge 和 PC，Super 主打單 GPU 高吞吐，Ultra 面向 multi-GPU datacenter applications。若你想先試概念，可由 Hugging Face 上的 Nemotron 模型開始，再按項目內的指引查看對應版本的訓練與部署資料。

創新點在於它不只講文字模型。Nemotron 3 Nano Omni 是 30B-A3B hybrid Mamba-Transformer MoE，原生支援 text、image、video、audio，定位為 agentic AI 的 multimodal perception sub-agent。這代表它較像多模態代理系統中的感知核心，而不只是一般聊天模型。

項目內容亦涵蓋 curate/、data prep/、sdg/ 和 translate/，即是連資料整理、Synthetic Data Generation (SDG) 與 corpus translation 都納入流程。這種由數據到模型再到部署的完整鏈條，對企業、研究團隊，以及想建立可重複流程的開發者尤其有吸引力。

提供 Nemotron Nano、Super、Ultra 等級，對應不同硬件規模
涵蓋 training recipes、deployment guides、資料處理與 SDG
Nemotron 3 Nano Omni 支援文字、影像、影片、音訊多模態輸入
可配合 TensorRT-LLM 與 NIM microservices，部署彈性較高
適合 agentic AI、Computer-use agents、企業內部 AI workflow 測試

如果你想找的是一個可直接抄答案的成品，Nemotron 未必是最快捷的選擇；但若你需要一套可追溯、可調整、可延伸的開放模型項目，它的結構相當完整。現有資料顯示它更偏向給認真做產品化或研究驗證的人使用，而不是單次玩票式體驗。

GitHub： https://github.com/NVIDIA-NeMo/Nemotron

Categories: NVIDIA, Agentic, Video, Image, Audio, 工具, AI productions, 多模態模型, 模型, 模型訓練, Anthropic, AGI

現時不少 vision-language agents 主要靠固定提示、整段影片送入模型，或者一次性工具調用去完成任務；作者認為這種 fixed scaffold 容易令延遲、成本同提示長度一齊上升，而且部署後幾乎唔會自己累積經驗。VisualClaw 因而提出一個 modular multimodal agent system，夾在 Claude Code、Codex、OpenClaw 同上游 LLM providers 之間，加入 retrieved memory、skill bank、self-evolution、video processing 同 evaluation hooks。

這個項目屬於框架兼工具型基建，重點唔係再訓練一個新模型，而係幫 Computer-use agents、tool-using vision-language agents 更有效處理影片、工作空間同多輪任務。配套的 VisualClawArena 則是獨立 benchmark/data release，收錄 200 個 scenario，要求代理真正在 workspace 內用影片證據、文件、動態更新與 executable checks 解題，補回一般 video-QA benchmark 對工具使用情境測試不足的缺口。

把它當成 gateway proxy，用熟悉的 OpenAI 或 Anthropic 相容介面接到現有 agent workflow，再逐步打開 skills、memory、video cascade 等模組。對已經在用 Claude Code 或 Codex 的團隊，這種接法尤其實用，因為毋須由零重寫整個代理流程。

核心結構清楚：gateway design 加上 pre/post hooks，方便在提示前後插入技能、記憶與評測。
創新位具體：以 hybrid encoding 處理 streaming video，配合 cascaded gate、keyframe context、hot/cold top-k injection，目標是壓低成本而保留關鍵視覺證據。
會累積經驗：self-evolution 會根據失敗回合與成功記憶更新 skill bank，唔係每次都由同一套靜態提示開始。
評測唔只看答對：VisualClawArena 把多輪問題、影片、workspace 操作同評估輸出綁埋一齊，更接近真實代理任務。

在 4 個 video-QA benchmarks、2 個 VLMs（Gemini 3 Flash、GPT-5.2）上，VisualClaw 對 full-frame upload 的每題 API 成本平均可減 98%，相對 offline uniform 8 frame baseline 亦再降 25.9%，同時多數設定下準確率有提升。到 VisualClawArena，配合 Codex（GPT-5.5）與 Claude Code（Sonnet 4.6）等 backend，macro accuracy 分別提升 2.9% 同 3.2%；如果你關心的是可插拔代理基建、多模態工作流，或者想為 live vision 與影片任務加上可持續進化能力，這個項目比單純模型包裝器更有研究同落地價值。

GitHub： https://github.com/UCSC-VLAA/VisualClaw

項目： https://ucsc-vlaa.github.io/VisualClaw/

Categories: 開源, Gemini, OpenAI, Agentic, API, Video, 工具, AI productions, IDE, Mac, Vibe Coding, 多模態模型, 模型, 模型訓練, 編程, Anthropic, OpenClaw, Skill 技能, 框架, 清華大學

last30days-skill：用人氣做 AI 搜尋

2026 年 6 月 17 日

Repository image for mvanhorn/last30days-skill

last30days-skill 是一個 Agentic Skill 搜尋工具項目，核心做法不是依賴編輯式排序，而是把 Reddit、YouTube、TikTok、Instagram、Threads、GitHub、HN、Polymarket 等來源的互動訊號交叉比對，整理出近 30 日最受關注的資訊。它要解決的，是同一個主題分散在不同平台、普通搜尋又難以整合的問題。

這個項目的判斷邏輯相當有意思：不是只看網頁是否存在，而是看 upvotes、likes、留言、甚至真金白銀的市場訊號。對想快速了解某人物、產品、議題近期動向的人，這比傳統搜尋更接近「大家最近在講乜」。若只想先試基本能力，公開資料已可直接涵蓋 Reddit comments；再加入 API key，便可逐步打開 TikTok、Instagram、Threads、Pinterest 及 Perplexity Sonar 等來源。

YouTube transcripts 的候選池擴大了三倍，不再偏向音樂影片，較容易抓到訪談、評論與解說內容；YouTube comments 與 TikTok comments 則屬額外選項，因為每段影片都會增加額外查詢成本。這種把免費來源、付費來源與高成本來源分層處理的方式，反映它比較重視訊號品質與成本控制，而不是一味堆資料。

以 AI agent-led search engine 形式整合多平台近期討論
免費可用來源包括 Reddit comments，並附 upvote 數據
可選接入 Perplexity Sonar、TikTok、Instagram、Threads、Pinterest
YouTube transcripts 強化了非音樂內容覆蓋範圍
適合研究人物近況、追話題熱度、做市場觀察初步整理

如果你平日會做內容選題、品牌觀察、人物背景搜集，這個項目幾適合放入工作流程。它未必提供嚴格學術式評測，現有資訊也未見標準 benchmark 成績，但從來源設計與成本開關來看，方向相當明確：用多平台真實互動訊號，讓 AI agent 幫你先篩走雜訊。相關能力亦牽涉 Perplexity Sonar、OpenRouter，以及可承載 Agent Skills 的 Claude Code、Codex、Cursor、Copilot、Gemini CLI、OpenClaw 等環境。

GitHub： https://github.com/mvanhorn/last30days-skill

Categories: 開源, Gemini, Agentic, API, 工具, AI productions, IDE, Anthropic, OpenClaw, Skill 技能

當 AI 程式助手遇上滿山數據：CoDA-Bench 想考甚麼？

2026 年 6 月 16 日

現有針對 AI 程式代理（AI coding agents）的評測，大致分為兩類：一類專注於軟件工程任務（例如 SWE-Bench、Terminal-Bench），只考驗代碼本身；另一類專注於數據分析能力（例如 DS-1000、DA-Code、DataSciBench），卻把所需數據直接攤在桌面，等着代理去讀。中國人民大學數據實驗室團隊指出，這種把「代碼」與「數據」分開評估的範式，與真實開發場景脫節——現實中的工程師，往往要在堆滿雜亂檔案的環境中，自己摸索出哪些數據有用，再寫代碼處理它們。

為此他們提出 CoDA-Bench（Code and Data-intensive Benchmark），屬於 benchmark 類型的評測框架。它建構了一個基於 Kaggle 生態的 Linux 沙盒，每個任務環境平均包含約 980 個檔案，總共 1,009 道題目橫跨 31 個主題社區，要求代理先在語意相近的眾多檔案中大海撈針，再整合異質資料、撰寫分析代碼，產出最終答案。

團隊測試了多款頂尖代理後發現，即使表現最好的系統，成功率也只有 61.1%，暴露出現有模型在「數據發現」與「代碼執行」之間缺乏有效銜接。這個缺口正好為下一代研究指明方向：未來的代理不只要會寫代碼，更要懂得在雜亂的檔案系統中自行導航。

如果你從事 Agentic AI 研發、數據分析自動化，或想測試 LLM 在複雜環境中的推理與編程整合能力，這套開源 benchmark 提供了一個貼近現實的試金石。完整題目已釋出於 HuggingFace，評估則可透過 Docker 一鍵執行。

重點摘要：
– 修正舊範式：突破 SWE-Bench 與 DS-1000 把代碼與數據分開考的做法，統一在同一環境內評測。
– 真實規模沙盒：每題約 980 個檔案，模擬 Kaggle 上雜亂而龐大的真實數據環境。
– 雙重能力整合：同時考驗資料探索、檔案導航、跨格式整合與代碼生成四個面向。
– 成績慘淡：頂尖代理在完整題集上僅約 61.1% 成功率，顯示仍有明顯改進空間。
– 完整開源：包含 1,009 道題目、31 個社區數據（約 43 GB），以及 Docker 評測流程。

GitHub： https://github.com/ruc-datalab/CoDA-Bench

Paper： https://arxiv.org/pdf/2606.15300

Categories: 開源, Agentic, 軟件, AI productions, Linux, Vibe Coding, 模型, 編程, 中國, 清華大學, 框架, Dataset 數據集

ARGAR 直指 AI 審稿可被包裝操控

2026 年 6 月 16 日

現時不少 AI reviewer 評測，默認接受論文的摘要、敘事結構與貢獻陳述，並直接輸出分數或意見；ARGAR 指出這種固定範式未必真正在看科學內容，而可能被 presentation-level content 牽動。作者因此提出 ARGAR（Adversarial Repackaging Gaming AI Review），用 adversarial repackaging 把「內容不變、包裝改寫」變成可反覆驗證的測試流程。

這個項目較像一個研究框架加實驗工具，而不只是單一資料集；它要解決的，是 AI reviewer 有沒有被 narrative structure、abstract 與 contribution statements 系統性影響。核心做法是 closed-loop iterative search：每一輪根據 AI reviewer feedback 改 LaTeX 文字與結構，再比較新版與 baseline 的審稿結果，但 scientific content held fixed。

若想測試它的思路，最合適是先看 round N/source、round N/reviews、judge result.json 和 attack log.json。這樣可以直接觀察同一篇論文在科學內容不變下，經過不同包裝後，AI review 怎樣波動，也能看清每一輪修改決策如何形成。

類型定位：研究框架兼工具，用來檢驗 AI reviewer 是否容易被論文包裝影響
方法重點：只改 abstract、framing、contribution statements、narrative structure，不改 scientific content
輸出結構：保留每輪 LaTeX source、review 結果、pairwise judge 比較與跨輪 attack log
適合場景：AI safety、LLM evaluation、學術審稿自動化研究
限制提醒：項目明確反對把結果用於真實投稿操控，定位是 controlled experiments

創新之處在於它不是討論「AI 審稿準不準」的籠統問題，而是把舊範式拆開，專門測 presentation attack 對評分的影響。從儲存庫資料看，這種設計也方便研究者重播整個攻擊過程，比只看最終分數更有分析價值。

性能數字在這份儲存庫摘要未完整展開，因此不宜代作者下結論；不過評測設計本身已很有辨識度，因為它加入 pairwise judge 與多輪 review 作比較。相關模型方面，項目透過 LiteLLM 路由不同 LLM provider，可接 OpenAI、Anthropic、AWS Bedrock 等 reviewer model、attack model 與 judge model，亦配合 ICLR、NeurIPS、ICML 風格的 review generation。

GitHub： https://github.com/xyimatvoid/ARGAR

Paper： https://arxiv.org/pdf/2606.09813

Categories: 開源, OpenAI, Agentic, 工具, Content Creator, AI productions, IDE, 安全, 庫, 模型, Anthropic, AGI, 清華大學, 框架, Dataset 數據集

S2L-PO 用小模型帶動大模型推理訓練

2026 年 6 月 16 日

這個項目來自跨校團隊，作者包括 Yiming Ren、Yiran Xu、Zicheng Lin 等人，通訊作者是 Yu Qiao 與 Ruihang Chu；所屬機構包括清華大學、上海人工智慧實驗室、香港中文大學及香港城市大學。以研究背景看，團隊明顯集中在大型語言模型訓練、推理強化學習與數學評測。

這是一個針對 Group Relative Policy Optimization（GRPO）訓練流程的研究型框架，目的是提升大型語言模型在推理任務上的 rollout diversity。現有做法多數靠提高 temperature，從 token-level randomness 增加變化，但論文指出這種固定範式容易在長推理鏈累積噪音，令軌跡變得不連貫。

S2L-PO（Small-to-Large Policy Optimization）換了一個角度：不用同一個大模型不停抽樣，而是找同家族的較小模型做 explorer，先產生一部分 qualitatively different reasoning trajectories，再讓大模型用混合 rollout 依照標準 GRPO 訓練。之後再用 progressive annealing，逐步由 small-model exploration 過渡到 fully on-policy learning，避免中途被小模型能力上限拖慢。

論文提供的結果頗有說服力。以 Qwen3-8B learner 配 1.7B explorer 為例，AIME24 Pass@1 由 15.0 提升到 23.8，AIME25 Pass@1 由 12.1 提升到 22.5；Qwen3-14B learner 配 4B explorer 亦比基線 GRPO 高。作者同時聲稱 rollout compute 還可降低，這點對訓練成本敏感的團隊尤其有吸引力。

如果你想測試這個項目，較合理的方式不是當作即裝即用工具，而是把它視為一個訓練策略參考：先看論文與公開模型設定，再比較自己手上的 GRPO 流程是否同樣受 rollout 同質化影響。硬件門檻不算低，資料列出 8B 模型約需 20 GB GPU 記憶體、14B 模型約需 32 GB，較適合研究人員、模型訓練工程師，或正在做數學推理微調的團隊。

核心判斷：這是模型訓練框架，不是一般聊天應用，重點在改善 GRPO 的探索品質
方法差異：由 token-level randomness 轉向 policy-level diversity，減少長鏈推理失真
主要創新：用較小同家族模型充當 natural explorers，再以 progressive annealing 收回大模型主導權
已列相關模型：Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B
適合場景：數學推理、可驗證獎勵訓練、想提升 RLVR 與 GRPO 收斂效率的項目

GitHub： https://github.com/qishisuren123/S2L-PO

Paper： https://arxiv.org/pdf/2605.30789

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, Agentic, 工具, Python, 模型, 模型訓練, 深度學習, 香港城市大學, 清華大學, 框架, 上海人工智慧實驗室

[技術文章] 牛津團隊用 MedMisBench 測試醫療 LLM 抗誤導力

2026 年 6 月 16 日

這個項目由 University of Oxford、University of Washington、University College London 及 University of Waterloo 的研究人員合作提出，重點放在醫療 Large language models（LLMs）遇上誤導內容時，能否守住原本正確的醫療判斷。作者指出，現有做法多數用乾淨、考試式題目評估模型知識，但這種範式只量到模型「識唔識」，未有量到模型在混雜資訊環境中會否被帶偏。

因此，團隊提出 MedMisBench，將「epistemic resilience」定義為模型在 adversarial context 之下仍維持正確判斷的能力。這個 benchmark 收錄 10,932 條醫療題目項目，以及 48,889 組 misleading context-option pairs，涵蓋 medical reasoning、agentic capability 和 patient-journey evaluation，用來測試模型面對看似合理但其實錯誤的上下文時會點樣改答案。

論文最關鍵的訊息，是不少模型本來答啱，但加入聚焦式誤導句子後便放棄正確答案。11 個 model configurations 的平均準確率，由原題的 71.1% 跌到 38.0%，attack success 達 51.5%；其中 authority-framed falsehoods 的攻擊成功率有 69.5%，exception-poisoning claims 也有 64.1%，顯示帶有權威語氣或規則例外包裝的錯誤資訊尤其危險。

對想使用醫療 AI 的讀者來說，這個項目的價值不在於提供新診斷模型，而是補上現有醫療評測的盲點：高分醫學考試 benchmark，未必代表模型在真實健康資訊環境中仍可靠。研究還找來來自 7 個國家的 14 人臨床小組覆核，認為 38.2% 檢視個案存在嚴重潛在傷害，這令 MedMisBench 很適合用作醫療模型安全測試、紅隊檢驗，以及部署前風險篩查。

核心批評：現有 benchmark 多測知識正確率，較少測 misleading context 下是否仍能守住正確判斷
新增 framing：用 epistemic resilience 專門量度模型抗誤導能力
數據規模：10,932 個醫療題目項目、48,889 組 misleading context-option pairs
主要結果：平均準確率由 71.1% 跌至 38.0%，attack success 為 51.5%
引用模型包括 ChatGPT、Gemini 等醫療文字理解與生成能力較強的 LLMs

Paper： https://arxiv.org/pdf/2606.12291

Categories: Gemini, OpenAI, Agentic, Medical醫學, 多模態模型, 安全, Dataset 數據集

[技術文章] KAIST 與 Qualcomm 重塑長影片 RAG 評測

2026 年 6 月 16 日

這項研究由 KAIST 與 Qualcomm AI Research、Qualcomm Korea 團隊合作提出，聚焦長時間第一身影片中的 Retrieval-augmented generation（RAG）。作者指出，現有 VideoRAG 常沿用「每條查詢只配一種 modality 與一種 temporal granularity」的固定範式，但長影片的證據片段差異很大，單一設定未必適合全部片段；加上不少既有 benchmark 的問題甚至不用看影片也能答中，令最終分數難以反映檢索是否真的做對。

因此，團隊提出 V-RAGBench，把資料整理成 ⟨query, evidence chunk, answer⟩ triplets，明確分開查詢、證據片段與答案。這種設計針對的是過去「只看最終回答正確率」的盲點，讓研究者可以更忠實地分開檢查 retrieval 與 generation，知道系統究竟是靠對的影片片段，還是靠語言偏見、常識或靜態線索作答。

方法上，作者再提出 CARVE。它不是替整條查詢預先選定一種設定，而是讓多個 retriever 以不同 modality 與 granularity 並行工作，再用 chunk-adaptive reranking 為每個 evidence chunk 挑出最合適的 winning configuration。之後，這些片段會連同各自勝出的設定一併送入 generator，形成 interleaved evidence，令檢索階段的片段級決策延續到生成階段。

對想使用這個項目的人來說，切入點很清楚：先用 V-RAGBench 測試自己的 VideoRAG 流程，分開看檢索與生成表現；若系統目前仍採用查詢級單一設定，可再比較 CARVE 這種片段級配置方式。這種思路較適合長影片問答、egocentric video 分析，以及需要從多模態證據中找出正確時間片段的 Agentic 系統。

V-RAGBench 以 evidence chunk 為核心，補足舊 benchmark 無法準確檢查檢索對錯的問題
CARVE 改為片段級選擇 configuration，不再假設一條查詢只需一套 modality／granularity
作者指出 generator 最後接收的 chunks 會交錯來自多種 configuration，這是 query-level 方法做不到的
論文稱 CARVE 勝過 8 個近期 VideoRAG baselines，顯示片段級決策在長影片檢索更有優勢

整體來看，這項工作不是單純再加一個 VideoRAG 方法，而是先批評舊有評測與建模範式，再用新 benchmark 和新 retrieval framing 一起修正問題。如果你關心的是長影片 RAG 到底應該取回什麼、以及取回後怎樣交給模型使用，這項研究提供了相當清晰的分析框架。

Paper： https://arxiv.org/pdf/2606.13141

Categories: Agentic, Video, AI productions, RAG, 多模態模型, 模型, 新聞, Dataset 數據集, 框架

Page 6 of 14

« Previous 1 … 4 5 6 7 8 … 14 Next »