X-OmniClaw:讓手機自己跨App辦事的AI代理

X-OmniClaw

X-OmniClaw是一個運行在Android裝置上的多模態代理系統,重點不是停留在模擬器或虛擬環境,而是直接對真實手機畫面作判斷,再執行點擊、輸入、開啟App等操作。對一般用家來說,可以把它理解為一個會「睇畫面、記住進度、自己禁掣」的手機助手。

實際使用上,它適合處理需要跨App完成的多步驟任務,例如根據畫面內容作搜尋、在不同應用之間切換,或跟隨語音與視覺資訊持續執行工作。專案資料顯示,它能串流顯示每一步動作、工具呼叫與結果,亦會累積模型使用成本,方便觀察整個流程是否合理。

這個專案較有新意的地方,在於把感知、記憶、行動放在同一套手機原生流程內。它不只讀取UI狀態,亦可結合真實世界影像與音訊;再配合工作記憶與較長期的個人化記憶,令任務可以延續,不需要每一步都由頭理解。

另外,X-OmniClaw似乎特別重視穩定性,而不只是「做到一次」。例如多輪任務有預算控制與迴圈偵測,失敗後會嘗試收斂並繼續執行;裝置工具亦加入防誤觸與穩定性保護,這些設計對真機操作尤其重要。

  • 直接在實體Android手機上運作,不依賴虛擬環境
  • 可整合畫面、鏡頭、語音作任務理解
  • 內建統一裝置工具,支援點擊、輸入、截圖、啟動App等操作
  • 有多步驟任務控制、可觀察執行過程與成本統計

如果你的場景是手機自動化、智能助理、跨App工作流,甚至需要結合現場鏡頭資訊去決策,X-OmniClaw會比一般只看文字指令的方案更有參考價值。不過從公開資料看,它較偏研究與系統架構展示,真正落地時仍要留意裝置相容性、任務複雜度,以及背後雲端推理的依賴。

Source: https://github.com/OPPO-Mente-Lab/X-OmniClaw

Categories: 開源, Agentic, 框架

DecodingTrust-Agent:測試 AI 代理可信度的評估框架

Repository image for AI-secure/DecodingTrust-Agent

DecodingTrust-Agent Arena 是一個用來評估 AI 代理可信度的框架,重點不是幫你做任務,而是觀察代理在真實感較高的工作流程中會否出錯、受誘惑或被惡意引導。它支援不同領域,例如 CRM、workflow automation 等,方便研究人員或產品團隊做一致比較。

實際使用時,使用者通常會提供一個 JSONL 任務檔,再透過命令列啟動評估;也可以針對單一任務資料夾直接測試。系統會按任務類型讀入 benign 或 malicious 場景,並可選擇略過環境設定、MCP 啟動或評分步驟,令測試流程更有彈性。

這個專案的主要創新,在於它不只看 AI 會否完成任務,還把威脅模型與風險類別納入設計,令「可信度」變成可被拆解和量度的指標。對比一般只測準確率的工具,這種做法更貼近 AI 代理在企業環境中可能遇到的安全和操控風險。

最適合的應用場景包括 AI 代理研究、內部安全評估、以及想驗證自動化工作流是否穩定的團隊。若你正在比較不同模型在相同任務下的表現,它也很實用;文件中示例使用了 gpt-4o,但框架本身看來主要是透過 CLI 參數切換模型。

重點摘要:
– 可評估 AI 代理在多個業務場景下的可信度
– 支援 benign 與 malicious 任務設計
– 以 JSONL 任務檔管理測試流程,方便批量評估
– 可按需要跳過部分步驟,適合不同測試環境
– 特別適合研究安全、風險與抗操控能力

Source: https://github.com/AI-secure/DecodingTrust-Agent

Categories: 開源, Agentic

4DThinker:讓影片理解動態空間的4D視覺腦

drawing

4DThinker 是一個面向研究用途的視覺語言模型框架,重點不是單純描述影片內容,而是讓模型從單鏡頭影片理解物件如何移動、互相影響,以及場景隨時間怎樣變化。簡單講,它想解決「模型見到影片,能否真正理解空間變動」這件事。

它的實際用法較接近訓練與評估流程,而不是即裝即用的消費級工具。專案提供資料集、模型權重、訓練程式,以及前處理所需資源;若要重現效果,需準備影片資料、SAM3 checkpoint,並以 Qwen2.5-VL-3B-Instruct 作為基礎模型,部分資料生成流程亦會用到 OpenAI 相容 API。

這個專案最值得留意的創新,在於它不再只靠文字一步步「講出」推理過程,而是加入所謂 4D latent imagery,讓模型在隱藏空間中模擬場景演化。配合 DIFT 微調,以及 4DRL 強化學習,方向上是希望把動態視覺理解能力直接學進模型本身,而非額外串接複雜幾何模組。

重點摘要:
– 針對單鏡頭影片的動態空間推理
– 提供資料生成、訓練與評測相關組件
– 以 4D 潛在表徵處理時間與空間變化
– 支援調整 latent token 數量與損失權重
– 較適合研究團隊,而非一般用家直接部署

如果你做的是機械人感知、影片問答、場景理解,或者想提升模型對「之後會怎樣」的判斷,4DThinker 特別值得留意。至於一般內容摘要或靜態圖片分析,它未必是最直接的選擇,因為整個設計明顯是為動態推理而生。

Source: https://github.com/zhangquanchen/4DThinker

Categories: 開源, Agentic, , 模型, 視覺模型, 中國, 清華大學

DCI-Agent-Lite:把知識庫交給代理直接翻找,不用 embeddings

DCI-Agent-Lite

DCI-Agent-Lite是一個面向代理式搜尋的輕量實作,核心概念是讓代理直接操作原始文件,而不是先經過語意檢索器或向量資料庫。對有本機資料、內部文件或持續變動語料的人來說,這個方向很實際,因為不必先建索引,也不用把文件送到託管式檢索服務。

實際使用上,它更像是一個能讀檔、查字串、逐步驗證線索的研究助手。代理會用終端工具在本地語料中搜尋、檢視上下文、交叉比對,再整理答案;若要跑預設的 OpenAI 路線,專案資訊有提到需要 OpenAI API KEY,並點名可搭配 GPT-5.4-nano

這個專案最有意思的創新,不只是「不用 embeddings」,而是把檢索介面改成更高解析度的檔案互動。論文脈絡指出,代理能把多個簡單搜尋動作串接起來,處理精確詞彙限制、稀疏線索組合與局部上下文驗證,減少傳統 top-k 檢索過早過濾證據的問題。

從公開描述來看,它的定位很清楚:建立在精簡的代理框架與 bash 工具之上,系統結構小、可改造性高,但仍瞄準長流程研究任務。專案也宣稱在 13 個基準上優於多種檢索式基線,涵蓋知識密集問答、代理搜尋與 IR ranking,不過實際效果仍會受語料品質、工具配置與模型能力影響。

  • 適合私有知識庫:文件可留在本地,不必依賴外部檢索服務
  • 零索引啟動:不需預先建立向量庫或離線 embedding 流程
  • 高解析度搜尋:可直接對原始檔做精準查找與上下文確認
  • 可塑性高:工具鏈簡單,較容易理解、調整與擴充

如果你的場景是企業內部文件探索、研究資料整理、個人知識庫深查,DCI-Agent-Lite相當值得關注。相較傳統 RAG,它未必在所有大型靜態語料都占優,但在資料常更新、需要細部核對證據的任務上,這種直接互動式檢索顯得更貼近真正的研究工作流程。

Source: https://github.com/DCI-Agent/DCI-Agent-Lite

Categories: 開源, Agentic

CoE – Chain of Evidence 看得見證據鏈的 RAG

Repository image for PeiYangLiu/CoE

CoE 是一個面向迭代式 RAG 的視覺歸因框架,重點不是只回答問題,而是把「答案怎麼來」具體標在文件截圖上。它接受問題與前 5 筆候選文件,接著排序出證據鏈、框出支撐區域,最後產生答案,讓多跳推理不再只停留在文件層級引用。

實際使用上,這個專案比較像研究型工具鏈:可先準備 Wiki-CoE 或 SlideVQA 資料,再依兩階段流程訓練,最後用評估與視覺化模組檢查框選結果。若只想快速體驗,儲存庫也提供已訓練檢查點;需特定模型時,專案明確是以 Qwen3-VL-8B-Instruct 為核心封裝。

它最有價值的地方,在於直接對文件畫面推理,而非先把 PDF、網頁或投影片硬轉成線性文字。這種做法能保留版面、表格、資訊圖與視覺關係,對投影片、複雜網頁或含圖表文件尤其重要,也回應了傳統文字式 RAG 難以精準驗證來源的位置問題。

重點摘要:
– 支援多跳證據排序,不只找單一片段
– 以邊界框標示像素級證據區域
– 採兩階段課程式訓練,先定位再推理
– 提供 Wiki-CoE 資料集與 8B 檢查點
– 評估涵蓋答案正確率與定位、證據鏈表現

若你的需求是法務、金融、研究助理或企業知識庫這類必須追溯依據的問答系統,CoE 的方向很有參考價值。相較一般只附引用來源的 RAG,它更像把驗證流程前移;不過目前整體形態仍偏研究與實驗環境,較適合拿來做方法評估、原型驗證與高可解釋性場景測試。

Source: https://github.com/PeiYangLiu/CoE

Categories: 開源, Agentic,

paperclip:用任務管理思維駕馭 AI 團隊

Paperclip — runs your business

當團隊開始同時使用多個 AI 代理時,真正的瓶頸通常不是模型能力,而是協作失序。Paperclip 的定位很清楚:它不是再做一個代理本身,而是提供一個以 Node.js 伺服器與 React 介面組成的控制平面,讓使用者把不同來源的代理集中管理,並用公司、專案、目標與任務的層級來分派工作。若以一句話概括,它更像是「替 AI 團隊設計的營運系統」,而不是單純的自動化腳本集合。

實際使用上,這個專案適合已經有多個代理在運作的人,例如同時讓 Claude Code、Codex、Cursor 類型工具或 HTTP/CLI 代理各自負責開發、支援、行銷或例行工作。使用流程不是盯著一堆終端機,而是先定義公司目標與專案脈絡,再建立角色、指派任務、設定預算與批准機制,最後透過儀表板追蹤進度、成本與稽核紀錄。對想要讓代理 24 小時運作,但又不希望完全失控的團隊而言,這種「可放手、也可介入」的操作模式很實際。

Paperclip 最有意思的創新,在於它把企業治理概念直接帶進代理協作。README 提到的心跳排程、任務鎖定、持久狀態、預算硬限制、審批與回滾、以及多公司資料隔離,顯示它處理的是多代理系統中最麻煩的邊角問題,而不是只包一層漂亮 UI。尤其「每個任務都能追溯到上層目標」這件事,很適合避免代理只看見局部指令、卻看不見整體方向的常見缺陷;加上對話、工具呼叫與決策都有可追蹤紀錄,也讓後續檢討與合規更有依據。

  • 可整合多種代理執行環境,重點在協調而非綁定單一工具
  • 以組織圖、任務單、排程與預算管理多代理長時間運作
  • 提供完整稽核軌跡,方便人工覆核、追責與成本回顧
  • 支援單一部署管理多家公司,資料隔離是設計核心之一
  • 適合代理數量已經很多、需要正式管理流程的進階使用者

若從應用場景來看,Paperclip 最適合三類需求。第一是小型自動化公司或個人創業者,希望把開發、內容、客服與營運工作交給不同代理分工;第二是 AI 原生團隊,需要把多個代理當成部門成員來協調,而不是各自獨立跑任務;第三是想做內部實驗平台的技術團隊,想測試代理編制、預算政策與治理流程的實際效果。相對地,如果你只有單一代理、任務量也不大,這套系統可能顯得過重,因為它的價值建立在「代理很多、工作持續、成本要控、流程要查」的前提上。

整體來看,Paperclip 評價不在於它幫你生出更強的模型,而在於它把代理工作從零散的個人工具,提升成可管理的組織流程。這種產品思路相當少見,也切中多代理實務的痛點:工作不重複、上下文不遺失、費用不暴衝、責任可追蹤。若你目前已經感受到多代理協作帶來的管理負擔,這個專案值得深入研究;但若仍停留在單一聊天視窗的使用階段,可能還不需要這麼完整的控制層。

Source: https://github.com/paperclipai/paperclip

Categories: 開源, Agentic, , OpenClaw

PatRe:專利審查流程的評測專案

PatRe Logo

PatRe 是一個聚焦專利審查流程的評測專案,核心在於把任務從單次分類或抽取,推進到更貼近實務的「審查意見生成」與「申請人答辯生成」。以目前公開資訊來看,這個儲存庫主要提供的是評估與生成流程,而不只是靜態資料展示。

實際使用上,使用者需要先準備測試集路徑與參考資料池,之後可選擇只生成結果、只做評估,或限制樣本數進行小規模測試。它也支援既有結果資料夾的評分,對研究者反覆比較不同模型或提示策略會更方便。

這個專案較有意思的地方,在於它把專利審查視為多階段、互動式的文字推理工作,而不是單純預測標籤。README 也提到資料對齊流程會結合 BM25 從 reference pool 擷取相關內容,讓評測不只看模型寫得像不像,還更接近依據檢索材料進行論述的情境。

重點摘要如下:
任務設計完整:涵蓋 Office Action 與 rebuttal,不只單向生成。
評測流程彈性:可分開執行生成與評估,也能限制樣本或輪次。
資料格式務實:支援格式化 JSON 陣列,並保留舊版 JSONL 載入能力。
檢索導向:透過 reference pool 與 BM25 對齊,模擬實際審查參照依據。

若你是做法律科技、專利 NLP,或想評估大型語言模型在高約束推理場景的表現,PatRe 很值得關注。特別適合拿來比較模型在審查方與申請方兩種角色中的落差;不過目前公開說明也顯示,資料集與完整展示仍在逐步釋出,實際覆蓋範圍建議以官方後續更新為準。

Source: https://github.com/AIforIP/PatRe

Categories: 開源, Agentic, 軟件

Google Cloud 推出企業級 AI 代理平台

Og image

Google Cloud 發表 Gemini Enterprise Agent Platform,定位為建置、擴展、治理與最佳化 AI 代理的企業平台。它可視為 Vertex AI 的延伸,將模型選擇、模型建置與代理建置能力整合,並補上代理整合、DevOps、協作編排與安全治理等企業所需環節。

實際使用上,技術團隊可在同一平台內建立代理,讓其連接多個企業系統,並透過 Gemini Enterprise app 提供給員工使用。這種做法有助於讓代理更貼近日常工作流程,同時維持 IT 部門對權限、治理與安全的控管。

這個專案的主要創新,在於把過去分散的模型開發、代理建構與營運管理集中到單一入口,降低跨系統導入代理的複雜度。文中也強調平台提供超過 200 個模型的存取能力,包含 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3 與 Gemma 4,讓企業能依任務需求選擇合適模型。

  • 整合 Vertex AI 既有能力與新的代理治理功能
  • 支援代理整合、DevOps、編排與安全控管
  • 可透過 Gemini Enterprise app 將代理交付給員工使用
  • 提供 Model Garden 存取超過 200 個模型

受惠工作預期包括企業內部工具開發、營運自動化、客服支援、知識工作協作與跨系統流程串接。就目前頁面內容來看,文章著重平台定位與能力整合,尚未提供具體效能數據或正式評測結果,因此較適合將其視為企業代理基礎設施與治理框架的產品發布,而非已完整公開基準測試的技術報告。

模型列表:Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4。

Categories: Google, Gemini, Agentic

ARIS 讓 AI 研究流程可實戰觀察

ARIS-Code CLI

ARIS 是一套面向研究工作的代理流程框架,核心不是單純自動生成內容,而是把想法探索、實驗執行、論文撰寫與回覆審稿意見串成可反覆檢查的工作鏈。它可作為 Claude Code、Cursor、Trae 的技能式工作流使用,也提供獨立 CLI,較適合需要長時間、跨階段協作的研究專案。

實際使用上,較合理的方式是把它視為研究助理編排層:先做 idea discovery,再接 experiment bridge、auto review loop、paper writing 與 rebuttal。專案特別強調跨模型家族的執行者與審查者分工;若需要特定模型,文件中明確提到可搭配 GPT-5.4 作為 reviewer,部分引用稽核流程也會透過 Codex MCP 路由使用 gpt-5.4。

這個專案最有辨識度的創新,在於它把「證據到主張」的驗證做成系統層能力,而不是最後才人工補救。除了實驗結果到論文敘述的對照,近期又補上 /citation-audit,檢查引用是否存在、書目資料是否正確,以及最重要的:被引用文獻是否真的支持當前論點,這比只查 BibTeX 完整度更實際。

另一個值得肯定的部分是工程細節相對務實。像技能安裝機制曾修正為扁平化佈局,避免 Claude Code 無法發現巢狀技能;Overleaf 同步則透過官方 Git bridge 串接,並把權杖隔離在 macOS Keychain,降低代理直接接觸憑證的風險。這些設計顯示作者關注的不只是功能數量,也包含可維護性與失敗復原。

  • 適合對象:需要長鏈研究流程、反覆修改論文、重視可追溯性的使用者
  • 主要價值:把審查、證據核對、引用稽核嵌入研究流程,而非事後補做
  • 實用亮點:研究 wiki、技能式工作流、審稿回合、自動論文改善與 rebuttal 支援
  • 理想場景:機器學習論文撰寫、實驗驅動研究、多人協作且需同步 Overleaf 的團隊

整體來看,ARIS 比較像研究流程的「治理框架」,不是一鍵產出論文的捷徑。若你的需求是提高研究代理的可靠性、保留脈絡並減少論點失真,它提供了相當完整而且偏嚴謹的路線;但若只想快速生成初稿,這套系統可能會顯得偏重。

Source: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

Categories: 開源, Agentic

Moonlake AI 3D 建模代理

Moonlake AI 推出的 3D Agent 是其世界建模代理的重要更新,能直接在 Blender 中操作電腦,自動建立 3D 場景、關節資產與複雜環境。

主要功能

它能從單一圖像重建可編輯的室內外場景,無需預定義規則;同時建模具零件與關節的資產,並持續精煉數千步驟。
代理像技術藝術家般運作,整合現有製作流程,支援資產管理系統並批量啟動任務。
早期合作夥伴已用於模擬資產創作、遊戲世界建置與場景清理等重複工作自動化。

應用場景

適用於遊戲開發、3D 內容生成與生產線自動化,能加速互動世界建置達 100 倍。
Moonlake AI 獲 NVIDIA 等投資,聚焦多模態推理模型與生成遊戲引擎。

Categories: NVIDIA, Agentic, 3D

Page 2 of 6
1 2 3 4 6