CoE – Chain of Evidence 看得見證據鏈的 RAG

Repository image for PeiYangLiu/CoE

CoE 是一個面向迭代式 RAG 的視覺歸因框架,重點不是只回答問題,而是把「答案怎麼來」具體標在文件截圖上。它接受問題與前 5 筆候選文件,接著排序出證據鏈、框出支撐區域,最後產生答案,讓多跳推理不再只停留在文件層級引用。

實際使用上,這個專案比較像研究型工具鏈:可先準備 Wiki-CoE 或 SlideVQA 資料,再依兩階段流程訓練,最後用評估與視覺化模組檢查框選結果。若只想快速體驗,儲存庫也提供已訓練檢查點;需特定模型時,專案明確是以 Qwen3-VL-8B-Instruct 為核心封裝。

它最有價值的地方,在於直接對文件畫面推理,而非先把 PDF、網頁或投影片硬轉成線性文字。這種做法能保留版面、表格、資訊圖與視覺關係,對投影片、複雜網頁或含圖表文件尤其重要,也回應了傳統文字式 RAG 難以精準驗證來源的位置問題。

重點摘要:
– 支援多跳證據排序,不只找單一片段
– 以邊界框標示像素級證據區域
– 採兩階段課程式訓練,先定位再推理
– 提供 Wiki-CoE 資料集與 8B 檢查點
– 評估涵蓋答案正確率與定位、證據鏈表現

若你的需求是法務、金融、研究助理或企業知識庫這類必須追溯依據的問答系統,CoE 的方向很有參考價值。相較一般只附引用來源的 RAG,它更像把驗證流程前移;不過目前整體形態仍偏研究與實驗環境,較適合拿來做方法評估、原型驗證與高可解釋性場景測試。

Source: https://github.com/PeiYangLiu/CoE

Categories: 開源, Agentic,

paperclip:用任務管理思維駕馭 AI 團隊

Paperclip — runs your business

當團隊開始同時使用多個 AI 代理時,真正的瓶頸通常不是模型能力,而是協作失序。Paperclip 的定位很清楚:它不是再做一個代理本身,而是提供一個以 Node.js 伺服器與 React 介面組成的控制平面,讓使用者把不同來源的代理集中管理,並用公司、專案、目標與任務的層級來分派工作。若以一句話概括,它更像是「替 AI 團隊設計的營運系統」,而不是單純的自動化腳本集合。

實際使用上,這個專案適合已經有多個代理在運作的人,例如同時讓 Claude Code、Codex、Cursor 類型工具或 HTTP/CLI 代理各自負責開發、支援、行銷或例行工作。使用流程不是盯著一堆終端機,而是先定義公司目標與專案脈絡,再建立角色、指派任務、設定預算與批准機制,最後透過儀表板追蹤進度、成本與稽核紀錄。對想要讓代理 24 小時運作,但又不希望完全失控的團隊而言,這種「可放手、也可介入」的操作模式很實際。

Paperclip 最有意思的創新,在於它把企業治理概念直接帶進代理協作。README 提到的心跳排程、任務鎖定、持久狀態、預算硬限制、審批與回滾、以及多公司資料隔離,顯示它處理的是多代理系統中最麻煩的邊角問題,而不是只包一層漂亮 UI。尤其「每個任務都能追溯到上層目標」這件事,很適合避免代理只看見局部指令、卻看不見整體方向的常見缺陷;加上對話、工具呼叫與決策都有可追蹤紀錄,也讓後續檢討與合規更有依據。

  • 可整合多種代理執行環境,重點在協調而非綁定單一工具
  • 以組織圖、任務單、排程與預算管理多代理長時間運作
  • 提供完整稽核軌跡,方便人工覆核、追責與成本回顧
  • 支援單一部署管理多家公司,資料隔離是設計核心之一
  • 適合代理數量已經很多、需要正式管理流程的進階使用者

若從應用場景來看,Paperclip 最適合三類需求。第一是小型自動化公司或個人創業者,希望把開發、內容、客服與營運工作交給不同代理分工;第二是 AI 原生團隊,需要把多個代理當成部門成員來協調,而不是各自獨立跑任務;第三是想做內部實驗平台的技術團隊,想測試代理編制、預算政策與治理流程的實際效果。相對地,如果你只有單一代理、任務量也不大,這套系統可能顯得過重,因為它的價值建立在「代理很多、工作持續、成本要控、流程要查」的前提上。

整體來看,Paperclip 評價不在於它幫你生出更強的模型,而在於它把代理工作從零散的個人工具,提升成可管理的組織流程。這種產品思路相當少見,也切中多代理實務的痛點:工作不重複、上下文不遺失、費用不暴衝、責任可追蹤。若你目前已經感受到多代理協作帶來的管理負擔,這個專案值得深入研究;但若仍停留在單一聊天視窗的使用階段,可能還不需要這麼完整的控制層。

Source: https://github.com/paperclipai/paperclip

Categories: 開源, Agentic, , OpenClaw

PatRe:專利審查流程的評測專案

PatRe Logo

PatRe 是一個聚焦專利審查流程的評測專案,核心在於把任務從單次分類或抽取,推進到更貼近實務的「審查意見生成」與「申請人答辯生成」。以目前公開資訊來看,這個儲存庫主要提供的是評估與生成流程,而不只是靜態資料展示。

實際使用上,使用者需要先準備測試集路徑與參考資料池,之後可選擇只生成結果、只做評估,或限制樣本數進行小規模測試。它也支援既有結果資料夾的評分,對研究者反覆比較不同模型或提示策略會更方便。

這個專案較有意思的地方,在於它把專利審查視為多階段、互動式的文字推理工作,而不是單純預測標籤。README 也提到資料對齊流程會結合 BM25 從 reference pool 擷取相關內容,讓評測不只看模型寫得像不像,還更接近依據檢索材料進行論述的情境。

重點摘要如下:
任務設計完整:涵蓋 Office Action 與 rebuttal,不只單向生成。
評測流程彈性:可分開執行生成與評估,也能限制樣本或輪次。
資料格式務實:支援格式化 JSON 陣列,並保留舊版 JSONL 載入能力。
檢索導向:透過 reference pool 與 BM25 對齊,模擬實際審查參照依據。

若你是做法律科技、專利 NLP,或想評估大型語言模型在高約束推理場景的表現,PatRe 很值得關注。特別適合拿來比較模型在審查方與申請方兩種角色中的落差;不過目前公開說明也顯示,資料集與完整展示仍在逐步釋出,實際覆蓋範圍建議以官方後續更新為準。

Source: https://github.com/AIforIP/PatRe

Categories: 開源, Agentic, 軟件

Google Cloud 推出企業級 AI 代理平台

Og image

Google Cloud 發表 Gemini Enterprise Agent Platform,定位為建置、擴展、治理與最佳化 AI 代理的企業平台。它可視為 Vertex AI 的延伸,將模型選擇、模型建置與代理建置能力整合,並補上代理整合、DevOps、協作編排與安全治理等企業所需環節。

實際使用上,技術團隊可在同一平台內建立代理,讓其連接多個企業系統,並透過 Gemini Enterprise app 提供給員工使用。這種做法有助於讓代理更貼近日常工作流程,同時維持 IT 部門對權限、治理與安全的控管。

這個專案的主要創新,在於把過去分散的模型開發、代理建構與營運管理集中到單一入口,降低跨系統導入代理的複雜度。文中也強調平台提供超過 200 個模型的存取能力,包含 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3 與 Gemma 4,讓企業能依任務需求選擇合適模型。

  • 整合 Vertex AI 既有能力與新的代理治理功能
  • 支援代理整合、DevOps、編排與安全控管
  • 可透過 Gemini Enterprise app 將代理交付給員工使用
  • 提供 Model Garden 存取超過 200 個模型

受惠工作預期包括企業內部工具開發、營運自動化、客服支援、知識工作協作與跨系統流程串接。就目前頁面內容來看,文章著重平台定位與能力整合,尚未提供具體效能數據或正式評測結果,因此較適合將其視為企業代理基礎設施與治理框架的產品發布,而非已完整公開基準測試的技術報告。

模型列表:Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4。

Categories: Google, Gemini, Agentic

ARIS 讓 AI 研究流程可實戰觀察

ARIS-Code CLI

ARIS 是一套面向研究工作的代理流程框架,核心不是單純自動生成內容,而是把想法探索、實驗執行、論文撰寫與回覆審稿意見串成可反覆檢查的工作鏈。它可作為 Claude Code、Cursor、Trae 的技能式工作流使用,也提供獨立 CLI,較適合需要長時間、跨階段協作的研究專案。

實際使用上,較合理的方式是把它視為研究助理編排層:先做 idea discovery,再接 experiment bridge、auto review loop、paper writing 與 rebuttal。專案特別強調跨模型家族的執行者與審查者分工;若需要特定模型,文件中明確提到可搭配 GPT-5.4 作為 reviewer,部分引用稽核流程也會透過 Codex MCP 路由使用 gpt-5.4。

這個專案最有辨識度的創新,在於它把「證據到主張」的驗證做成系統層能力,而不是最後才人工補救。除了實驗結果到論文敘述的對照,近期又補上 /citation-audit,檢查引用是否存在、書目資料是否正確,以及最重要的:被引用文獻是否真的支持當前論點,這比只查 BibTeX 完整度更實際。

另一個值得肯定的部分是工程細節相對務實。像技能安裝機制曾修正為扁平化佈局,避免 Claude Code 無法發現巢狀技能;Overleaf 同步則透過官方 Git bridge 串接,並把權杖隔離在 macOS Keychain,降低代理直接接觸憑證的風險。這些設計顯示作者關注的不只是功能數量,也包含可維護性與失敗復原。

  • 適合對象:需要長鏈研究流程、反覆修改論文、重視可追溯性的使用者
  • 主要價值:把審查、證據核對、引用稽核嵌入研究流程,而非事後補做
  • 實用亮點:研究 wiki、技能式工作流、審稿回合、自動論文改善與 rebuttal 支援
  • 理想場景:機器學習論文撰寫、實驗驅動研究、多人協作且需同步 Overleaf 的團隊

整體來看,ARIS 比較像研究流程的「治理框架」,不是一鍵產出論文的捷徑。若你的需求是提高研究代理的可靠性、保留脈絡並減少論點失真,它提供了相當完整而且偏嚴謹的路線;但若只想快速生成初稿,這套系統可能會顯得偏重。

Source: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

Categories: 開源, Agentic

Moonlake AI 3D 建模代理

Moonlake AI 推出的 3D Agent 是其世界建模代理的重要更新,能直接在 Blender 中操作電腦,自動建立 3D 場景、關節資產與複雜環境。

主要功能

它能從單一圖像重建可編輯的室內外場景,無需預定義規則;同時建模具零件與關節的資產,並持續精煉數千步驟。
代理像技術藝術家般運作,整合現有製作流程,支援資產管理系統並批量啟動任務。
早期合作夥伴已用於模擬資產創作、遊戲世界建置與場景清理等重複工作自動化。

應用場景

適用於遊戲開發、3D 內容生成與生產線自動化,能加速互動世界建置達 100 倍。
Moonlake AI 獲 NVIDIA 等投資,聚焦多模態推理模型與生成遊戲引擎。

Categories: NVIDIA, Agentic, 3D

AcademiClaw 包含80個大學生的學術任務雙語基準測試

OpenClaw學術評估流程
GAIR-NLP/AcademiClaw

AcademiClaw 包含80個大學生的學術任務雙語基準測試 為AI代理呈現了一項獨特的學術 挑戰,透過使用真實世界的學術任務。這80個任務直接來自學生,突顯了當前AI不足之處。

該基準測試涵蓋了各種類別,如研究、軟體工程和語言創意,確保了全面的測試。研究人員和開發者可以專注於這些類別,以識別AI的優勢和弱點。每個任務都經過精心設計,並進行多維度評估,增強其可靠性。

在實際應用中,AcademiClaw 使用CPU和GPU任務的混合,根據需求自動路由。這種設置確保了在測試不同AI模型時的可重現性和公平性。用戶從詳細的評分維度和安全審核中受益,提供了對模型性能的洞察。

教育工作者和AI研究人員將發現 AcademiClaw 對於提升AI能力極具價值。它需要能夠處理複雜、長時間範圍任務的強大LLMs。

主要收穫:
–  AcademiClaw 使用真實的學生挑戰來測試AI。
– 它涵蓋了多樣化的學術領域,並進行詳細評估。
– 需要堅固的LLMs才能有效完成任務。
– 為AI開發和教育提供寶貴的見解。
– 支援CPU和GPU任務,以實現靈活的測試。

Source: https://github.com/GAIR-NLP/AcademiClaw

Categories: 開源, Agentic, OpenClaw

ClawGym 構建高效的 Claw 代理框架

ClawGym 框架的主要用途在於訓練和評估能夠在真實系統上執行任務的 AI 代理。以下是它的核心應用場景:

代理訓練與開發

ClawGym 提供完整的流程讓開發者能夠構建高效的 Claw 代理。框架透過合成大規模任務數據(13.5K 個經過篩選的任務)和智能軌跡收集,使 LLM 模型能夠學習如何在 OpenClaw 框架上自動執行真實任務。

自動化辦公與生產力

根據 OpenClaw 生態應用,Claw 代理可以執行:

  • 代碼沙箱運行:自動編寫並執行 Python 腳本,完成非結構化數據的抓取與清洗
  • 跨應用自動化:通過自然語言完成複雜的多步驟工作流,例如「幫我設計一個監控面板,每天定時抓取 A 股新上市企業數據」,代理會自主規劃路徑:編寫爬蟲 → 抓取數據 → 自動修正邏輯 → 生成展示頁面
  • 辦公助手場景:寫代碼、寫文檔、處理日常流程

企業級多智能體協作

ClawGym 支持構建多智能體團隊系統,實現:

  • 多個 AI 分析師並行評估投資價值
  • 多智能體深度研究項目和趨勢分析
  • 代碼漏洞和架構質量的聯合審查

性能評估與基準測試

ClawGym-Bench 提供了 200 個真實場景的評估基準,測試代理在辦公協同、信息檢索、內容創作、數據處理等場景的表現。

Categories: 開源, Agentic, , 編程, OpenClaw


cc-switch:跨平台桌面全方位助理工具

PackyCode
farion1231/cc-switch 在GitHub上

CC Switch作為一個強大的解決方案,適用於使用各種AI驅動的命令列介面(CLI)工具如Claude Code、Codex、Gemini CLI、OpenCode和OpenClaw的開發人員和團隊。這個桌面應用程式將這些工具的管理整合到一個直觀的介面中,顯著降低了手動配置的複雜性和時間成本。對於那些經常在不同供應商之間切換或管理多個專案的用戶來說,CC Switch提供了一種簡化的方法,提升了生產力。

在開始使用CC Switch時,主要應該關注的是熟悉供應商管理功能。該應用程式預設了超過50個供應商設定檔,包括流行的選項如AWS Bedrock和NVIDIA NIM,使得只需幾次點擊即可輕鬆設置和切換不同的配置。這消除了手動編輯JSON、TOML或 .env檔案的需要,從而減少錯誤並節省時間。

實際上,CC Switch通過提供一個視覺介面運作,用戶可以在其中導入供應商、立即切換它們,並管理多個工具間的MCP和技能。系統托盤快速切換功能允許無縫過渡,無需打開整個應用程式,增強了工作流程的效率。此外,該應用程式支援通過Dropbox、OneDrive、iCloud或WebDAV伺服器等平臺進行雲端同步,確保無論使用哪種設備,配置都保持一致。

開發人員和團隊最受益於CC Switch的能力在於其能夠統一管理MCP和技能。此功能實現了四個應用程式之間的雙向同步,確保所有必要的配置都是最新的且可訪問。該應用程式還包括內建的實用工具,例如首次啟動登錄確認、簽名繞過和插件擴展同步,進一步簡化了設置過程。

然而,也有一些權衡需要考慮。雖然CC Switch大大簡化了供應商管理,但用戶必須注意對第三方服務依賴增加的潛在風險。確保這些服務可靠且安全至關重要。另外,儘管該應用程式支援廣泛的供應商,但在較不常見或新興工具中可能會出現相容性問題。用戶在完全將CC Switch整合到他們的工作流程之前,應徹底驗證相容性和功能性。

為了最大化CC Switch的好處,用戶應探索其高級功能,如本地代理熱切換、應用程式級別接管和使用追蹤。這些功能提供了對AI工具行為和性能的更深控制,使更多量身定製和高效的使用案例成為可能。通過有效利用這些功能,開發人員可以顯著提高生產力和工作流程管理。

CC Switch是尋求簡化AI驅動CLI工具管理的開發人員和團隊不可或缺的工具。其強大的功能集、易用性和跨平台相容性使其成為任何開發人員工具箱中的寶貴添加。然而,仔細考慮權衡和徹底測試相容性是確保順利整合和最佳性能的必要步驟。

Source: https://github.com/farion1231/cc-switch

Categories: 開源, Agentic, API

Page 11 of 14
1 9 10 11 12 13 14