HERMESV2:把3D理解與未來預測合而為一的自駕世界模型

HERMES++ overview

HERMES++是一個面向自動駕駛的統一世界模型,核心目標不是只做未來場景生成,而是同時處理3D場景理解未來幾何預測。這點很關鍵,因為多數方法通常偏重其中一端,導致語意理解與物理演化之間仍有落差。

實際使用上,它比較適合拿來當研究型框架:先把多視角輸入整理成BEV表示,再讓模型在共享表示上同時回答當前場景理解任務,並推估未來幾何變化。若團隊正在做自駕感知、模擬預測或世界模型整合,這種設計能減少分散建模的成本。

這個專案最有意思的創新,在於把適合語意推理的資訊與幾何演化需求接起來。它透過BEV token承接多視角空間資訊,再加入LLM-enhanced world queriesCurrent-to-Future LinkJoint Geometric Optimization,讓目前場景語意能更自然地影響未來結構生成。

重點摘要如下:
– 以單一框架同時支援3D理解與未來點雲/幾何預測
– 使用BEV表示壓縮多視角輸入,保留較一致的空間結構
– 透過語言推理增強的world queries傳遞語意與世界知識
– 用幾何顯式與隱式約束提升未來場景結構一致性

若從應用場景來看,HERMES++最適合用在需要「理解現在、推演未來」的自駕研究,例如未來場景模擬、感知與預測聯合建模,或作為下游規劃系統的前端世界表徵。README與專案頁面顯示它在多個基準上有不錯表現,但若要評估實務部署價值,仍建議進一步確認推論成本、資料需求與特定任務設定。

如需特定模型,專案內容明確提到會結合大型語言模型(LLMs)進行語意知識轉移;不過實際採用的基礎模型細節,從目前提供資訊中不宜過度推定。整體而言,這不是入門型套件,而是一個相當有研究含量、試圖打通理解與生成邊界的自駕世界模型方案。

Source: https://github.com/H-EmbodVis/HERMESV2

Categories: 開源, 香港大學, 影像處理, 世界模型

CoE – Chain of Evidence 看得見證據鏈的 RAG

Repository image for PeiYangLiu/CoE

CoE 是一個面向迭代式 RAG 的視覺歸因框架,重點不是只回答問題,而是把「答案怎麼來」具體標在文件截圖上。它接受問題與前 5 筆候選文件,接著排序出證據鏈、框出支撐區域,最後產生答案,讓多跳推理不再只停留在文件層級引用。

實際使用上,這個專案比較像研究型工具鏈:可先準備 Wiki-CoE 或 SlideVQA 資料,再依兩階段流程訓練,最後用評估與視覺化模組檢查框選結果。若只想快速體驗,儲存庫也提供已訓練檢查點;需特定模型時,專案明確是以 Qwen3-VL-8B-Instruct 為核心封裝。

它最有價值的地方,在於直接對文件畫面推理,而非先把 PDF、網頁或投影片硬轉成線性文字。這種做法能保留版面、表格、資訊圖與視覺關係,對投影片、複雜網頁或含圖表文件尤其重要,也回應了傳統文字式 RAG 難以精準驗證來源的位置問題。

重點摘要:
– 支援多跳證據排序,不只找單一片段
– 以邊界框標示像素級證據區域
– 採兩階段課程式訓練,先定位再推理
– 提供 Wiki-CoE 資料集與 8B 檢查點
– 評估涵蓋答案正確率與定位、證據鏈表現

若你的需求是法務、金融、研究助理或企業知識庫這類必須追溯依據的問答系統,CoE 的方向很有參考價值。相較一般只附引用來源的 RAG,它更像把驗證流程前移;不過目前整體形態仍偏研究與實驗環境,較適合拿來做方法評估、原型驗證與高可解釋性場景測試。

Source: https://github.com/PeiYangLiu/CoE

Categories: 開源, Agent,

paperclip:用任務管理思維駕馭 AI 團隊

Paperclip — runs your business

當團隊開始同時使用多個 AI 代理時,真正的瓶頸通常不是模型能力,而是協作失序。Paperclip 的定位很清楚:它不是再做一個代理本身,而是提供一個以 Node.js 伺服器與 React 介面組成的控制平面,讓使用者把不同來源的代理集中管理,並用公司、專案、目標與任務的層級來分派工作。若以一句話概括,它更像是「替 AI 團隊設計的營運系統」,而不是單純的自動化腳本集合。

實際使用上,這個專案適合已經有多個代理在運作的人,例如同時讓 Claude Code、Codex、Cursor 類型工具或 HTTP/CLI 代理各自負責開發、支援、行銷或例行工作。使用流程不是盯著一堆終端機,而是先定義公司目標與專案脈絡,再建立角色、指派任務、設定預算與批准機制,最後透過儀表板追蹤進度、成本與稽核紀錄。對想要讓代理 24 小時運作,但又不希望完全失控的團隊而言,這種「可放手、也可介入」的操作模式很實際。

Paperclip 最有意思的創新,在於它把企業治理概念直接帶進代理協作。README 提到的心跳排程、任務鎖定、持久狀態、預算硬限制、審批與回滾、以及多公司資料隔離,顯示它處理的是多代理系統中最麻煩的邊角問題,而不是只包一層漂亮 UI。尤其「每個任務都能追溯到上層目標」這件事,很適合避免代理只看見局部指令、卻看不見整體方向的常見缺陷;加上對話、工具呼叫與決策都有可追蹤紀錄,也讓後續檢討與合規更有依據。

  • 可整合多種代理執行環境,重點在協調而非綁定單一工具
  • 以組織圖、任務單、排程與預算管理多代理長時間運作
  • 提供完整稽核軌跡,方便人工覆核、追責與成本回顧
  • 支援單一部署管理多家公司,資料隔離是設計核心之一
  • 適合代理數量已經很多、需要正式管理流程的進階使用者

若從應用場景來看,Paperclip 最適合三類需求。第一是小型自動化公司或個人創業者,希望把開發、內容、客服與營運工作交給不同代理分工;第二是 AI 原生團隊,需要把多個代理當成部門成員來協調,而不是各自獨立跑任務;第三是想做內部實驗平台的技術團隊,想測試代理編制、預算政策與治理流程的實際效果。相對地,如果你只有單一代理、任務量也不大,這套系統可能顯得過重,因為它的價值建立在「代理很多、工作持續、成本要控、流程要查」的前提上。

整體來看,Paperclip 評價不在於它幫你生出更強的模型,而在於它把代理工作從零散的個人工具,提升成可管理的組織流程。這種產品思路相當少見,也切中多代理實務的痛點:工作不重複、上下文不遺失、費用不暴衝、責任可追蹤。若你目前已經感受到多代理協作帶來的管理負擔,這個專案值得深入研究;但若仍停留在單一聊天視窗的使用階段,可能還不需要這麼完整的控制層。

Source: https://github.com/paperclipai/paperclip

Categories: 開源, Agent, , OpenClaw

PatRe:專利審查流程的評測專案

PatRe Logo

PatRe 是一個聚焦專利審查流程的評測專案,核心在於把任務從單次分類或抽取,推進到更貼近實務的「審查意見生成」與「申請人答辯生成」。以目前公開資訊來看,這個儲存庫主要提供的是評估與生成流程,而不只是靜態資料展示。

實際使用上,使用者需要先準備測試集路徑與參考資料池,之後可選擇只生成結果、只做評估,或限制樣本數進行小規模測試。它也支援既有結果資料夾的評分,對研究者反覆比較不同模型或提示策略會更方便。

這個專案較有意思的地方,在於它把專利審查視為多階段、互動式的文字推理工作,而不是單純預測標籤。README 也提到資料對齊流程會結合 BM25 從 reference pool 擷取相關內容,讓評測不只看模型寫得像不像,還更接近依據檢索材料進行論述的情境。

重點摘要如下:
任務設計完整:涵蓋 Office Action 與 rebuttal,不只單向生成。
評測流程彈性:可分開執行生成與評估,也能限制樣本或輪次。
資料格式務實:支援格式化 JSON 陣列,並保留舊版 JSONL 載入能力。
檢索導向:透過 reference pool 與 BM25 對齊,模擬實際審查參照依據。

若你是做法律科技、專利 NLP,或想評估大型語言模型在高約束推理場景的表現,PatRe 很值得關注。特別適合拿來比較模型在審查方與申請方兩種角色中的落差;不過目前公開說明也顯示,資料集與完整展示仍在逐步釋出,實際覆蓋範圍建議以官方後續更新為準。

Source: https://github.com/AIforIP/PatRe

Categories: 開源, Agent, 軟件

awesome-llm-mas-rl:用軌跡看懂 LLM 多代理強化學習

Six recurring LLM-MAS topologies

這個儲存庫聚焦在 LLM 多代理系統的強化學習與後訓練方法,但它的價值不只在蒐集文獻,更在於用一致的結構整理研究脈絡。相較一般 awesome list 偏向羅列連結,這個專案明顯更重視可稽核性、分類邏輯與後續分析用途。

實際使用上,讀者可以先從保留論文池與分類表快速瀏覽研究全貌,再進一步對照 CSV 與相關腳本確認統計與來源。若你正在做文獻回顧、研究選題,或想建立自己的資料集,這種「README 易讀、資料檔可驗證」的設計會比純手工整理更可靠。

它最值得注意的創新,是把 orchestration trace 當成核心組織概念:不只看單一代理的動作,而是追蹤任務分派、子代理生成、代理間通訊、工具呼叫、結果聚合、獎勵與成本等決策流程。對研究者來說,這讓多代理系統中的訓練訊號、責任歸因與系統證據更容易被明確描述,也更接近真實工作流。

  • 收錄 84 筆保留文獻,並附 32 筆排除紀錄,研究邊界相對清楚
  • 提供 JSON Schema、範例 trace 與無相依驗證器,方便檢查資料格式
  • 涵蓋 reward、credit design、benchmark、安全性與系統證據等面向
  • 適合用來建立文獻地圖,而不只是當作連結書籤

整體來看,這個專案最適合研究 LLM agent、multi-agent orchestration、RL 訓練流程的人使用,特別是需要整理證據鏈與實驗描述的學術或工程團隊。若你只是想找熱門論文,它可能稍微學術;但若你在意研究可重現性與結構化分析,這份資源相當有參考價值。

Source: https://github.com/xxzcc/awesome-llm-mas-rl

Categories: 編程

iWorld-Bench:互動世界模型評測新基準

iWorld-Bench Overview

iWorld-Bench 是一個面向互動式世界模型的基準測試,目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出,它提供 33 萬段影片資料、4,900 個測試任務,以及 9 項綜合指標,用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上,研究者可把不同類型的世界模型接到其統一的 Action Generation Framework,將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較,以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新,在於把原本互動形式不一致的世界模型拉到同一套評估框架中,並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估,iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力,以及跨場景與全天候適應性。

  • 提供 33 萬段影片與 4,900 個測試任務
  • 以統一動作生成框架比較不同互動世界模型
  • 評測重點涵蓋視覺生成、軌跡跟隨與記憶能力
  • 支援多模態輸入、多視角、多場景與全天候條件
  • 已用於評估 14 個具代表性的世界模型

從應用角度看,會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練,以及需要互動式環境建模的研究。性能與評估方面,網站明確表示其以 9 項指標檢驗 14 個代表性模型,並指出現有方法仍有侷限;但由於論文、程式碼、資料集與排行榜尚未公開,部分細節仍需等待正式發布確認。

模型列表:文中僅提到共評估 14 個代表性世界模型,頁面內容未列出具體名稱。

Categories: 視覺模型, 世界模型, AGI

Google Cloud 推出企業級 AI 代理平台

Og image

Google Cloud 發表 Gemini Enterprise Agent Platform,定位為建置、擴展、治理與最佳化 AI 代理的企業平台。它可視為 Vertex AI 的延伸,將模型選擇、模型建置與代理建置能力整合,並補上代理整合、DevOps、協作編排與安全治理等企業所需環節。

實際使用上,技術團隊可在同一平台內建立代理,讓其連接多個企業系統,並透過 Gemini Enterprise app 提供給員工使用。這種做法有助於讓代理更貼近日常工作流程,同時維持 IT 部門對權限、治理與安全的控管。

這個專案的主要創新,在於把過去分散的模型開發、代理建構與營運管理集中到單一入口,降低跨系統導入代理的複雜度。文中也強調平台提供超過 200 個模型的存取能力,包含 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3 與 Gemma 4,讓企業能依任務需求選擇合適模型。

  • 整合 Vertex AI 既有能力與新的代理治理功能
  • 支援代理整合、DevOps、編排與安全控管
  • 可透過 Gemini Enterprise app 將代理交付給員工使用
  • 提供 Model Garden 存取超過 200 個模型

受惠工作預期包括企業內部工具開發、營運自動化、客服支援、知識工作協作與跨系統流程串接。就目前頁面內容來看,文章著重平台定位與能力整合,尚未提供具體效能數據或正式評測結果,因此較適合將其視為企業代理基礎設施與治理框架的產品發布,而非已完整公開基準測試的技術報告。

模型列表:Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4。

Categories: Google, Gemini, Agent

ARIS 讓 AI 研究流程可實戰觀察

ARIS-Code CLI

ARIS 是一套面向研究工作的代理流程框架,核心不是單純自動生成內容,而是把想法探索、實驗執行、論文撰寫與回覆審稿意見串成可反覆檢查的工作鏈。它可作為 Claude Code、Cursor、Trae 的技能式工作流使用,也提供獨立 CLI,較適合需要長時間、跨階段協作的研究專案。

實際使用上,較合理的方式是把它視為研究助理編排層:先做 idea discovery,再接 experiment bridge、auto review loop、paper writing 與 rebuttal。專案特別強調跨模型家族的執行者與審查者分工;若需要特定模型,文件中明確提到可搭配 GPT-5.4 作為 reviewer,部分引用稽核流程也會透過 Codex MCP 路由使用 gpt-5.4。

這個專案最有辨識度的創新,在於它把「證據到主張」的驗證做成系統層能力,而不是最後才人工補救。除了實驗結果到論文敘述的對照,近期又補上 /citation-audit,檢查引用是否存在、書目資料是否正確,以及最重要的:被引用文獻是否真的支持當前論點,這比只查 BibTeX 完整度更實際。

另一個值得肯定的部分是工程細節相對務實。像技能安裝機制曾修正為扁平化佈局,避免 Claude Code 無法發現巢狀技能;Overleaf 同步則透過官方 Git bridge 串接,並把權杖隔離在 macOS Keychain,降低代理直接接觸憑證的風險。這些設計顯示作者關注的不只是功能數量,也包含可維護性與失敗復原。

  • 適合對象:需要長鏈研究流程、反覆修改論文、重視可追溯性的使用者
  • 主要價值:把審查、證據核對、引用稽核嵌入研究流程,而非事後補做
  • 實用亮點:研究 wiki、技能式工作流、審稿回合、自動論文改善與 rebuttal 支援
  • 理想場景:機器學習論文撰寫、實驗驅動研究、多人協作且需同步 Overleaf 的團隊

整體來看,ARIS 比較像研究流程的「治理框架」,不是一鍵產出論文的捷徑。若你的需求是提高研究代理的可靠性、保留脈絡並減少論點失真,它提供了相當完整而且偏嚴謹的路線;但若只想快速生成初稿,這套系統可能會顯得偏重。

Source: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

Categories: 開源, Agent

Healthcare_GYM:醫療代理訓練場

Repository image for minstar/Healthcare_GYM

Healthcare_GYM 是一個相容 Gymnasium 的醫療 AI 訓練環境,核心目的不是單純問答,而是讓代理在多回合流程中學會查資料、呼叫工具並完成臨床任務。它涵蓋 10 個臨床領域、3,600 多個任務與 135 個專用工具,並把 82.8 萬筆醫療段落納入可檢索知識庫。

實際使用上,它比較像給研究團隊的「醫療代理測試場」。若你已經有強化學習流程,就能透過標準的環境互動介面,把代理接到任務、工具呼叫與回饋函數上,觀察模型在臨床推理、資訊檢索與多步驟決策中的表現。

這個專案最值得注意的創新,是提出 TT-OPD 這套多回合代理式 RL 的自蒸餾方法。從說明來看,作者認為 teacher 會隨學生探索而逐漸過時,因此蒸餾價值主要集中在訓練前期,並以 EMA 教師與週期性硬同步控制師生偏移,而不是長期依賴固定 teacher。

從結果來看,它在 18 個基準中的 10 個拿到最佳成績,平均比非 RL 的代理基線高出約 3.9 個百分點。不過資料也顯示,代理式評估未必在所有知識回憶型任務都占優,代表這套框架更適合需要檢索、工具操作與多步推理的情境,而不是只比裸模型記憶能力。

  • 重點摘要
  • 支援多回合臨床工具使用,不只是靜態醫療問答。
  • 知識來源包含 PubMed 摘要、臨床指引與醫學教科書。
  • 以 BM25 檢索 82.8 萬筆醫療段落,工具呼叫直接納入動作空間。
  • TT-OPD 以 EMA teacher 與分階段淡出蒸餾來穩定訓練。
  • README 指出實驗使用 Qwen3.5-9B 骨幹模型。

整體而言,Healthcare_GYM 最適合醫療代理、臨床決策輔助研究、RAG 結合工具使用的 RL 訓練,以及需要比較不同代理策略的學術實驗。若你的目標是建立可重現的醫療 agent benchmark,這個專案提供的環境設計與訓練觀點都相當有參考價值。

Source: https://github.com/minstar/Healthcare_GYM

Categories: Medical醫學

X2SAM把影像與影片分割整合成單一模型

HuggingFace

X2SAM 是一個統一式分割多模態大型語言模型,目標是把影像中的「任意分割」能力延伸到影片。它結合 LLM、Vision Encoder、Mask Encoder、Mask Decoder 與 Mask Memory,讓模型不只理解畫面內容,還能依照對話指令或視覺提示產生像素級遮罩。

實際使用上,X2SAM 可同時接受對話式文字指令視覺提示,適合需要指定目標、追蹤物件或互動修正結果的情境。官方描述指出,它支援 generic、open-vocabulary、referring、reasoning、grounded conversation generation、interactive 與 visual grounded segmentation,代表使用者可用較自然的方式提出分割需求,而不必侷限於單一輸入形式。

這個專案的主要創新,在於用單一介面整合影像與影片分割,並以 Mask Memory 儲存受引導的視覺特徵,改善影片中跨時間的遮罩一致性。此外,作者也提出 V-VGD(Video Visual Grounded) 分割基準,用來評估模型是否能根據互動式視覺提示,在影片中分割並追蹤物件。

  • 統一支援影像與影片分割,而非只專注單一媒體
  • 同時支援文字指令與視覺提示輸入
  • 透過 Mask Memory 強化影片遮罩的時序一致性
  • 提出 V-VGD 基準補足影片視覺定位分割評估
  • 採用異質影像與影片資料的聯合訓練策略

從工作應用來看,這類系統可望受惠於影片內容理解、互動式標註、智慧剪輯、視覺助理與多模態人機互動等任務。性能方面,原文表示 X2SAM 在影片分割上達到強勁表現,對影像分割基準仍具競爭力,並保留一般影像與影片聊天能力;不過此頁面未完整列出具體數值,因此解讀上仍應以論文與實驗表格為準。

模型列表:LLM、SAM 系列

Categories: 開源, 影像模型, 影像處理

Page 1 of 73
1 2 3 73