PatRe:專利審查流程的評測專案

PatRe Logo

PatRe 是一個聚焦專利審查流程的評測專案,核心在於把任務從單次分類或抽取,推進到更貼近實務的「審查意見生成」與「申請人答辯生成」。以目前公開資訊來看,這個儲存庫主要提供的是評估與生成流程,而不只是靜態資料展示。

實際使用上,使用者需要先準備測試集路徑與參考資料池,之後可選擇只生成結果、只做評估,或限制樣本數進行小規模測試。它也支援既有結果資料夾的評分,對研究者反覆比較不同模型或提示策略會更方便。

這個專案較有意思的地方,在於它把專利審查視為多階段、互動式的文字推理工作,而不是單純預測標籤。README 也提到資料對齊流程會結合 BM25 從 reference pool 擷取相關內容,讓評測不只看模型寫得像不像,還更接近依據檢索材料進行論述的情境。

重點摘要如下:
任務設計完整:涵蓋 Office Action 與 rebuttal,不只單向生成。
評測流程彈性:可分開執行生成與評估,也能限制樣本或輪次。
資料格式務實:支援格式化 JSON 陣列,並保留舊版 JSONL 載入能力。
檢索導向:透過 reference pool 與 BM25 對齊,模擬實際審查參照依據。

若你是做法律科技、專利 NLP,或想評估大型語言模型在高約束推理場景的表現,PatRe 很值得關注。特別適合拿來比較模型在審查方與申請方兩種角色中的落差;不過目前公開說明也顯示,資料集與完整展示仍在逐步釋出,實際覆蓋範圍建議以官方後續更新為準。

Source: https://github.com/AIforIP/PatRe

Categories: 開源, Agent, 軟件

awesome-llm-mas-rl:用軌跡看懂 LLM 多代理強化學習

Six recurring LLM-MAS topologies

這個儲存庫聚焦在 LLM 多代理系統的強化學習與後訓練方法,但它的價值不只在蒐集文獻,更在於用一致的結構整理研究脈絡。相較一般 awesome list 偏向羅列連結,這個專案明顯更重視可稽核性、分類邏輯與後續分析用途。

實際使用上,讀者可以先從保留論文池與分類表快速瀏覽研究全貌,再進一步對照 CSV 與相關腳本確認統計與來源。若你正在做文獻回顧、研究選題,或想建立自己的資料集,這種「README 易讀、資料檔可驗證」的設計會比純手工整理更可靠。

它最值得注意的創新,是把 orchestration trace 當成核心組織概念:不只看單一代理的動作,而是追蹤任務分派、子代理生成、代理間通訊、工具呼叫、結果聚合、獎勵與成本等決策流程。對研究者來說,這讓多代理系統中的訓練訊號、責任歸因與系統證據更容易被明確描述,也更接近真實工作流。

  • 收錄 84 筆保留文獻,並附 32 筆排除紀錄,研究邊界相對清楚
  • 提供 JSON Schema、範例 trace 與無相依驗證器,方便檢查資料格式
  • 涵蓋 reward、credit design、benchmark、安全性與系統證據等面向
  • 適合用來建立文獻地圖,而不只是當作連結書籤

整體來看,這個專案最適合研究 LLM agent、multi-agent orchestration、RL 訓練流程的人使用,特別是需要整理證據鏈與實驗描述的學術或工程團隊。若你只是想找熱門論文,它可能稍微學術;但若你在意研究可重現性與結構化分析,這份資源相當有參考價值。

Source: https://github.com/xxzcc/awesome-llm-mas-rl

Categories: 編程

iWorld-Bench:互動世界模型評測新基準

iWorld-Bench Overview

iWorld-Bench 是一個面向互動式世界模型的基準測試,目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出,它提供 33 萬段影片資料、4,900 個測試任務,以及 9 項綜合指標,用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上,研究者可把不同類型的世界模型接到其統一的 Action Generation Framework,將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較,以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新,在於把原本互動形式不一致的世界模型拉到同一套評估框架中,並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估,iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力,以及跨場景與全天候適應性。

  • 提供 33 萬段影片與 4,900 個測試任務
  • 以統一動作生成框架比較不同互動世界模型
  • 評測重點涵蓋視覺生成、軌跡跟隨與記憶能力
  • 支援多模態輸入、多視角、多場景與全天候條件
  • 已用於評估 14 個具代表性的世界模型

從應用角度看,會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練,以及需要互動式環境建模的研究。性能與評估方面,網站明確表示其以 9 項指標檢驗 14 個代表性模型,並指出現有方法仍有侷限;但由於論文、程式碼、資料集與排行榜尚未公開,部分細節仍需等待正式發布確認。

模型列表:文中僅提到共評估 14 個代表性世界模型,頁面內容未列出具體名稱。

Categories: 視覺模型, 世界模型, AGI

Google Cloud 推出企業級 AI 代理平台

Og image

Google Cloud 發表 Gemini Enterprise Agent Platform,定位為建置、擴展、治理與最佳化 AI 代理的企業平台。它可視為 Vertex AI 的延伸,將模型選擇、模型建置與代理建置能力整合,並補上代理整合、DevOps、協作編排與安全治理等企業所需環節。

實際使用上,技術團隊可在同一平台內建立代理,讓其連接多個企業系統,並透過 Gemini Enterprise app 提供給員工使用。這種做法有助於讓代理更貼近日常工作流程,同時維持 IT 部門對權限、治理與安全的控管。

這個專案的主要創新,在於把過去分散的模型開發、代理建構與營運管理集中到單一入口,降低跨系統導入代理的複雜度。文中也強調平台提供超過 200 個模型的存取能力,包含 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3 與 Gemma 4,讓企業能依任務需求選擇合適模型。

  • 整合 Vertex AI 既有能力與新的代理治理功能
  • 支援代理整合、DevOps、編排與安全控管
  • 可透過 Gemini Enterprise app 將代理交付給員工使用
  • 提供 Model Garden 存取超過 200 個模型

受惠工作預期包括企業內部工具開發、營運自動化、客服支援、知識工作協作與跨系統流程串接。就目前頁面內容來看,文章著重平台定位與能力整合,尚未提供具體效能數據或正式評測結果,因此較適合將其視為企業代理基礎設施與治理框架的產品發布,而非已完整公開基準測試的技術報告。

模型列表:Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4。

Categories: Google, Gemini, Agent

ARIS 讓 AI 研究流程可實戰觀察

ARIS-Code CLI

ARIS 是一套面向研究工作的代理流程框架,核心不是單純自動生成內容,而是把想法探索、實驗執行、論文撰寫與回覆審稿意見串成可反覆檢查的工作鏈。它可作為 Claude Code、Cursor、Trae 的技能式工作流使用,也提供獨立 CLI,較適合需要長時間、跨階段協作的研究專案。

實際使用上,較合理的方式是把它視為研究助理編排層:先做 idea discovery,再接 experiment bridge、auto review loop、paper writing 與 rebuttal。專案特別強調跨模型家族的執行者與審查者分工;若需要特定模型,文件中明確提到可搭配 GPT-5.4 作為 reviewer,部分引用稽核流程也會透過 Codex MCP 路由使用 gpt-5.4。

這個專案最有辨識度的創新,在於它把「證據到主張」的驗證做成系統層能力,而不是最後才人工補救。除了實驗結果到論文敘述的對照,近期又補上 /citation-audit,檢查引用是否存在、書目資料是否正確,以及最重要的:被引用文獻是否真的支持當前論點,這比只查 BibTeX 完整度更實際。

另一個值得肯定的部分是工程細節相對務實。像技能安裝機制曾修正為扁平化佈局,避免 Claude Code 無法發現巢狀技能;Overleaf 同步則透過官方 Git bridge 串接,並把權杖隔離在 macOS Keychain,降低代理直接接觸憑證的風險。這些設計顯示作者關注的不只是功能數量,也包含可維護性與失敗復原。

  • 適合對象:需要長鏈研究流程、反覆修改論文、重視可追溯性的使用者
  • 主要價值:把審查、證據核對、引用稽核嵌入研究流程,而非事後補做
  • 實用亮點:研究 wiki、技能式工作流、審稿回合、自動論文改善與 rebuttal 支援
  • 理想場景:機器學習論文撰寫、實驗驅動研究、多人協作且需同步 Overleaf 的團隊

整體來看,ARIS 比較像研究流程的「治理框架」,不是一鍵產出論文的捷徑。若你的需求是提高研究代理的可靠性、保留脈絡並減少論點失真,它提供了相當完整而且偏嚴謹的路線;但若只想快速生成初稿,這套系統可能會顯得偏重。

Source: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

Categories: 開源, Agent

Healthcare_GYM:醫療代理訓練場

Repository image for minstar/Healthcare_GYM

Healthcare_GYM 是一個相容 Gymnasium 的醫療 AI 訓練環境,核心目的不是單純問答,而是讓代理在多回合流程中學會查資料、呼叫工具並完成臨床任務。它涵蓋 10 個臨床領域、3,600 多個任務與 135 個專用工具,並把 82.8 萬筆醫療段落納入可檢索知識庫。

實際使用上,它比較像給研究團隊的「醫療代理測試場」。若你已經有強化學習流程,就能透過標準的環境互動介面,把代理接到任務、工具呼叫與回饋函數上,觀察模型在臨床推理、資訊檢索與多步驟決策中的表現。

這個專案最值得注意的創新,是提出 TT-OPD 這套多回合代理式 RL 的自蒸餾方法。從說明來看,作者認為 teacher 會隨學生探索而逐漸過時,因此蒸餾價值主要集中在訓練前期,並以 EMA 教師與週期性硬同步控制師生偏移,而不是長期依賴固定 teacher。

從結果來看,它在 18 個基準中的 10 個拿到最佳成績,平均比非 RL 的代理基線高出約 3.9 個百分點。不過資料也顯示,代理式評估未必在所有知識回憶型任務都占優,代表這套框架更適合需要檢索、工具操作與多步推理的情境,而不是只比裸模型記憶能力。

  • 重點摘要
  • 支援多回合臨床工具使用,不只是靜態醫療問答。
  • 知識來源包含 PubMed 摘要、臨床指引與醫學教科書。
  • 以 BM25 檢索 82.8 萬筆醫療段落,工具呼叫直接納入動作空間。
  • TT-OPD 以 EMA teacher 與分階段淡出蒸餾來穩定訓練。
  • README 指出實驗使用 Qwen3.5-9B 骨幹模型。

整體而言,Healthcare_GYM 最適合醫療代理、臨床決策輔助研究、RAG 結合工具使用的 RL 訓練,以及需要比較不同代理策略的學術實驗。若你的目標是建立可重現的醫療 agent benchmark,這個專案提供的環境設計與訓練觀點都相當有參考價值。

Source: https://github.com/minstar/Healthcare_GYM

Categories: Medical醫學

X2SAM把影像與影片分割整合成單一模型

HuggingFace

X2SAM 是一個統一式分割多模態大型語言模型,目標是把影像中的「任意分割」能力延伸到影片。它結合 LLM、Vision Encoder、Mask Encoder、Mask Decoder 與 Mask Memory,讓模型不只理解畫面內容,還能依照對話指令或視覺提示產生像素級遮罩。

實際使用上,X2SAM 可同時接受對話式文字指令視覺提示,適合需要指定目標、追蹤物件或互動修正結果的情境。官方描述指出,它支援 generic、open-vocabulary、referring、reasoning、grounded conversation generation、interactive 與 visual grounded segmentation,代表使用者可用較自然的方式提出分割需求,而不必侷限於單一輸入形式。

這個專案的主要創新,在於用單一介面整合影像與影片分割,並以 Mask Memory 儲存受引導的視覺特徵,改善影片中跨時間的遮罩一致性。此外,作者也提出 V-VGD(Video Visual Grounded) 分割基準,用來評估模型是否能根據互動式視覺提示,在影片中分割並追蹤物件。

  • 統一支援影像與影片分割,而非只專注單一媒體
  • 同時支援文字指令與視覺提示輸入
  • 透過 Mask Memory 強化影片遮罩的時序一致性
  • 提出 V-VGD 基準補足影片視覺定位分割評估
  • 採用異質影像與影片資料的聯合訓練策略

從工作應用來看,這類系統可望受惠於影片內容理解、互動式標註、智慧剪輯、視覺助理與多模態人機互動等任務。性能方面,原文表示 X2SAM 在影片分割上達到強勁表現,對影像分割基準仍具競爭力,並保留一般影像與影片聊天能力;不過此頁面未完整列出具體數值,因此解讀上仍應以論文與實驗表格為準。

模型列表:LLM、SAM 系列

Categories: 開源, 影像模型, 影像處理

SplAttN:用可微分投影補強點雲補全的關鍵一環

SplAttN logo

SplAttN 是一個面向影像引導點雲補全(Point Cloud Completion)的 PyTorch 研究專案,核心目標是讓稀疏的 3D 幾何與 2D 視覺先驗之間,維持可學習且可微分的連結。它對準的問題很明確:傳統把點雲硬式投影到影像平面後,往往只留下過度稀疏的對應訊號,導致影像資訊難以有效影響補全結果。

這個方法的亮點,在於以 Differentiable Gaussian Splatting 取代硬投影,將稀疏投影點轉成較連續、較稠密的影像平面表示,再透過注意力機制融合幾何特徵與視覺特徵。從論文描述來看,這不只是提升表現的工程技巧,更是在處理多模態學習中「影像到底有沒有真的被用上」的核心問題。

值得注意的是,SplAttN 還加入了反事實評估觀點,檢查模型是否真的依賴視覺線索,而不是把影像當成可有可無的附加輸入。README 提到它在 PCN、ShapeNet-55/34 與 KITTI 上做了驗證,並宣稱在部分基準上達到先進水準;其中 KITTI 被當作壓力測試,這點對評估真實場景泛化特別有參考價值。

重點摘要:
– 以可微分 Gaussian splatting 改善 2D 與 3D 的訊號連接
– 用注意力融合影像與幾何特徵,強化跨模態依賴學習
– 強調反事實評估,而非只看最終分數高低
– 提供官方 PyTorch 實作,適合研究重現與延伸

實際使用上,這個專案最適合拿來做多模態點雲補全研究、模型重現、方法比較,尤其適合想分析影像訊號在 3D 任務中是否真正發揮作用的研究者。若你的工作聚焦在 3D 視覺、自动駕駛感知或學術實驗設計,SplAttN 的價值不只在結果,還在它對跨模態連結機制提出了更可檢驗的做法。

Source: https://github.com/zay002/SplAttN

Categories: 開源, 3D, 模型

CWM (Code World Model) 32B – Meta 開源編程模型

Meta FAIR 的「Code World Model (CWM)」是一個 32B 參數、專門為「帶世界模型的程式碼生成研究」設計的開放權重 LLM。它的關鍵點是:不只學 code syntax,而是透過大量「執行軌跡」去內化程式執行對系統狀態的影響,並在多任務 RL 下強化 agentic coding 能力。


CWM 是什麼?

  • CWM(Code World Model)是一個 32 億參數(32B)、dense、decoder‑only 的 Transformer LLM,主要面向程式碼生成與程式相關推理。
  • 它被設計成「世界模型式」的 code LLM:不只預測下一個 token,而是學會在腦中「模擬程式執行過程」及其對環境狀態的影響。
  • 官方目標是提供一個強大的開放權重 testbed,讓研究者探索「世界模型 + agentic reasoning/planning」如何提升程式碼生成與軟體工程工作流。

訓練流程與 world modeling 設計

CWM 的訓練 pipeline 不是單純「pretrain → SFT」,而是刻意插入 world‑model mid‑training,再加上多任務 RL:

  • 前期:先在一般語言與程式碼資料上做大規模預訓練,建立廣泛的語言、程式知識基礎。
  • Mid‑training(世界模型核心):
    • 在大量「observation‑action 軌跡」上進一步訓練,這些軌跡來自 Python interpreter 執行 trace,以及在 Docker container 中以 agent 方式操作系統的互動紀錄。
    • 這類資料讓模型看到「程式片段/指令 → 執行過程 → 輸出與系統狀態變化」,等於學習一個對應「code → world dynamics」的隱式世界模型。
  • 後期 post‑training:
    • 先進行 supervised fine‑tuning,引入明確的 reasoning format、step‑by‑step 推理風格等標註資料。
    • 再用 multi‑task RL(文中提到使用 GRPO 類型方法)在可驗證的 coding 任務、數學問題、多輪軟體工程環境中進行強化學習,reward 來自於測試通過率、解答正確與任務完成度。

這種設計的重點是:讓 RL 是「從已經具備世界模型的基底」開始,而不是只在純 token LLM 上做 RL,理論上比較容易學到長程規劃與工具使用策略。


模型架構與上下文長度

  • CWM 是一個 64 層的 decoder‑only Transformer,採用現代 LLM 常見配置(例如 RoPE 位置編碼、SwiGLU FFN、GQA 等)。
  • 參數規模為 32B,詞彙表約 128k token,明顯針對大型 codebase 與多語言程式碼場景設計。
  • 上下文長度最高達約 131k tokens,可容納整個專案、多檔案上下文與長程互動軌跡。
  • 為了處理這種長上下文,它使用「交錯式注意力」:
    • 多數層採局部 attention(例如 8,192 token 視窗),每隔數層插入一次 global/sliding attention 層可以看到完整 131k 上下文,文中描述比率約為 3:1。
    • 這樣的設計在計算量可控的前提下,仍能在多層中“刷新”全局資訊,對閱讀大型 codebase 與長對話 debugging 特別有利。

基準測試成績

在多個開源 benchmark 上,CWM 以 32B 級別達到非常有競爭力甚至 SOTA 的表現:

  • SWE‑bench Verified:pass@1 約 53.9%(不做 test‑time scaling),在採用 test‑time scaling 後可達約 65.8%。
  • LiveCodeBench:v5 約 68.6,v6 約 63.5(pass@1)。
  • 數學與推理:
    • Math‑500 約 96.6%。
    • AIME 2024 約 76.0%。
    • CruxEval Output 約 94.3%。
  • 論文與解讀都提到:在同等或相近參數規模的開放權重 LLM 中,CWM 在一般 coding 與更 agentic 的軟體工程任務上都具有「best‑in‑class」水準,甚至接近或追平一些封閉大模型。

對你這種做 RAG / agent / tools‑calling 工作流的人來說,這顆模型的亮點其實是「在環境中操作和修 bug 的能力」,而不只是單輪 code completion 分數。


權重釋出與取得方式

  • Meta 以「開放權重」形式釋出 CWM,提供多個 checkpoint:
    • mid‑training 後的 world‑model 版本。
    • SFT 後版本。
    • RL 後完整版。
      方便研究者分析各階段對能力的影響。
  • 社群整理指出,CWM 權重目前在 GitHub 與 Hugging Face 上提供,包含 transformers 版權重與推理程式碼;Meta 採用自家訂定的 open‑weights 授權條款,主要定位在研究用途,具體使用限制需看 AI at Meta 官方頁與 HF model card 條款。
  • Hugging Face transformers 已內建 CwmForCausalLM 與對應 tokenizer。

與一般 code LLM 的本質差異

和傳統只在「靜態 code corpora + 少量程式執行資料」上訓練的 code LLM 相比,CWM 的幾個關鍵差異:

  • 訓練核心是「大量程式執行與 agent interaction 的軌跡」,把「程式 → 執行 → 狀態變化」當成序列學習對象,形成隱式世界模型,而不只是 code token 統計模型。
  • RL 設計是圍繞「可驗證結果」(例如測試通過、問題解答正確、多輪任務完成),而不僅是人類偏好/指令跟從,這對長程規劃與工具調度尤其重要。
  • 長上下文 + 交錯 attention 讓模型可以在一次推理中讀完整個 repo、ticket 歷史與多輪 log,這是很多傳統 code LLM 現階段比較薄弱的地方。
Categories: 模型, 編程

ComboStoc 擴散模型訓練更快的關鍵

ComboStoc samples

ComboStoc 是一個針對擴散生成模型訓練流程的研究型實作,核心目標不是換掉整個模型架構,而是修正既有訓練對「組合式結構」取樣不足的問題。這個版本以 PyTorch 為主,提供影像擴散模型、訓練腳本,以及預訓練權重,定位相當明確:拿來驗證論文方法,也適合已有 SiT 或相近擴散管線的人直接比較。

這個專案真正有辨識度的地方,在於它不再把整筆資料視為同步走在同一個 diffusion timestep。相反地,它讓不同維度、patch,甚至可能的屬性使用非同步時間步,藉此更完整覆蓋高維資料中的組合空間;這也是它和一般只調 loss、scheduler 或採樣器的做法最不一樣之處。

實務上,它延續 SiT 風格的實作思路,並提供基於 PyTorch DDP 的訓練流程,代表它不是紙上談兵,而是可在分散式訓練中直接測試。推論端也不只是在既有 checkpoint 上出圖,還能利用非同步時間步做更細緻的控制;若參考論文描述,這種機制對局部條件控制或結構化生成尤其有意義。

最能受益的族群,會是正在研究影像生成、擴散模型訓練效率,或需要面對高度結構化資料的人。若你關心的是更快收斂、較低 FID,或想把相同模型延伸到更有屬性組合複雜度的任務,這個專案值得細看;至於 3D structured shape 的完整程式,儲存庫目前看來仍是後續補上。

  • 特色在於非同步 diffusion timestep,不是單純更換 backbone
  • PyTorch 實作,並提供 DDP 訓練腳本
  • 已附預訓練的 ComboStoc-XL-2 權重,可直接做採樣比較
  • 適合拿來研究高維資料中組合複雜度對生成品質的影響

Source: https://github.com/Xrvitd/ComboStoc

Categories: 開源, 香港大學, 影像模型, 模型

Page 1 of 72
1 2 3 72