InferNews

PatRe：專利審查流程的評測專案

PatRe 是一個聚焦專利審查流程的評測專案，核心在於把任務從單次分類或抽取，推進到更貼近實務的「審查意見生成」與「申請人答辯生成」。以目前公開資訊來看，這個儲存庫主要提供的是評估與生成流程，而不只是靜態資料展示。

實際使用上，使用者需要先準備測試集路徑與參考資料池，之後可選擇只生成結果、只做評估，或限制樣本數進行小規模測試。它也支援既有結果資料夾的評分，對研究者反覆比較不同模型或提示策略會更方便。

這個專案較有意思的地方，在於它把專利審查視為多階段、互動式的文字推理工作，而不是單純預測標籤。README 也提到資料對齊流程會結合 BM25 從 reference pool 擷取相關內容，讓評測不只看模型寫得像不像，還更接近依據檢索材料進行論述的情境。

重點摘要如下：
– 任務設計完整：涵蓋 Office Action 與 rebuttal，不只單向生成。
– 評測流程彈性：可分開執行生成與評估，也能限制樣本或輪次。
– 資料格式務實：支援格式化 JSON 陣列，並保留舊版 JSONL 載入能力。
– 檢索導向：透過 reference pool 與 BM25 對齊，模擬實際審查參照依據。

若你是做法律科技、專利 NLP，或想評估大型語言模型在高約束推理場景的表現，PatRe 很值得關注。特別適合拿來比較模型在審查方與申請方兩種角色中的落差；不過目前公開說明也顯示，資料集與完整展示仍在逐步釋出，實際覆蓋範圍建議以官方後續更新為準。

Source: https://github.com/AIforIP/PatRe

Categories: 開源, Agent, 軟件

awesome-llm-mas-rl：用軌跡看懂 LLM 多代理強化學習

這個儲存庫聚焦在 LLM 多代理系統的強化學習與後訓練方法，但它的價值不只在蒐集文獻，更在於用一致的結構整理研究脈絡。相較一般 awesome list 偏向羅列連結，這個專案明顯更重視可稽核性、分類邏輯與後續分析用途。

實際使用上，讀者可以先從保留論文池與分類表快速瀏覽研究全貌，再進一步對照 CSV 與相關腳本確認統計與來源。若你正在做文獻回顧、研究選題，或想建立自己的資料集，這種「README 易讀、資料檔可驗證」的設計會比純手工整理更可靠。

它最值得注意的創新，是把 orchestration trace 當成核心組織概念：不只看單一代理的動作，而是追蹤任務分派、子代理生成、代理間通訊、工具呼叫、結果聚合、獎勵與成本等決策流程。對研究者來說，這讓多代理系統中的訓練訊號、責任歸因與系統證據更容易被明確描述，也更接近真實工作流。

收錄 84 筆保留文獻，並附 32 筆排除紀錄，研究邊界相對清楚
提供 JSON Schema、範例 trace 與無相依驗證器，方便檢查資料格式
涵蓋 reward、credit design、benchmark、安全性與系統證據等面向
適合用來建立文獻地圖，而不只是當作連結書籤

整體來看，這個專案最適合研究 LLM agent、multi-agent orchestration、RL 訓練流程的人使用，特別是需要整理證據鏈與實驗描述的學術或工程團隊。若你只是想找熱門論文，它可能稍微學術；但若你在意研究可重現性與結構化分析，這份資源相當有參考價值。

Source: https://github.com/xxzcc/awesome-llm-mas-rl

Categories: 編程

iWorld-Bench：互動世界模型評測新基準

iWorld-Bench 是一個面向互動式世界模型的基準測試，目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出，它提供 33 萬段影片資料、4,900 個測試任務，以及 9 項綜合指標，用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上，研究者可把不同類型的世界模型接到其統一的 Action Generation Framework，將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較，以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新，在於把原本互動形式不一致的世界模型拉到同一套評估框架中，並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估，iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力，以及跨場景與全天候適應性。

提供 33 萬段影片與 4,900 個測試任務
以統一動作生成框架比較不同互動世界模型
評測重點涵蓋視覺生成、軌跡跟隨與記憶能力
支援多模態輸入、多視角、多場景與全天候條件
已用於評估 14 個具代表性的世界模型

從應用角度看，會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練，以及需要互動式環境建模的研究。性能與評估方面，網站明確表示其以 9 項指標檢驗 14 個代表性模型，並指出現有方法仍有侷限；但由於論文、程式碼、資料集與排行榜尚未公開，部分細節仍需等待正式發布確認。

模型列表：文中僅提到共評估 14 個代表性世界模型，頁面內容未列出具體名稱。

Categories: 視覺模型, 世界模型, AGI

Google Cloud 推出企業級 AI 代理平台

Google Cloud 發表 Gemini Enterprise Agent Platform，定位為建置、擴展、治理與最佳化 AI 代理的企業平台。它可視為 Vertex AI 的延伸，將模型選擇、模型建置與代理建置能力整合，並補上代理整合、DevOps、協作編排與安全治理等企業所需環節。

實際使用上，技術團隊可在同一平台內建立代理，讓其連接多個企業系統，並透過 Gemini Enterprise app 提供給員工使用。這種做法有助於讓代理更貼近日常工作流程，同時維持 IT 部門對權限、治理與安全的控管。

這個專案的主要創新，在於把過去分散的模型開發、代理建構與營運管理集中到單一入口，降低跨系統導入代理的複雜度。文中也強調平台提供超過 200 個模型的存取能力，包含 Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3 與 Gemma 4，讓企業能依任務需求選擇合適模型。

整合 Vertex AI 既有能力與新的代理治理功能
支援代理整合、DevOps、編排與安全控管
可透過 Gemini Enterprise app 將代理交付給員工使用
提供 Model Garden 存取超過 200 個模型

受惠工作預期包括企業內部工具開發、營運自動化、客服支援、知識工作協作與跨系統流程串接。就目前頁面內容來看，文章著重平台定位與能力整合，尚未提供具體效能數據或正式評測結果，因此較適合將其視為企業代理基礎設施與治理框架的產品發布，而非已完整公開基準測試的技術報告。

模型列表：Gemini 3.1 Pro、Gemini 3.1 Flash Image、Lyria 3、Gemma 4。

Categories: Google, Gemini, Agent

ARIS 讓 AI 研究流程可實戰觀察

ARIS 是一套面向研究工作的代理流程框架，核心不是單純自動生成內容，而是把想法探索、實驗執行、論文撰寫與回覆審稿意見串成可反覆檢查的工作鏈。它可作為 Claude Code、Cursor、Trae 的技能式工作流使用，也提供獨立 CLI，較適合需要長時間、跨階段協作的研究專案。

實際使用上，較合理的方式是把它視為研究助理編排層：先做 idea discovery，再接 experiment bridge、auto review loop、paper writing 與 rebuttal。專案特別強調跨模型家族的執行者與審查者分工；若需要特定模型，文件中明確提到可搭配 GPT-5.4 作為 reviewer，部分引用稽核流程也會透過 Codex MCP 路由使用 gpt-5.4。

這個專案最有辨識度的創新，在於它把「證據到主張」的驗證做成系統層能力，而不是最後才人工補救。除了實驗結果到論文敘述的對照，近期又補上 /citation-audit，檢查引用是否存在、書目資料是否正確，以及最重要的：被引用文獻是否真的支持當前論點，這比只查 BibTeX 完整度更實際。

另一個值得肯定的部分是工程細節相對務實。像技能安裝機制曾修正為扁平化佈局，避免 Claude Code 無法發現巢狀技能；Overleaf 同步則透過官方 Git bridge 串接，並把權杖隔離在 macOS Keychain，降低代理直接接觸憑證的風險。這些設計顯示作者關注的不只是功能數量，也包含可維護性與失敗復原。

適合對象：需要長鏈研究流程、反覆修改論文、重視可追溯性的使用者
主要價值：把審查、證據核對、引用稽核嵌入研究流程，而非事後補做
實用亮點：研究 wiki、技能式工作流、審稿回合、自動論文改善與 rebuttal 支援
理想場景：機器學習論文撰寫、實驗驅動研究、多人協作且需同步 Overleaf 的團隊

整體來看，ARIS 比較像研究流程的「治理框架」，不是一鍵產出論文的捷徑。若你的需求是提高研究代理的可靠性、保留脈絡並減少論點失真，它提供了相當完整而且偏嚴謹的路線；但若只想快速生成初稿，這套系統可能會顯得偏重。

Source: https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

Categories: 開源, Agent

Healthcare_GYM：醫療代理訓練場

Repository image for minstar/Healthcare_GYM

Healthcare_GYM 是一個相容 Gymnasium 的醫療 AI 訓練環境，核心目的不是單純問答，而是讓代理在多回合流程中學會查資料、呼叫工具並完成臨床任務。它涵蓋 10 個臨床領域、3,600 多個任務與 135 個專用工具，並把 82.8 萬筆醫療段落納入可檢索知識庫。

實際使用上，它比較像給研究團隊的「醫療代理測試場」。若你已經有強化學習流程，就能透過標準的環境互動介面，把代理接到任務、工具呼叫與回饋函數上，觀察模型在臨床推理、資訊檢索與多步驟決策中的表現。

這個專案最值得注意的創新，是提出 TT-OPD 這套多回合代理式 RL 的自蒸餾方法。從說明來看，作者認為 teacher 會隨學生探索而逐漸過時，因此蒸餾價值主要集中在訓練前期，並以 EMA 教師與週期性硬同步控制師生偏移，而不是長期依賴固定 teacher。

從結果來看，它在 18 個基準中的 10 個拿到最佳成績，平均比非 RL 的代理基線高出約 3.9 個百分點。不過資料也顯示，代理式評估未必在所有知識回憶型任務都占優，代表這套框架更適合需要檢索、工具操作與多步推理的情境，而不是只比裸模型記憶能力。

重點摘要
支援多回合臨床工具使用，不只是靜態醫療問答。
知識來源包含 PubMed 摘要、臨床指引與醫學教科書。
以 BM25 檢索 82.8 萬筆醫療段落，工具呼叫直接納入動作空間。
TT-OPD 以 EMA teacher 與分階段淡出蒸餾來穩定訓練。
README 指出實驗使用 Qwen3.5-9B 骨幹模型。

整體而言，Healthcare_GYM 最適合醫療代理、臨床決策輔助研究、RAG 結合工具使用的 RL 訓練，以及需要比較不同代理策略的學術實驗。若你的目標是建立可重現的醫療 agent benchmark，這個專案提供的環境設計與訓練觀點都相當有參考價值。

Source: https://github.com/minstar/Healthcare_GYM

Categories: Medical醫學

X2SAM把影像與影片分割整合成單一模型

X2SAM 是一個統一式分割多模態大型語言模型，目標是把影像中的「任意分割」能力延伸到影片。它結合 LLM、Vision Encoder、Mask Encoder、Mask Decoder 與 Mask Memory，讓模型不只理解畫面內容，還能依照對話指令或視覺提示產生像素級遮罩。

實際使用上，X2SAM 可同時接受對話式文字指令與視覺提示，適合需要指定目標、追蹤物件或互動修正結果的情境。官方描述指出，它支援 generic、open-vocabulary、referring、reasoning、grounded conversation generation、interactive 與 visual grounded segmentation，代表使用者可用較自然的方式提出分割需求，而不必侷限於單一輸入形式。

這個專案的主要創新，在於用單一介面整合影像與影片分割，並以 Mask Memory 儲存受引導的視覺特徵，改善影片中跨時間的遮罩一致性。此外，作者也提出 V-VGD（Video Visual Grounded） 分割基準，用來評估模型是否能根據互動式視覺提示，在影片中分割並追蹤物件。

統一支援影像與影片分割，而非只專注單一媒體
同時支援文字指令與視覺提示輸入
透過 Mask Memory 強化影片遮罩的時序一致性
提出 V-VGD 基準補足影片視覺定位分割評估
採用異質影像與影片資料的聯合訓練策略

從工作應用來看，這類系統可望受惠於影片內容理解、互動式標註、智慧剪輯、視覺助理與多模態人機互動等任務。性能方面，原文表示 X2SAM 在影片分割上達到強勁表現，對影像分割基準仍具競爭力，並保留一般影像與影片聊天能力；不過此頁面未完整列出具體數值，因此解讀上仍應以論文與實驗表格為準。

模型列表：LLM、SAM 系列

Categories: 開源, 影像模型, 影像處理

SplAttN：用可微分投影補強點雲補全的關鍵一環

SplAttN 是一個面向影像引導點雲補全（Point Cloud Completion）的 PyTorch 研究專案，核心目標是讓稀疏的 3D 幾何與 2D 視覺先驗之間，維持可學習且可微分的連結。它對準的問題很明確：傳統把點雲硬式投影到影像平面後，往往只留下過度稀疏的對應訊號，導致影像資訊難以有效影響補全結果。

這個方法的亮點，在於以 Differentiable Gaussian Splatting 取代硬投影，將稀疏投影點轉成較連續、較稠密的影像平面表示，再透過注意力機制融合幾何特徵與視覺特徵。從論文描述來看，這不只是提升表現的工程技巧，更是在處理多模態學習中「影像到底有沒有真的被用上」的核心問題。

值得注意的是，SplAttN 還加入了反事實評估觀點，檢查模型是否真的依賴視覺線索，而不是把影像當成可有可無的附加輸入。README 提到它在 PCN、ShapeNet-55/34 與 KITTI 上做了驗證，並宣稱在部分基準上達到先進水準；其中 KITTI 被當作壓力測試，這點對評估真實場景泛化特別有參考價值。

重點摘要：
– 以可微分 Gaussian splatting 改善 2D 與 3D 的訊號連接
– 用注意力融合影像與幾何特徵，強化跨模態依賴學習
– 強調反事實評估，而非只看最終分數高低
– 提供官方 PyTorch 實作，適合研究重現與延伸

實際使用上，這個專案最適合拿來做多模態點雲補全研究、模型重現、方法比較，尤其適合想分析影像訊號在 3D 任務中是否真正發揮作用的研究者。若你的工作聚焦在 3D 視覺、自动駕駛感知或學術實驗設計，SplAttN 的價值不只在結果，還在它對跨模態連結機制提出了更可檢驗的做法。

Source: https://github.com/zay002/SplAttN

Categories: 開源, 3D, 模型

CWM (Code World Model) 32B – Meta 開源編程模型

Meta FAIR 的「Code World Model (CWM)」是一個 32B 參數、專門為「帶世界模型的程式碼生成研究」設計的開放權重 LLM。它的關鍵點是：不只學 code syntax，而是透過大量「執行軌跡」去內化程式執行對系統狀態的影響，並在多任務 RL 下強化 agentic coding 能力。

CWM 是什麼？

CWM（Code World Model）是一個 32 億參數（32B）、dense、decoder‑only 的 Transformer LLM，主要面向程式碼生成與程式相關推理。
它被設計成「世界模型式」的 code LLM：不只預測下一個 token，而是學會在腦中「模擬程式執行過程」及其對環境狀態的影響。
官方目標是提供一個強大的開放權重 testbed，讓研究者探索「世界模型 + agentic reasoning/planning」如何提升程式碼生成與軟體工程工作流。

訓練流程與 world modeling 設計

CWM 的訓練 pipeline 不是單純「pretrain → SFT」，而是刻意插入 world‑model mid‑training，再加上多任務 RL：

前期：先在一般語言與程式碼資料上做大規模預訓練，建立廣泛的語言、程式知識基礎。
Mid‑training（世界模型核心）：
- 在大量「observation‑action 軌跡」上進一步訓練，這些軌跡來自 Python interpreter 執行 trace，以及在 Docker container 中以 agent 方式操作系統的互動紀錄。
- 這類資料讓模型看到「程式片段／指令 → 執行過程 → 輸出與系統狀態變化」，等於學習一個對應「code → world dynamics」的隱式世界模型。
後期 post‑training：
- 先進行 supervised fine‑tuning，引入明確的 reasoning format、step‑by‑step 推理風格等標註資料。
- 再用 multi‑task RL（文中提到使用 GRPO 類型方法）在可驗證的 coding 任務、數學問題、多輪軟體工程環境中進行強化學習，reward 來自於測試通過率、解答正確與任務完成度。

這種設計的重點是：讓 RL 是「從已經具備世界模型的基底」開始，而不是只在純 token LLM 上做 RL，理論上比較容易學到長程規劃與工具使用策略。

模型架構與上下文長度

CWM 是一個 64 層的 decoder‑only Transformer，採用現代 LLM 常見配置（例如 RoPE 位置編碼、SwiGLU FFN、GQA 等）。
參數規模為 32B，詞彙表約 128k token，明顯針對大型 codebase 與多語言程式碼場景設計。
上下文長度最高達約 131k tokens，可容納整個專案、多檔案上下文與長程互動軌跡。
為了處理這種長上下文，它使用「交錯式注意力」：
- 多數層採局部 attention（例如 8,192 token 視窗），每隔數層插入一次 global/sliding attention 層可以看到完整 131k 上下文，文中描述比率約為 3:1。
- 這樣的設計在計算量可控的前提下，仍能在多層中“刷新”全局資訊，對閱讀大型 codebase 與長對話 debugging 特別有利。

基準測試成績

在多個開源 benchmark 上，CWM 以 32B 級別達到非常有競爭力甚至 SOTA 的表現：

SWE‑bench Verified：pass@1 約 53.9%（不做 test‑time scaling），在採用 test‑time scaling 後可達約 65.8%。
LiveCodeBench：v5 約 68.6，v6 約 63.5（pass@1）。
數學與推理：
- Math‑500 約 96.6%。
- AIME 2024 約 76.0%。
- CruxEval Output 約 94.3%。
論文與解讀都提到：在同等或相近參數規模的開放權重 LLM 中，CWM 在一般 coding 與更 agentic 的軟體工程任務上都具有「best‑in‑class」水準，甚至接近或追平一些封閉大模型。

對你這種做 RAG / agent / tools‑calling 工作流的人來說，這顆模型的亮點其實是「在環境中操作和修 bug 的能力」，而不只是單輪 code completion 分數。

權重釋出與取得方式

Meta 以「開放權重」形式釋出 CWM，提供多個 checkpoint：
- mid‑training 後的 world‑model 版本。
- SFT 後版本。
- RL 後完整版。
  方便研究者分析各階段對能力的影響。
社群整理指出，CWM 權重目前在 GitHub 與 Hugging Face 上提供，包含 transformers 版權重與推理程式碼；Meta 採用自家訂定的 open‑weights 授權條款，主要定位在研究用途，具體使用限制需看 AI at Meta 官方頁與 HF model card 條款。
Hugging Face transformers 已內建 CwmForCausalLM 與對應 tokenizer。

與一般 code LLM 的本質差異

和傳統只在「靜態 code corpora + 少量程式執行資料」上訓練的 code LLM 相比，CWM 的幾個關鍵差異：

訓練核心是「大量程式執行與 agent interaction 的軌跡」，把「程式 → 執行 → 狀態變化」當成序列學習對象，形成隱式世界模型，而不只是 code token 統計模型。
RL 設計是圍繞「可驗證結果」（例如測試通過、問題解答正確、多輪任務完成），而不僅是人類偏好／指令跟從，這對長程規劃與工具調度尤其重要。
長上下文 + 交錯 attention 讓模型可以在一次推理中讀完整個 repo、ticket 歷史與多輪 log，這是很多傳統 code LLM 現階段比較薄弱的地方。

Categories: 模型, 編程

ComboStoc 擴散模型訓練更快的關鍵

ComboStoc 是一個針對擴散生成模型訓練流程的研究型實作，核心目標不是換掉整個模型架構，而是修正既有訓練對「組合式結構」取樣不足的問題。這個版本以 PyTorch 為主，提供影像擴散模型、訓練腳本，以及預訓練權重，定位相當明確：拿來驗證論文方法，也適合已有 SiT 或相近擴散管線的人直接比較。

這個專案真正有辨識度的地方，在於它不再把整筆資料視為同步走在同一個 diffusion timestep。相反地，它讓不同維度、patch，甚至可能的屬性使用非同步時間步，藉此更完整覆蓋高維資料中的組合空間；這也是它和一般只調 loss、scheduler 或採樣器的做法最不一樣之處。

實務上，它延續 SiT 風格的實作思路，並提供基於 PyTorch DDP 的訓練流程，代表它不是紙上談兵，而是可在分散式訓練中直接測試。推論端也不只是在既有 checkpoint 上出圖，還能利用非同步時間步做更細緻的控制；若參考論文描述，這種機制對局部條件控制或結構化生成尤其有意義。

最能受益的族群，會是正在研究影像生成、擴散模型訓練效率，或需要面對高度結構化資料的人。若你關心的是更快收斂、較低 FID，或想把相同模型延伸到更有屬性組合複雜度的任務，這個專案值得細看；至於 3D structured shape 的完整程式，儲存庫目前看來仍是後續補上。

特色在於非同步 diffusion timestep，不是單純更換 backbone
以 PyTorch 實作，並提供 DDP 訓練腳本
已附預訓練的 ComboStoc-XL-2 權重，可直接做採樣比較
適合拿來研究高維資料中組合複雜度對生成品質的影響

Source: https://github.com/Xrvitd/ComboStoc

Categories: 開源, 香港大學, 影像模型, 模型

Page 1 of 72

1 2 3 … 72 Next »