POISE:語言模型用自己狀態做強化學習

Og image

POISE 是一個用於語言模型強化學習的方法,重點是讓模型在生成答案時,直接利用自己已有的隱藏狀態與熵等訊號,估計回報基線。簡單來說,它希望模型「一邊作答,一邊判斷自己表現大概應該有幾好」,從而更有效更新訓練方向。

實際使用上,這類方法特別適合有可驗證結果的任務,例如數學題最終答案是否正確。傳統做法通常要額外訓練一個 critic 模型,或者對同一提示做多次 rollout 來估基線;POISE 則改為重用 actor 本身生成時已計算出的資訊,理論上可減少訓練成本。

它的主要創新,在於把模型內部表徵重新納入 RL 更新流程,而不是依賴獨立的大型評分器。網站內容指出,這個估值器會隨政策變化持續更新,配合當前及近期 rollout,目標是令線上學習更穩定。

  • 以 actor 自身隱藏狀態做 value estimation
  • 不需要獨立 critic 模型
  • 減少同一 prompt 的額外取樣開銷
  • 適合有明確對錯驗證的任務
  • 著重更輕量與穩定的 RL 訓練流程

在初步評估方面,POISE 在 held-out 的 DAPO-Math rollouts 上,內部狀態探針的 Pearson r 為 0.870、MAE 為 0.141。對比一個由 Qwen3-4B 微調而成的 critic,其 r 為 0.676、MAE 為 0.262,顯示 actor 內部訊號至少在這項基準中具有不錯的預測能力。

受惠工作包括數學解題、可程式驗證推理,以及其他能以結果回饋作訓練的語言模型流程。不過目前頁面展示內容以方法概念與初步結果為主,較完整的泛化表現與不同任務上的最終效益,仍要留意論文後續公開分析。

實驗結果

模型方法Avg@32 (數學推理)訓練時間 (B200 GPU)
Qwen3-4BDAPO0.50849 小時
Qwen3-4BPOISE0.50036 小時 
DeepSeek-R1-Distill-Qwen-1.5BDAPO0.29624 小時
DeepSeek-R1-Distill-Qwen-1.5BPOISE0.30318 小時 

POISE 在數學推理基準 (AMC23/24, AIME24/25/26, HMMT25, BRUMO25) 上達到與 DAPO 相當的性能,但計算成本更低 。

Categories: , 模型訓練, 深度學習

4DThinker:讓影片理解動態空間的4D視覺腦

drawing

4DThinker 是一個面向研究用途的視覺語言模型框架,重點不是單純描述影片內容,而是讓模型從單鏡頭影片理解物件如何移動、互相影響,以及場景隨時間怎樣變化。簡單講,它想解決「模型見到影片,能否真正理解空間變動」這件事。

它的實際用法較接近訓練與評估流程,而不是即裝即用的消費級工具。專案提供資料集、模型權重、訓練程式,以及前處理所需資源;若要重現效果,需準備影片資料、SAM3 checkpoint,並以 Qwen2.5-VL-3B-Instruct 作為基礎模型,部分資料生成流程亦會用到 OpenAI 相容 API。

這個專案最值得留意的創新,在於它不再只靠文字一步步「講出」推理過程,而是加入所謂 4D latent imagery,讓模型在隱藏空間中模擬場景演化。配合 DIFT 微調,以及 4DRL 強化學習,方向上是希望把動態視覺理解能力直接學進模型本身,而非額外串接複雜幾何模組。

重點摘要:
– 針對單鏡頭影片的動態空間推理
– 提供資料生成、訓練與評測相關組件
– 以 4D 潛在表徵處理時間與空間變化
– 支援調整 latent token 數量與損失權重
– 較適合研究團隊,而非一般用家直接部署

如果你做的是機械人感知、影片問答、場景理解,或者想提升模型對「之後會怎樣」的判斷,4DThinker 特別值得留意。至於一般內容摘要或靜態圖片分析,它未必是最直接的選擇,因為整個設計明顯是為動態推理而生。

Source: https://github.com/zhangquanchen/4DThinker

Categories: 開源, Agentic, , 模型, 視覺模型, 中國, 清華大學

CoE – Chain of Evidence 看得見證據鏈的 RAG

Repository image for PeiYangLiu/CoE

CoE 是一個面向迭代式 RAG 的視覺歸因框架,重點不是只回答問題,而是把「答案怎麼來」具體標在文件截圖上。它接受問題與前 5 筆候選文件,接著排序出證據鏈、框出支撐區域,最後產生答案,讓多跳推理不再只停留在文件層級引用。

實際使用上,這個專案比較像研究型工具鏈:可先準備 Wiki-CoE 或 SlideVQA 資料,再依兩階段流程訓練,最後用評估與視覺化模組檢查框選結果。若只想快速體驗,儲存庫也提供已訓練檢查點;需特定模型時,專案明確是以 Qwen3-VL-8B-Instruct 為核心封裝。

它最有價值的地方,在於直接對文件畫面推理,而非先把 PDF、網頁或投影片硬轉成線性文字。這種做法能保留版面、表格、資訊圖與視覺關係,對投影片、複雜網頁或含圖表文件尤其重要,也回應了傳統文字式 RAG 難以精準驗證來源的位置問題。

重點摘要:
– 支援多跳證據排序,不只找單一片段
– 以邊界框標示像素級證據區域
– 採兩階段課程式訓練,先定位再推理
– 提供 Wiki-CoE 資料集與 8B 檢查點
– 評估涵蓋答案正確率與定位、證據鏈表現

若你的需求是法務、金融、研究助理或企業知識庫這類必須追溯依據的問答系統,CoE 的方向很有參考價值。相較一般只附引用來源的 RAG,它更像把驗證流程前移;不過目前整體形態仍偏研究與實驗環境,較適合拿來做方法評估、原型驗證與高可解釋性場景測試。

Source: https://github.com/PeiYangLiu/CoE

Categories: 開源, Agentic,

paperclip:用任務管理思維駕馭 AI 團隊

Paperclip — runs your business

當團隊開始同時使用多個 AI 代理時,真正的瓶頸通常不是模型能力,而是協作失序。Paperclip 的定位很清楚:它不是再做一個代理本身,而是提供一個以 Node.js 伺服器與 React 介面組成的控制平面,讓使用者把不同來源的代理集中管理,並用公司、專案、目標與任務的層級來分派工作。若以一句話概括,它更像是「替 AI 團隊設計的營運系統」,而不是單純的自動化腳本集合。

實際使用上,這個專案適合已經有多個代理在運作的人,例如同時讓 Claude Code、Codex、Cursor 類型工具或 HTTP/CLI 代理各自負責開發、支援、行銷或例行工作。使用流程不是盯著一堆終端機,而是先定義公司目標與專案脈絡,再建立角色、指派任務、設定預算與批准機制,最後透過儀表板追蹤進度、成本與稽核紀錄。對想要讓代理 24 小時運作,但又不希望完全失控的團隊而言,這種「可放手、也可介入」的操作模式很實際。

Paperclip 最有意思的創新,在於它把企業治理概念直接帶進代理協作。README 提到的心跳排程、任務鎖定、持久狀態、預算硬限制、審批與回滾、以及多公司資料隔離,顯示它處理的是多代理系統中最麻煩的邊角問題,而不是只包一層漂亮 UI。尤其「每個任務都能追溯到上層目標」這件事,很適合避免代理只看見局部指令、卻看不見整體方向的常見缺陷;加上對話、工具呼叫與決策都有可追蹤紀錄,也讓後續檢討與合規更有依據。

  • 可整合多種代理執行環境,重點在協調而非綁定單一工具
  • 以組織圖、任務單、排程與預算管理多代理長時間運作
  • 提供完整稽核軌跡,方便人工覆核、追責與成本回顧
  • 支援單一部署管理多家公司,資料隔離是設計核心之一
  • 適合代理數量已經很多、需要正式管理流程的進階使用者

若從應用場景來看,Paperclip 最適合三類需求。第一是小型自動化公司或個人創業者,希望把開發、內容、客服與營運工作交給不同代理分工;第二是 AI 原生團隊,需要把多個代理當成部門成員來協調,而不是各自獨立跑任務;第三是想做內部實驗平台的技術團隊,想測試代理編制、預算政策與治理流程的實際效果。相對地,如果你只有單一代理、任務量也不大,這套系統可能顯得過重,因為它的價值建立在「代理很多、工作持續、成本要控、流程要查」的前提上。

整體來看,Paperclip 評價不在於它幫你生出更強的模型,而在於它把代理工作從零散的個人工具,提升成可管理的組織流程。這種產品思路相當少見,也切中多代理實務的痛點:工作不重複、上下文不遺失、費用不暴衝、責任可追蹤。若你目前已經感受到多代理協作帶來的管理負擔,這個專案值得深入研究;但若仍停留在單一聊天視窗的使用階段,可能還不需要這麼完整的控制層。

Source: https://github.com/paperclipai/paperclip

Categories: 開源, Agentic, , OpenClaw

Amaze 獨特的視覺規劃工具

Amaze 提供了一種獨特的視覺規劃方法,透過先進的影像編輯模型來實現。這個儲存庫對於有興趣探索電腦視覺與AI驅動問題解決交集的研究人員和開發人員特別有價值。該專案專注於針對特定任務微調這些模型,例如導航迷宮,這需要對空間關係和模式識別有深入的理解。使用者應首先熟悉支援的模型,包括Bagel、Janus-Pro-7B和Qwen-Image-Edit,以及允許與外部服務靈活整合的API基於的模型。

在實踐中,Amaze通過應用監督式微調(SFT)技術來適應預訓練模型以符合迷宮解決任務的細微差異。該過程涉及使用config/資料夾中詳細指定的參數配置模型,其中maze.py包含Amaze Bench的特定設定。配置完成後,使用者可以進入sft/目錄執行為每個模型量身定做的微調腳本。此步驟對於優化目標任務的性能至關重要,確保模型能夠有效地解釋和操作視覺數據以解決迷宮。

使用Amaze的好處對於那些需要複雜視覺推理能力的專案最為顯著。機器人、自動系統和AI驅動遊戲等領域的研究人員可以利用此工具增強其應用程式在複雜環境中的導航能力。此外,希望將尖端影像編輯技術整合到產品中的開發人員會發現Amaze因其堅固的支持和清晰的文檔而無價。

然而,也有一些權衡需要考慮。對於初學者或沒有豐富機器學習經驗的人來說,設置和微調模型的複雜性可能會構成挑戰。根據專案規模的不同,訓練和推理所需的計算資源也可能相當龐大。使用者應仔細評估其硬體能力並分配足夠的時間進行實驗和優化。

要開始使用,請專注於理解專案結構。該儲存庫組織成幾個關鍵目錄:config/data/infer/scripts/sft/。每個目錄在工作流程中都具有不同的目的,從管理配置和加載數據集到執行推理和微調過程。特別注意infer/目錄,它包含了生成模型響應和計算評估指標的核心邏輯。該目錄中的maze_metrics.py文件尤其重要,因為它定義了用於評估模型在迷宮解決任務上表現的專業指標。

Amaze提供了一個全面的框架,用於在視覺規劃場景中利用影像編輯模型。雖然它需要一定的專業知識和資源投資,但在增強視覺推理能力方面的潛在收益使其成為相關領域專業人士值得追求的事業。透過仔細瀏覽其特點和功能,使用者可以解鎖AI驅動問題解決的新可能性。

Source: https://github.com/spatigen/amaze

Categories: 開源, , 視覺模型

ClawGym 構建高效的 Claw 代理框架

ClawGym 框架的主要用途在於訓練和評估能夠在真實系統上執行任務的 AI 代理。以下是它的核心應用場景:

代理訓練與開發

ClawGym 提供完整的流程讓開發者能夠構建高效的 Claw 代理。框架透過合成大規模任務數據(13.5K 個經過篩選的任務)和智能軌跡收集,使 LLM 模型能夠學習如何在 OpenClaw 框架上自動執行真實任務。

自動化辦公與生產力

根據 OpenClaw 生態應用,Claw 代理可以執行:

  • 代碼沙箱運行:自動編寫並執行 Python 腳本,完成非結構化數據的抓取與清洗
  • 跨應用自動化:通過自然語言完成複雜的多步驟工作流,例如「幫我設計一個監控面板,每天定時抓取 A 股新上市企業數據」,代理會自主規劃路徑:編寫爬蟲 → 抓取數據 → 自動修正邏輯 → 生成展示頁面
  • 辦公助手場景:寫代碼、寫文檔、處理日常流程

企業級多智能體協作

ClawGym 支持構建多智能體團隊系統,實現:

  • 多個 AI 分析師並行評估投資價值
  • 多智能體深度研究項目和趨勢分析
  • 代碼漏洞和架構質量的聯合審查

性能評估與基準測試

ClawGym-Bench 提供了 200 個真實場景的評估基準,測試代理在辦公協同、信息檢索、內容創作、數據處理等場景的表現。

Categories: 開源, Agentic, , 編程, OpenClaw

FORGE:製造場景的細粒度多模態評估

FORGE 標誌
AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架,專門針對視覺語言模型(VLMs)在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究,提供了一種多維度的方法來理解 VLMs 在檢測異常(如錯誤模型、額外零件和缺失組件)方面的能力和限制。

在深入研究 FORGE 時,用戶應首先專注於理解三個主要任務:錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰,使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配,提供了對 VLMs 空間推理能力的洞察。

在實踐中,FORGE 通過利用多種評估設置(包括零樣本、少樣本和上下文學習(ICL))來運作。用戶可以通過 YAML 文件配置這些設置,這些文件控制所有評估參數,如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端,如 OpenRouter、OpenAI、Anthropic 和 Google,使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準,FORGE 幫助這些專業人士識別各種 VLMs 的優缺點,促進在模型選擇和整合方面的明智決策。此外,詳細的輸出文件,包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌,為分析和報告提供了寶貴的數據。

然而,也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線,需要對 VLMs 和異常檢測原理有紮實的理解。此外,運行廣泛評估所需的計算資源可能相當龐大,特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制,這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE,用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的,因為這些知識有助於設計有效的評估策略。此外,利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察,這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具,用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法,涵蓋各種任務和設置,使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求,但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 開源, 香港中文大學, 香港科技大學, , 視覺模型, 香港城市大學

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理,佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考,先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習,令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色,仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源,方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 開源, 香港中文大學, , 影像模型, 中國

FrankenMotion 人體動作生成框架

FrankenMotion 是一個以擴散模型為基礎的文本到人體動作生成框架,專注於對單一動作的各個身體部位進行細緻控制。研究團隊先建立名為「FrankenStein」的大規模運動資料集,這份資料集以大型語言模型自動生成的原子化、具備時間感知的逐部份文字敘述,填補了先前資料集只能提供全局或動作層級標註的不足。透過這些高度結構化的部位標註,模型能夠在訓練時同時學習空間(哪個部位在動)與時間(每個部位的具體時間模式)兩層資訊。

實驗結果顯示,相較於先前的 UniMotion、DART、STMC 等模型,FrankenMotion 在語義正確性與運動真實感上都有顯著提升,甚至能創造出訓練時未曾見過的組合動作,例如在坐下的同時抬起左手。

Categories: 開源, , 模型, 編程, Robotic

NexaSDK 全模型支持,全硬件兼容

NexaSDK 是一個高性能的本地推理框架,可以在 NPU、GPU 和 CPU 上運行最新的多模態 AI 模型,支持 Android、Windows、Linux、macOS 和 iOS 設備。它只需幾行代碼,就能在設備上搭建最智能、最快的 AI 應用。NexaSDK 支持最新的模型,比如 Qwen3-VL、DeepSeek-OCR、Gemma3n 等,且比其他框架提前幾周或幾個月支持。。

使用 NexaSDK 建立真正的裝置端 AI 應用,將有獲得獎勵。(詳情)

另外,NexaSDK 還提供了一個簡單易用的命令列介面(CLI),讓使用者可以快速測試不同的模型。例如,你可以用一行指令就開始與 Qwen3 模型聊天,或者進行多模態任務,比如拖曳圖片到 CLI 裡進行處理。

Categories: 開源, , 編程

Page 2 of 3
1 2 3