tLLM 推論引擎擴展

tLLM 是 vLLM 推論引擎的運行時擴展層,提供生產者/消費者(Producer/Consumer)架構,能在生產環境中訓練和管理蒸餾器

tLLM 的角色

  • 生產者管道:從 vLLM 推論中即時捕捉 LLM 的深層隱藏狀態(latent representations)
  • 消費者管道:非同步訓練輕量 MLP(~1M 參數),這就是 Latent Distiller(潛在蒸餾器)

tLLM 可應用於醫療問答系統中,提升 RAG 生成的多樣性與準確性,特別適合配合 MedGemma 專案。 透過 ESamp (Exploratory Sampling )方法,在高吞吐 vLLM 服務下動態訓練輕量蒸餾器,引導模型探索未見語義區域,避免重複答案。

案例:醫療 RAG 系統

假設您建置一個基於 MedGemma 的繁體中文醫療 RAG 系統,處理患者查詢如「糖尿病併發症預防」。

  • 標準 vLLM:依賴檢索文件生成單一答案,易陷入常見模式,Pass@1 低於 60%。
  • tLLM + ESamp:啟用生產者管道捕捉隱藏表示,消費者訓練 Latent Distiller(MLP,~1M 參數),使用預測誤差作為新穎度信號。
  • 運行流程:批次 32 查詢並行生成,蒸餾器線上更新(<5% 開銷),重新取樣產生多樣候選(如生活調整、藥物、飲食多視角),Pass@k 提升 20-30%。

此案例在 RTX 4090 上吞吐 4000+ tokens/sec,適合部署於 WhatsApp 查詢閘道,提升 Cantonese/繁中醫療 NLP 效能。 程式碼範例:整合 tLLM 至 vLLM Engine,engine = TLlmEngine.from_engine_args(engine_args) 啟動生產者/消費者。

Categories: 模型訓練, 編程, 開源

ClawGym 構建高效的 Claw 代理框架

ClawGym 框架的主要用途在於訓練和評估能夠在真實系統上執行任務的 AI 代理。以下是它的核心應用場景:

代理訓練與開發

ClawGym 提供完整的流程讓開發者能夠構建高效的 Claw 代理。框架透過合成大規模任務數據(13.5K 個經過篩選的任務)和智能軌跡收集,使 LLM 模型能夠學習如何在 OpenClaw 框架上自動執行真實任務。

自動化辦公與生產力

根據 OpenClaw 生態應用,Claw 代理可以執行:

  • 代碼沙箱運行:自動編寫並執行 Python 腳本,完成非結構化數據的抓取與清洗
  • 跨應用自動化:通過自然語言完成複雜的多步驟工作流,例如「幫我設計一個監控面板,每天定時抓取 A 股新上市企業數據」,代理會自主規劃路徑:編寫爬蟲 → 抓取數據 → 自動修正邏輯 → 生成展示頁面
  • 辦公助手場景:寫代碼、寫文檔、處理日常流程

企業級多智能體協作

ClawGym 支持構建多智能體團隊系統,實現:

  • 多個 AI 分析師並行評估投資價值
  • 多智能體深度研究項目和趨勢分析
  • 代碼漏洞和架構質量的聯合審查

性能評估與基準測試

ClawGym-Bench 提供了 200 個真實場景的評估基準,測試代理在辦公協同、信息檢索、內容創作、數據處理等場景的表現。

Categories: Agent, , 編程, 開源, OpenClaw

ClawGUI:建立、評估和部署GUI代理

ClawGUI 標誌
ZJU-REAL/ClawGUI 在GitHub上

ClawGUI 是一個為研究人員和開發人員設計的堅固框架,專門用於處理GUI代理。它提供了一個統一的解決方案,用於訓練、評估和部署這些代理,使其成為AI和移動自動化領域的無價工具。對於新手來說,最好的起點是ClawGUI-RL,它專注於通過線上強化學習來建立GUI代理。這個模組利用了平行多環境設置和真實設備訓練,確保代理可以在各種場景中高效且有效地進行訓練。

在實踐中,ClawGUI 通過整合三個核心組件來運作:ClawGUI-RL 用於訓練,ClawGUI-Eval 用於評估,以及ClawGUI-Agent 用於部署。訓練階段使用了先進的技術,如GiGPO + PRM來優化策略學習,而評估階段則提供了六個基準測試進行嚴格測試。最後,部署階段允許進行真實世界的應用,透過自然語言來控制移動設備。這種無縫整合確保了GUI代理的整個生命週期可以在單一框架內進行管理。

最能從ClawGUI中受益的是那些從事尖端AI研究和移動自動化的人。研究人員可以使用這個框架來開發和測試新的演算法,而開發人員則可以在真實世界應用中部署這些代理。該框架處理複雜任務的能力,如細粒度步驟級獎勵和訓練期間的自動故障轉移,使其特別適用於需要高可靠性和性能的專案。

然而,也有一些權衡需要考慮。ClawGUI的複雜性意味著用戶需要對強化學習和GUI代理開發有紮實的理解。此外,運行平行環境和真實設備訓練的資源需求可能相當大。用戶在深入之前應確保擁有足夠的計算資源。儘管存在這些挑戰,ClawGUI仍為希望推進GUI代理領域的任何人提供了一個強大且靈活的解決方案。

一些需要關注的關鍵特點包括平行多環境設置,這允許在多個基於Docker的Android環境中進行高效訓練。真實設備訓練能力也至關重要,因為它確保代理可以在真實世界條件下進行測試和優化。對於評估,ClawGUI-Eval提供的六個基準測試提供了一套全面的測試來衡量代理的性能。最後,ClawGUI-Agent中的部署選項,包括跨平台支援和自然語言控制,使得將GUI代理整合到各種應用中變得輕鬆。

ClawGUI是一個全面的框架,涵蓋了GUI代理的整個生命週期。它特別有益於AI和移動自動化領域的研究人員和開發人員,提供了先進的訓練技術、嚴格的評估方法和靈活的部署選項。雖然它需要在相關技術方面有堅實的基礎,但其提供的益處使它成為那些希望推動GUI代理開發邊界的值得投資的選擇。

Source: https://github.com/ZJU-REAL/ClawGUI

Categories: Agent, 模型, 編程, 開源

OpenCook:專案特定的程式開發代理個人化

CLI 概覽
OpenDataBox/OpenCook 在 GitHub 上

OpenCook 是一個開創性的工具,旨在彌合強大但通用的程式開發代理與深入個人化程式碼實現之間的差距。對於處理複雜專案並有嚴格規範的開發者來說,這尤其有價值,他們需要能夠無縫整合到現有程式碼庫中的功能。透過利用 實作指南規範 和多層級 記憶 系統,OpenCook 確保程式開發代理能夠執行尊重每個專案獨特特徵的任務,從樣式指南到構建系統和回歸測試。

誰應該嘗試 OpenCook?主要是處理大型、複雜程式碼庫並需要高度自訂和遵循特定編碼標準的開發者和團隊。這包括涉及資料庫功能、語言運行時和編譯器後端的專案。對於這些使用者,OpenCook 提供了一種自動化新功能實現的方式,同時維護他們程式碼的完整性和品質。

在開始使用 OpenCook 時,首先應該專注於理解和配置 實作指南規範。這些是引導程式開發代理在您專案的特定背景下正確實現功能的核心組件。實作指南提供針對您領域的逐步指示,而規範則編碼代理必須遵循的慣例和約束。透過正確設置這些,您可以確保代理的行動與您的專案需求一致。

在實際操作中,OpenCook 通過 規劃 → 編碼 → 測試 管道運行,由專業代理驅動:CodeAgent、PlanAgent 和 TestAgent。PlanAgent 首先分解任務並識別相關文件和入口點,確保變更正確地範圍化。然後,CodeAgent 在注入的實作指南和規範的指導下編寫程式碼,而 TestAgent 則驗證變更是否編譯並通過所有測試。這個迭代過程持續進行,直到產生一個完全功能齊全且可合併的補丁。

使用 OpenCook 的好處對於經常需要實現新功能或對程式碼庫進行重大變更的團隊來說最為顯著。它減少了確保新程式碼遵循專案慣例並通過所有必要檢查所需的手動工作。這導致更快的開發週期和更高的程式碼品質。此外,持久記憶系統有助於代理在會話之間保留知識,隨著時間的推移提高其性能。

然而,有一些權衡需要考慮。設置 OpenCook 需要對您專案的結構和慣例有良好的理解。創建有效的實作指南和規範可能很耗時,特別是對於複雜的專案。此外,雖然 OpenCook 支援各種 LLM 提供商,但結果的品質可能會根據所選模型而有所不同。開發者應嘗試不同的模型,以找到最適合他們需求的模型。

總之,OpenCook 是一個創新的解決方案,旨在提升程式開發代理的能力。透過專注於專案特定的個人化,它實現了更精確和自動化的程式碼實現。雖然它需要一些初始設置和配置,但在程式碼品質和開發效率方面的益處使其成為複雜專案的寶貴工具。開發者應考慮將 OpenCook 整合到他們的工作流程中,以簡化功能實現並維持高編碼標準。

Source: https://github.com/OpenDataBox/OpenCook

Categories: 編程, 開源

Code2World 基於動作預測的 GUI 代理

Code2World 本身不是一個「GUI 設計工具」,但它可以用在「優化 GUI 設計」的流程裡,特別是幫你 驗證設計是否好操作、是否容易出錯、是否符合使用者行為預期。Code2World 以靈活的方式顯著提升了下游導航的成功率,在 AndroidWorld 導航方面,其性能比 Gemini-2.5-Flash 提升了 9.5%。

它透過產生可渲染的程式碼來模擬下一個視覺狀態。實驗表明,Code2World-8B 在下一界面 UI 預測方面表現卓越,足以媲美 GPT-5 和 Gemini-3-Pro-Image 等競爭對手。(Huggingface 模型及數據集出現 404)(圖為預測介面的結果)

Categories: 阿里巴巴, Agent, 模型, 編程, 開源


Paper2Rebuttal 反駁智能體框架

REBUTTALBENCH 是第一個將反駁生成重新定義為以證據為中心的規劃任務的多智能體框架。此方法解決了目前直接處理文字方法的局限性,這些方法常常導致臆想、忽略批評意見以及缺乏可驗證的依據。我們的系統將複雜的回饋分解為原子級關注點,透過將壓縮摘要與高保真文本合成來動態建構混合上下文,並整合一個自主的外部搜尋模組來解決需要外部文獻的問題。至關重要的是,REBUTTALAGENT 在撰寫反駁方案之前會產生一個可檢查的回應計劃,確保每個論點都明確地錨定在內部或外部證據之上。我們在提出的 REBUTTALBENCH 上進行的驗證過程表明,REBUTTALAGENT 在覆蓋率、忠實度和策略一致性方面均優於強大的基線系統,為同行評審過程提供了一個透明且可控的輔助工具。下圖總結了我們的工作,並比較了我們的方法與以往的方法。

REBUTTALBENCH 是一個多智能體框架,旨在將反駁過程轉化為結構化且可檢查的工作流程。系統在撰寫最終文本之前會產生與證據相關的中間產物,以確保輸出結果的可靠性和可控性。如下圖所示,該架構將複雜的推理過程分解為多個專業智能體,並配備輕量級檢查器。這種設計突顯了關鍵決策點,使作者能夠保留對策略立場和最終措辭的責任。此流程首先將稿件提煉成結構化的摘要,並提取審查者關注的原子性問題,以確保長期推理的穩定性。在這些關注點的指導下,系統透過從稿件中檢索高保真度的摘錄,並利用網路搜尋添加可驗證的外部文獻,建構證據包。工作流程最後產生一個明確的回應計劃,概述論點和證據鏈接,作者可以透過人機協作機制對其進行完善,之後系統將產生正式的反駁信。

REBUTTALBENCH 使用 LLM 作為評判員的評分標準,從相關性(R 分數)、論證品質(A 分數)和溝通品質(C 分數)三個方面,以 0-5 分制對回覆進行評估。下方的詞雲和高頻詞直方圖突出了評審員反覆關注的幾個方面,例如清晰度、新穎性和可重複性,這些也正是評分標準所明確針對的。

Categories: Agent, 編程, 開源

FrankenMotion 人體動作生成框架

FrankenMotion 是一個以擴散模型為基礎的文本到人體動作生成框架,專注於對單一動作的各個身體部位進行細緻控制。研究團隊先建立名為「FrankenStein」的大規模運動資料集,這份資料集以大型語言模型自動生成的原子化、具備時間感知的逐部份文字敘述,填補了先前資料集只能提供全局或動作層級標註的不足。透過這些高度結構化的部位標註,模型能夠在訓練時同時學習空間(哪個部位在動)與時間(每個部位的具體時間模式)兩層資訊。

實驗結果顯示,相較於先前的 UniMotion、DART、STMC 等模型,FrankenMotion 在語義正確性與運動真實感上都有顯著提升,甚至能創造出訓練時未曾見過的組合動作,例如在坐下的同時抬起左手。

Categories: , 模型, 編程, 開源, Robotic

NexaSDK 全模型支持,全硬件兼容

NexaSDK 是一個高性能的本地推理框架,可以在 NPU、GPU 和 CPU 上運行最新的多模態 AI 模型,支持 Android、Windows、Linux、macOS 和 iOS 設備。它只需幾行代碼,就能在設備上搭建最智能、最快的 AI 應用。NexaSDK 支持最新的模型,比如 Qwen3-VL、DeepSeek-OCR、Gemma3n 等,且比其他框架提前幾周或幾個月支持。。

使用 NexaSDK 建立真正的裝置端 AI 應用,將有獲得獎勵。(詳情)

另外,NexaSDK 還提供了一個簡單易用的命令列介面(CLI),讓使用者可以快速測試不同的模型。例如,你可以用一行指令就開始與 Qwen3 模型聊天,或者進行多模態任務,比如拖曳圖片到 CLI 裡進行處理。

Categories: , 編程, 開源


Page 1 of 5
1 2 3 5