Amaze 獨特的視覺規劃工具

Amaze 提供了一種獨特的視覺規劃方法,透過先進的影像編輯模型來實現。這個儲存庫對於有興趣探索電腦視覺與AI驅動問題解決交集的研究人員和開發人員特別有價值。該專案專注於針對特定任務微調這些模型,例如導航迷宮,這需要對空間關係和模式識別有深入的理解。使用者應首先熟悉支援的模型,包括Bagel、Janus-Pro-7B和Qwen-Image-Edit,以及允許與外部服務靈活整合的API基於的模型。

在實踐中,Amaze通過應用監督式微調(SFT)技術來適應預訓練模型以符合迷宮解決任務的細微差異。該過程涉及使用config/資料夾中詳細指定的參數配置模型,其中maze.py包含Amaze Bench的特定設定。配置完成後,使用者可以進入sft/目錄執行為每個模型量身定做的微調腳本。此步驟對於優化目標任務的性能至關重要,確保模型能夠有效地解釋和操作視覺數據以解決迷宮。

使用Amaze的好處對於那些需要複雜視覺推理能力的專案最為顯著。機器人、自動系統和AI驅動遊戲等領域的研究人員可以利用此工具增強其應用程式在複雜環境中的導航能力。此外,希望將尖端影像編輯技術整合到產品中的開發人員會發現Amaze因其堅固的支持和清晰的文檔而無價。

然而,也有一些權衡需要考慮。對於初學者或沒有豐富機器學習經驗的人來說,設置和微調模型的複雜性可能會構成挑戰。根據專案規模的不同,訓練和推理所需的計算資源也可能相當龐大。使用者應仔細評估其硬體能力並分配足夠的時間進行實驗和優化。

要開始使用,請專注於理解專案結構。該儲存庫組織成幾個關鍵目錄:config/data/infer/scripts/sft/。每個目錄在工作流程中都具有不同的目的,從管理配置和加載數據集到執行推理和微調過程。特別注意infer/目錄,它包含了生成模型響應和計算評估指標的核心邏輯。該目錄中的maze_metrics.py文件尤其重要,因為它定義了用於評估模型在迷宮解決任務上表現的專業指標。

Amaze提供了一個全面的框架,用於在視覺規劃場景中利用影像編輯模型。雖然它需要一定的專業知識和資源投資,但在增強視覺推理能力方面的潛在收益使其成為相關領域專業人士值得追求的事業。透過仔細瀏覽其特點和功能,使用者可以解鎖AI驅動問題解決的新可能性。

Source: https://github.com/spatigen/amaze

Categories: , 視覺模型, 開源

ClawGym 構建高效的 Claw 代理框架

ClawGym 框架的主要用途在於訓練和評估能夠在真實系統上執行任務的 AI 代理。以下是它的核心應用場景:

代理訓練與開發

ClawGym 提供完整的流程讓開發者能夠構建高效的 Claw 代理。框架透過合成大規模任務數據(13.5K 個經過篩選的任務)和智能軌跡收集,使 LLM 模型能夠學習如何在 OpenClaw 框架上自動執行真實任務。

自動化辦公與生產力

根據 OpenClaw 生態應用,Claw 代理可以執行:

  • 代碼沙箱運行:自動編寫並執行 Python 腳本,完成非結構化數據的抓取與清洗
  • 跨應用自動化:通過自然語言完成複雜的多步驟工作流,例如「幫我設計一個監控面板,每天定時抓取 A 股新上市企業數據」,代理會自主規劃路徑:編寫爬蟲 → 抓取數據 → 自動修正邏輯 → 生成展示頁面
  • 辦公助手場景:寫代碼、寫文檔、處理日常流程

企業級多智能體協作

ClawGym 支持構建多智能體團隊系統,實現:

  • 多個 AI 分析師並行評估投資價值
  • 多智能體深度研究項目和趨勢分析
  • 代碼漏洞和架構質量的聯合審查

性能評估與基準測試

ClawGym-Bench 提供了 200 個真實場景的評估基準,測試代理在辦公協同、信息檢索、內容創作、數據處理等場景的表現。

Categories: Agent, , 編程, 開源, OpenClaw

FORGE:製造場景的細粒度多模態評估

FORGE 標誌
AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架,專門針對視覺語言模型(VLMs)在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究,提供了一種多維度的方法來理解 VLMs 在檢測異常(如錯誤模型、額外零件和缺失組件)方面的能力和限制。

在深入研究 FORGE 時,用戶應首先專注於理解三個主要任務:錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰,使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配,提供了對 VLMs 空間推理能力的洞察。

在實踐中,FORGE 通過利用多種評估設置(包括零樣本、少樣本和上下文學習(ICL))來運作。用戶可以通過 YAML 文件配置這些設置,這些文件控制所有評估參數,如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端,如 OpenRouter、OpenAI、Anthropic 和 Google,使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準,FORGE 幫助這些專業人士識別各種 VLMs 的優缺點,促進在模型選擇和整合方面的明智決策。此外,詳細的輸出文件,包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌,為分析和報告提供了寶貴的數據。

然而,也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線,需要對 VLMs 和異常檢測原理有紮實的理解。此外,運行廣泛評估所需的計算資源可能相當龐大,特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制,這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE,用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的,因為這些知識有助於設計有效的評估策略。此外,利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察,這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具,用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法,涵蓋各種任務和設置,使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求,但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 香港中文大學, 香港科技大學, , 視覺模型, 開源, 香港城市大學

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理,佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考,先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習,令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色,仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源,方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 香港中文大學, , 影像模型, 開源, 中國

FrankenMotion 人體動作生成框架

FrankenMotion 是一個以擴散模型為基礎的文本到人體動作生成框架,專注於對單一動作的各個身體部位進行細緻控制。研究團隊先建立名為「FrankenStein」的大規模運動資料集,這份資料集以大型語言模型自動生成的原子化、具備時間感知的逐部份文字敘述,填補了先前資料集只能提供全局或動作層級標註的不足。透過這些高度結構化的部位標註,模型能夠在訓練時同時學習空間(哪個部位在動)與時間(每個部位的具體時間模式)兩層資訊。

實驗結果顯示,相較於先前的 UniMotion、DART、STMC 等模型,FrankenMotion 在語義正確性與運動真實感上都有顯著提升,甚至能創造出訓練時未曾見過的組合動作,例如在坐下的同時抬起左手。

Categories: , 模型, 編程, 開源, Robotic

NexaSDK 全模型支持,全硬件兼容

NexaSDK 是一個高性能的本地推理框架,可以在 NPU、GPU 和 CPU 上運行最新的多模態 AI 模型,支持 Android、Windows、Linux、macOS 和 iOS 設備。它只需幾行代碼,就能在設備上搭建最智能、最快的 AI 應用。NexaSDK 支持最新的模型,比如 Qwen3-VL、DeepSeek-OCR、Gemma3n 等,且比其他框架提前幾周或幾個月支持。。

使用 NexaSDK 建立真正的裝置端 AI 應用,將有獲得獎勵。(詳情)

另外,NexaSDK 還提供了一個簡單易用的命令列介面(CLI),讓使用者可以快速測試不同的模型。例如,你可以用一行指令就開始與 Qwen3 模型聊天,或者進行多模態任務,比如拖曳圖片到 CLI 裡進行處理。

Categories: , 編程, 開源

Top 0.1% AI Researchers – BYTES LLM Inputs

這是 AI 領域的「秘密突破」,僅有頂尖 0.1% 的研究者知曉:直接將原始位元組(raw bytes)輸入大型語言模型(LLMs),並使用代數拓撲(algebraic topology)分析,透過持久同調(persistent homology)揭示傳統模型無法察覺的隱藏資料結構。這可能改變 AI 處理多模態資料(如文字、影像、影片)的未來。

SECRET: Top 0.1% AI Researchers - BYTES LLM Inputs - Topology - Persistent Homology - Episode 1
(more…)
Categories: Embedding, , 教學, 深度學習, 編程

DeepEP 高速通信庫

DeepEP 是一個針對(MOE)和專家並行性(EP)的混合通信庫。它提供了高通量和低延遲的全 gpu 內核,它們稱之為 MOE 調度和組合。同時支持低精度的操作,包括 FP8。DeepSeek 公佈本星期將會是開放源碼週(OpenSourceWeek),並將會相繼推出五個開源軟件庫。他們昨日已經開放第一個代碼庫 FlashMLA。DeepSeek 今日繼續開放創新的底層架構 DeepEP,是首個用於 MoE 模型訓練和推理的 EP 通信庫 。

Categories: , 編程