FORGE:製造場景的細粒度多模態評估

FORGE 標誌
AI4Manufacturing/FORGE 在 GitHub 上

FORGE 提出了一個全面的評估框架,專門針對視覺語言模型(VLMs)在工業製造異常檢測中的應用。這個工具對於希望評估和改進 VLMs 在實際製造場景中表現的研究人員、工程師和 AI 專業人士特別有價值。該框架涵蓋了三個核心任務和基礎消融研究,提供了一種多維度的方法來理解 VLMs 在檢測異常(如錯誤模型、額外零件和缺失組件)方面的能力和限制。

在深入研究 FORGE 時,用戶應首先專注於理解三個主要任務:錯誤模型檢測、異常分類和額外/錯誤零件檢測。這些任務旨在模擬製造環境中面對的實際挑戰,使用照片和渲染圖像。基礎消融研究進一步探討了空間基礎和跨圖像零件匹配,提供了對 VLMs 空間推理能力的洞察。

在實踐中,FORGE 通過利用多種評估設置(包括零樣本、少樣本和上下文學習(ICL))來運作。用戶可以通過 YAML 文件配置這些設置,這些文件控制所有評估參數,如模型名稱、溫度和最大令牌數。這種靈活性使研究人員能夠根據自己的特定需求和假設量身定製評估過程。該框架支持多種後端,如 OpenRouter、OpenAI、Anthropic 和 Google,使用戶能夠實驗不同的 VLMs 並觀察其性能變化。

最能從 FORGE 中受益的是那些參與製造業 AI 解決方案開發和部署的人士。通過提供標準化的基準,FORGE 幫助這些專業人士識別各種 VLMs 的優缺點,促進在模型選擇和整合方面的明智決策。此外,詳細的輸出文件,包括緊湊結果、帶有原始 API 訊息的完整結果和執行日誌,為分析和報告提供了寶貴的數據。

然而,也有一些權衡需要考慮。框架的複雜性可能對新手構成學習曲線,需要對 VLMs 和異常檢測原理有紮實的理解。此外,運行廣泛評估所需的計算資源可能相當龐大,特別是在處理大型數據集和多種評估設置時。用戶還應當小心數據集中的潛在偏見和評估任務的限制,這些可能無法完全捕捉到實際製造異常的所有方面。

為了充分利用 FORGE,用戶應從探索存儲庫中提供的示例 YAML 配置文件開始。這些文件作為設置和運行評估的實踐指南。熟悉不同任務及其特定要求也是有益的,因為這些知識有助於設計有效的評估策略。此外,利用基礎消融研究可以提供對 VLMs 空間推理能力的更深洞察,這對於涉及零件匹配和空間基礎的任務至關重要。

FORGE 是一個強大的工具,用於評估視覺語言模型在製造異常檢測中的應用。它提供了一種結構化的評估模型性能的方法,涵蓋各種任務和設置,使希望在工業環境中增強 AI 應用的研究人員和工程師受益。儘管存在複雜性和資源需求,但框架的靈活性和全面的輸出使其成為推進製造業 AI 領域的寶貴資產。

City University of Hong Kong | HKUST (Guangzhou) | CUHK (Shenzhen)

Source: https://github.com/AI4Manufacturing/FORGE

Categories: 開源, 香港中文大學, 香港科技大學, , 視覺模型, 香港城市大學

mp4_splitter:分割影片

螢幕截圖
elbartohub/mp4_splitter 在 GitHub 上

MP4 分割器是一款多功能工具,專為需要將大型 MP4 文件分割成較小、易於管理的片段的視頻編輯人員和內容創作者設計。提供了一個用戶友好的拖放介面,簡化了視頻分割的過程。無論您是為社交媒體準備內容、組織剪輯素材,還是管理大型視頻檔案,MP4 分割器都能顯著提升您的工作流程。對於初次使用該工具的用戶。一旦您的視頻上傳完成,您可以根據需要配置分割時長,確保每個片段符合您的特定要求。這種自定義對於維護內容在各種平台上的完整性和相關性至關重要。

在實際應用中,工具提供實時進度追蹤,對於處理可能需要一些時間的大型文件特別有用。此功能確保用戶隨時瞭解任務狀態,減少不確定性並提升整體用戶體驗。分割過程完成後,用戶可以直接在瀏覽器中預覽片段,這得益於自動生成的輕量級 MP4 代理片段。此預覽功能對於需要快速評估分割片段質量和準確性的編輯人員來說無價。

MP4 分割器提供了多種專門的導出選項,以滿足專業視頻編輯人員的需求。其中最顯著的功能之一是 ProRes 422 轉換選項,允許用戶將分割片段轉換為高品質的 ProRes 422(MOV)格式。這種格式對於專業編輯工作流程特別理想,特別是在使用如 Final Cut Pro 之類的軟體時。通過將片段轉換為 ProRes 422,編輯人員可以確保與其編輯工具的最佳性能和相容性,提升整體編輯體驗。然而,需要注意的是,這種轉換過程可能會增加文件大小和處理時間,因此用戶在決定是否使用此功能時應考慮其特定需求和資源。

為了充分利用 MP4 分割器,用戶應專注於了解可用的處理選項。片段時長設定尤其重要,因為它直接影響結果片段的數量和長度。嘗試不同的時長可以幫助用戶找到適合其特定需求的最佳配置。此外,應審慎使用 ProRes 422 轉換選項,考慮到文件大小和處理時間方面的權衡。通過掌握這些功能,用戶可以充分發揮 MP4 分割器的潛力,簡化視頻編輯和內容創建過程。總體而言,MP4 分割器是一款強大的工具,為從內容創作者到專業編輯人員的廣泛用戶群體提供了顯著的好處,使其成為任何視頻相關工作流程的寶貴補充。

Source: https://github.com/elbartohub/mp4_splitter

Categories: 開源, 新聞

WildDet3D:擴展野外可提示的3D檢測

WildDet3D 的主要受益者是電腦視覺、機器人和擴增實境領域的研究人員和開發人員。在非結構化環境中進行準確的3D檢測為機器人操作等應用打開了新的可能性,其中精確的物件定位至關重要。同樣,在AR/VR中,WildDet3D可以通過準確檢測和渲染現實世界環境中的3D物件,實現更沉浸和互動的體驗。

WildDet3D 在3D檢測領域代表了一個重要的進步,特別是在現實世界、非結構化環境中。這個項目由艾倫人工智慧研究所和華盛頓大學等機構的協作團隊領導,為希望提升3D檢測能力的人們提供了一個多功能的工具包。無論您是探索電腦視覺最新技術的研究人員,還是將先進3D檢測整合到應用中的開發人員,WildDet3D 都提供了堅實的基礎供您建立。

對於新手來說,最直接的重點應該是理解核心功能以及如何將其應用於特定的使用案例。該項目的文檔和示範應用提供了一個明確的起點。例如,HuggingFace 互動示範允許用戶在網頁瀏覽器中直接實驗文本、點和框提示,提供了一個直觀的技術介紹。此外,iPhone 應用展示了實時的裝置上3D檢測,展示了WildDet3D在移動環境中的實際應用。

在實踐中,WildDet3D 通過利用先進的機器學習模型來解讀2D圖像並推斷3D空間資訊。該系統可以處理各種類型的提示,包括文本描述、幾何框輸入和視覺範例,以檢測和定位三維空間中的物件。這種靈活性使其特別適用於需要動態和互動3D物件檢測的應用。例如,將WildDet3D與視覺語言模型整合可以增強系統理解並回應關於3D環境的複雜查詢的能力。

然而,也有一些權衡需要考慮。雖然WildDet3D提供了令人印象深刻的性能,但它需要大量的計算資源,特別是對於實時應用。用戶應確保他們有足夠的硬體能力來支持模型的需求。此外,對高品質輸入數據的依賴,如準確的相機內參和可選的深度輸入,可能影響系統的有效性。要達到最佳結果,仔細的校準和數據預處理是必不可少的。

要開始使用WildDet3D,安裝過程涉及克隆儲存庫並設置具有必要依賴項的Python環境。以下是安裝的代碼塊:

Bash
git clone --recurse-submodules https://github.com/allenai/WildDet3D.git
cd WildDet3D
conda create -n wilddet3d python=3.11 -y
conda activate wilddet3d

安裝所有依賴項
pip install -r requirements.txt

安裝後,用戶可以探索該項目提供的各種推理方法。這些包括基於文本提示、幾何框輸入和視覺範例檢測物件。每種方法都有其優點,適用於不同的使用案例。例如,文本提示對於需要自然語言互動的應用最為理想,而框提示則更適合已知特定物件位置的場景。

總之,WildDet3D 是一個強大的工具,用於擴展現實世界應用中的3D檢測。它為研究人員和開發人員提供了一個靈活且堅實的框架,以探索和整合先進的3D檢測能力。雖然需要仔細考慮計算資源和輸入數據品質,但對於電腦視覺、機器人和AR/VR應用的潛在好處使其成為這些領域工作人員工具包中的寶貴添加。通過專注於核心功能並理解實際影響,用戶可以為其特定需求釋放WildDet3D的全部潛力。

Source: https://github.com/allenai/WildDet3D

Categories: 開源, 視覺模型

ACE-Step-1.5:超越幾乎所有商業替代方案的最強本地音樂生成模型,支援 Mac、AMD、Intel 和 CUDA 裝置

StepFun Logo
ace-step/ACE-Step-1.5 on GitHub

ACE-Step v1.5 是一款開創性的開源音樂生成模型,將商業級別的品質帶到消費級硬體上,使其成為音樂創作者、製作人和愛好者的無價工具。該模型擅長快速生成高品質音樂,能夠在 A100 GPU 上於不到 2 秒內生成完整歌曲,在 RTX 3090 上則在不到 10 秒內完成。其效率和性能使廣泛的使用者群體,從業餘愛好者到專業製作人,都能利用先進的音樂生成能力,而無需依賴昂貴的商業軟體。

對於考慮使用 ACE-Step v1.5 的使用者,首先應關注其混合架構,該架構結合了語言模型(LM)與擴散變換器(DiT)。LM 作為規劃者,將使用者查詢轉換為全面的歌曲藍圖,而 DiT 則合成實際的音頻。這種獨特的設置允許對音樂生成過程進行精確控制,使使用者能夠創建從短循環到 10 分鐘作品的各種組成。該模型支援超過 1000 種樂器和風格,提供細緻的音色描述,以滿足多樣化的音樂偏好。

在實際應用中,ACE-Step v1.5 通過使用 LM 生成元數據、歌詞和字幕,透過鏈式思維來引導 DiT 合成音樂。這種內在的強化學習方法確保了對齊,而不受外部偏見的影響,從而生成緊密遵循使用者提示的音樂。使用者還可以透過輕量級 LoRA 訓練來個性化模型,僅需幾首歌曲即可捕捉他們獨特的風格。此功能對於希望創作出反映個人風格的藝術家特別有益。

ACE-Step v1.5 的優勢對於需要多功能和高品質音樂生成工具的音樂創作者來說最為顯著。它支援超過 50 種語言的多語言歌詞,允許全球範圍的創意表達。此外,該模型還提供各種編輯功能,如封面生成、重新繪製和人聲轉 BGM 轉換,增強了其在創意工作流程中的實用性。內容創作者、音樂製作人和藝術家可以將 ACE-Step v1.5 無縫整合到他們的專案中,從其速度、品質和靈活性中受益。

ACE-Step 1.5 XL = Free Music Generation in ComfyUI!

然而,也有一些權衡需要考慮。儘管 ACE-Step v1.5 高度高效,但其性能嚴重依賴於所使用的硬體。使用較弱 GPU 的使用者可能會經歷較慢的生成時間或模型大小的限制。該模型還需要至少 4GB 的 VRAM 才能本地運行,這對於某些使用者來說可能是一個限制。此外,生成的音樂品質,雖然令人印象深刻,但在某些情況下可能無法完全匹配人類創作的組成的細微差異。使用者應準備對輸出進行微調和調整,以更好地滿足他們的特定需求。

為了充分利用 ACE-Step v1.5,使用者應熟悉其各種功能和設置。該模型提供多種語言的廣泛文檔,包括 Gradio Web UI、Studio UI、VST3 插件、Python API、REST API 和 CLI 的指南。這些資源提供了詳細的說明,從基本的音樂生成到高級自訂和訓練,如何有效地使用該模型。透過探索這些工具,使用者可以釋放 ACE-Step v1.5 的全部潛力,創作出符合他們創意願景的音樂。

總之,ACE-Step v1.5 代表了開源音樂生成領域的重大進步,為創作者提供了一個強大且多功能的工具。其速度、品質和自訂選項的結合,使其成為任何希望提升音樂製作能力的人的寶貴資產。儘管存在一些硬體和品質方面的考慮,但對於大多數使用者來說,使用 ACE-Step v1.5 的好處遠遠超過了權衡。透過利用其先進的功能和廣泛的文檔,創作者可以產生高品質的音樂,反映他們獨特的風格和願景。

Source: https://github.com/ace-step/ACE-Step-1.5

Categories: 開源, 模型, 音樂

SpatialEdit:精細圖像空間編輯的基準測試

01
EasonXiao-888/SpatialEdit 在 GitHub 上

SpatialEdit 是一款開創性的工具,適用於對圖像進行精細空間編輯感興趣的人士。它特別適用於需要對物件運動、旋轉、3D視角、構圖和相機移動進行精確控制的開發人員、研究人員和愛好者。該工具不僅僅改變圖像的外觀,還能實現詳細的空間操作。對於任何想深入這一領域的人,首先應該關注 SpatialEdit 的核心功能,例如它處理3D點控制、基於條件幀的視頻生成、相機軌跡轉換、物件移動和物件旋轉的能力。這些功能通過倉庫中的各種應用示範,提供了該工具在實踐中可以實現的清晰視圖。

在實踐中,SpatialEdit 通過結合先進的模型和合成數據集來工作。例如,SpatialEdit-500K 數據集是一個使用可控制的Blender管道生成的合成訓練集。該數據集為物件中心和相機中心操作提供了精確的真實轉換,使其對於可擴展的訓練無價之寶。建立在這些數據上的 SpatialEdit-16B 模型,作為精細空間編輯的基線,不僅在一般編輯任務上達到競爭性表現,而且在空間操作上表現出色。用戶應注意運行代碼所需的先決條件和外部檢查點,例如用於相機級基準評估的VGGT和用於構圖評估的YOLO26x。

從中受益最大的人是那些從事計算機視覺、圖像處理和機器學習研究的人。研究人員可以使用基準測試套件 SpatialEdit-Bench 來評估他們的空間編輯模型的有效性。該基準聯合測量感知逼真度和幾何保真度,確保編輯的圖像不僅在視覺上可信,而且在幾何上準確。對於開發人員,SpatialEdit 提供了一個堅固的框架,用於創建需要對圖像進行精確空間控制的應用,例如在虛擬現實、增強現實和數字內容創作中。

然而,需要考慮一些權衡。設置過程可能很複雜,需要兼容的CUDA和PyTorch環境來運行閃電注意力機制。此外,一些配置文件包含需要在運行推理之前更新的佔位符或內部路徑。用戶還應注意,基準腳本假設可以訪問外部基準元數據、源圖像和模型檢查點。這些要求對於新入行的人可能構成挑戰,但倉庫中提供的詳細文檔和示例評估工具可以幫助減輕這些問題。

總之,SpatialEdit 是一個強大的空間基礎圖像編輯工具,提供對各種空間轉換的精確控制。它最適合需要進行精細空間操作的研究人員和開發人員。用戶應專注於了解該工具的核心功能和先決條件,同時注意其中的權衡。通過利用 SpatialEdit-500K 數據集和 SpatialEdit-16B 模型,可以在空間編輯任務中達到競爭性表現。對於計算機視覺和圖像處理領域的人來說,其好處是顯著的,但要充分利用該工具的潛力,需要仔細設置和配置。

  • 主要功能:3D點控制、基於條件幀的視頻生成、相機軌跡轉換、物件移動和物件旋轉。
  • 目標受眾:計算機視覺、圖像處理和機器學習領域的研究人員、開發人員和愛好者。
  • 權衡:複雜的設置過程、需要兼容的硬體和軟體環境,以及更新配置文件中的內部路徑。

Source: https://github.com/EasonXiao-888/SpatialEdit

Categories: 開源, 影像處理

OpenCook:專案特定的程式開發代理個人化

CLI 概覽
OpenDataBox/OpenCook 在 GitHub 上

OpenCook 是一個開創性的工具,旨在彌合強大但通用的程式開發代理與深入個人化程式碼實現之間的差距。對於處理複雜專案並有嚴格規範的開發者來說,這尤其有價值,他們需要能夠無縫整合到現有程式碼庫中的功能。透過利用 實作指南規範 和多層級 記憶 系統,OpenCook 確保程式開發代理能夠執行尊重每個專案獨特特徵的任務,從樣式指南到構建系統和回歸測試。

誰應該嘗試 OpenCook?主要是處理大型、複雜程式碼庫並需要高度自訂和遵循特定編碼標準的開發者和團隊。這包括涉及資料庫功能、語言運行時和編譯器後端的專案。對於這些使用者,OpenCook 提供了一種自動化新功能實現的方式,同時維護他們程式碼的完整性和品質。

在開始使用 OpenCook 時,首先應該專注於理解和配置 實作指南規範。這些是引導程式開發代理在您專案的特定背景下正確實現功能的核心組件。實作指南提供針對您領域的逐步指示,而規範則編碼代理必須遵循的慣例和約束。透過正確設置這些,您可以確保代理的行動與您的專案需求一致。

在實際操作中,OpenCook 通過 規劃 → 編碼 → 測試 管道運行,由專業代理驅動:CodeAgent、PlanAgent 和 TestAgent。PlanAgent 首先分解任務並識別相關文件和入口點,確保變更正確地範圍化。然後,CodeAgent 在注入的實作指南和規範的指導下編寫程式碼,而 TestAgent 則驗證變更是否編譯並通過所有測試。這個迭代過程持續進行,直到產生一個完全功能齊全且可合併的補丁。

使用 OpenCook 的好處對於經常需要實現新功能或對程式碼庫進行重大變更的團隊來說最為顯著。它減少了確保新程式碼遵循專案慣例並通過所有必要檢查所需的手動工作。這導致更快的開發週期和更高的程式碼品質。此外,持久記憶系統有助於代理在會話之間保留知識,隨著時間的推移提高其性能。

然而,有一些權衡需要考慮。設置 OpenCook 需要對您專案的結構和慣例有良好的理解。創建有效的實作指南和規範可能很耗時,特別是對於複雜的專案。此外,雖然 OpenCook 支援各種 LLM 提供商,但結果的品質可能會根據所選模型而有所不同。開發者應嘗試不同的模型,以找到最適合他們需求的模型。

總之,OpenCook 是一個創新的解決方案,旨在提升程式開發代理的能力。透過專注於專案特定的個人化,它實現了更精確和自動化的程式碼實現。雖然它需要一些初始設置和配置,但在程式碼品質和開發效率方面的益處使其成為複雜專案的寶貴工具。開發者應考慮將 OpenCook 整合到他們的工作流程中,以簡化功能實現並維持高編碼標準。

Source: https://github.com/OpenDataBox/OpenCook

Categories: 開源, 編程

SkillClaw:讓技能在代理群體中共同進化

SkillClaw
AMAP-ML/SkillClaw 在 GitHub 上

SkillClaw 透過從真實會話數據中進化可重用的技能,並在代理群體中共享這些技能,使 LLM 代理逐漸變得更好。

[!NOTE] SkillClaw 是一個在多用戶 OpenClaw 風格代理生態系統中實現技能集體進化的框架。它自動從多個用戶和代理的真實世界經驗中提煉出可重用的技能,並通過雲端共享這些技能,以實現整個代理群體的持續進化。

  • 與 OpenAI 兼容的 LLM API 端點
  • 客戶端 / 共享憑證:example env.sh
  • 進化伺服器環境模板:evolve server/.env.example
  • 檢查配置:skillclaw config show

Source: https://github.com/AMAP-ML/SkillClaw

Categories: 開源, Agentic

NVlabs/Sana:SANA:使用線性擴散變換器進行高效高解析度影像合成:快速專案概覽

logo
來源:GitHub 上的 NVlabs/Sana

SANA 是一個以效率為導向的代碼庫,用於高解析度影像和視訊生成,提供完整的訓練和推理管道。此儲存庫包含 SANA、SANA-1.5、SANA-Sprint 和 SANA-Video 的代碼。更多詳細資訊可以在我們的 📚 文件中找到。

我們介紹 SANA ,一系列用於高解析度影像和視訊生成的高效擴散模型:

  • SANA :生成高達 4K 解析度的文本到影像,比 Flux-12B 小 20 倍且快 100 倍。
  • SANA-1.5 :在訓練時間和推理時間進行高效的計算擴展,以獲得更好的品質。
  • SANA-Sprint :透過 sCM 蒸餾進行一步/少步生成,在 H100 上每張 1024px 影像只需 0.1 秒。
  • SANA-Video/LongSANA :使用區塊線性注意力 / 配合 LongLive 進行高效的視訊生成。
  • 線性注意力 :在 DiT 中用線性注意力替換傳統注意力,以在高解析度下提高效率。
  • DC-AE :32× 影像壓縮(與傳統的 8× 相比)以減少潛在令牌。

來源:https://github.com/NVlabs/Sana (NVlabs/Sana)

Source: https://github.com/NVlabs/Sana

Categories: 開源, 香港大學, NVIDIA, 影像模型, 新聞

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理,佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考,先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習,令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色,仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源,方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 開源, 香港中文大學, , 影像模型, 中國

LGTM – 0.5 秒 重建 3D 場景

LGTM 是首個原生支援 4K 饋送前向(feed-forward)方法,透過預測緊湊的高斯原語(Gaussian primitives)搭配每個原語的紋理(textures),解耦幾何複雜度與渲染解析度,避免傳統方法隨解析度增加而原語數量二次方爆炸。這是由 Yixing Lao(香港大學博士生)領導的 3D 高斯噴濺(Gaussian Splatting)研究項目,已被 ICLR 2026 接受。

Categories: 開源, 香港大學, 視覺模型, 視頻模型

Page 23 of 43
1 21 22 23 24 25 43