WildDet3D:擴展野外可提示的3D檢測

WildDet3D 的主要受益者是電腦視覺、機器人和擴增實境領域的研究人員和開發人員。在非結構化環境中進行準確的3D檢測為機器人操作等應用打開了新的可能性,其中精確的物件定位至關重要。同樣,在AR/VR中,WildDet3D可以通過準確檢測和渲染現實世界環境中的3D物件,實現更沉浸和互動的體驗。

WildDet3D 在3D檢測領域代表了一個重要的進步,特別是在現實世界、非結構化環境中。這個項目由艾倫人工智慧研究所和華盛頓大學等機構的協作團隊領導,為希望提升3D檢測能力的人們提供了一個多功能的工具包。無論您是探索電腦視覺最新技術的研究人員,還是將先進3D檢測整合到應用中的開發人員,WildDet3D 都提供了堅實的基礎供您建立。

對於新手來說,最直接的重點應該是理解核心功能以及如何將其應用於特定的使用案例。該項目的文檔和示範應用提供了一個明確的起點。例如,HuggingFace 互動示範允許用戶在網頁瀏覽器中直接實驗文本、點和框提示,提供了一個直觀的技術介紹。此外,iPhone 應用展示了實時的裝置上3D檢測,展示了WildDet3D在移動環境中的實際應用。

在實踐中,WildDet3D 通過利用先進的機器學習模型來解讀2D圖像並推斷3D空間資訊。該系統可以處理各種類型的提示,包括文本描述、幾何框輸入和視覺範例,以檢測和定位三維空間中的物件。這種靈活性使其特別適用於需要動態和互動3D物件檢測的應用。例如,將WildDet3D與視覺語言模型整合可以增強系統理解並回應關於3D環境的複雜查詢的能力。

然而,也有一些權衡需要考慮。雖然WildDet3D提供了令人印象深刻的性能,但它需要大量的計算資源,特別是對於實時應用。用戶應確保他們有足夠的硬體能力來支持模型的需求。此外,對高品質輸入數據的依賴,如準確的相機內參和可選的深度輸入,可能影響系統的有效性。要達到最佳結果,仔細的校準和數據預處理是必不可少的。

要開始使用WildDet3D,安裝過程涉及克隆儲存庫並設置具有必要依賴項的Python環境。以下是安裝的代碼塊:

Bash
git clone --recurse-submodules https://github.com/allenai/WildDet3D.git
cd WildDet3D
conda create -n wilddet3d python=3.11 -y
conda activate wilddet3d

安裝所有依賴項
pip install -r requirements.txt

安裝後,用戶可以探索該項目提供的各種推理方法。這些包括基於文本提示、幾何框輸入和視覺範例檢測物件。每種方法都有其優點,適用於不同的使用案例。例如,文本提示對於需要自然語言互動的應用最為理想,而框提示則更適合已知特定物件位置的場景。

總之,WildDet3D 是一個強大的工具,用於擴展現實世界應用中的3D檢測。它為研究人員和開發人員提供了一個靈活且堅實的框架,以探索和整合先進的3D檢測能力。雖然需要仔細考慮計算資源和輸入數據品質,但對於電腦視覺、機器人和AR/VR應用的潛在好處使其成為這些領域工作人員工具包中的寶貴添加。通過專注於核心功能並理解實際影響,用戶可以為其特定需求釋放WildDet3D的全部潛力。

Source: https://github.com/allenai/WildDet3D

Categories: 視覺模型, 開源

ACE-Step-1.5:超越幾乎所有商業替代方案的最強本地音樂生成模型,支援 Mac、AMD、Intel 和 CUDA 裝置

StepFun Logo
ace-step/ACE-Step-1.5 on GitHub

ACE-Step v1.5 是一款開創性的開源音樂生成模型,將商業級別的品質帶到消費級硬體上,使其成為音樂創作者、製作人和愛好者的無價工具。該模型擅長快速生成高品質音樂,能夠在 A100 GPU 上於不到 2 秒內生成完整歌曲,在 RTX 3090 上則在不到 10 秒內完成。其效率和性能使廣泛的使用者群體,從業餘愛好者到專業製作人,都能利用先進的音樂生成能力,而無需依賴昂貴的商業軟體。

對於考慮使用 ACE-Step v1.5 的使用者,首先應關注其混合架構,該架構結合了語言模型(LM)與擴散變換器(DiT)。LM 作為規劃者,將使用者查詢轉換為全面的歌曲藍圖,而 DiT 則合成實際的音頻。這種獨特的設置允許對音樂生成過程進行精確控制,使使用者能夠創建從短循環到 10 分鐘作品的各種組成。該模型支援超過 1000 種樂器和風格,提供細緻的音色描述,以滿足多樣化的音樂偏好。

在實際應用中,ACE-Step v1.5 通過使用 LM 生成元數據、歌詞和字幕,透過鏈式思維來引導 DiT 合成音樂。這種內在的強化學習方法確保了對齊,而不受外部偏見的影響,從而生成緊密遵循使用者提示的音樂。使用者還可以透過輕量級 LoRA 訓練來個性化模型,僅需幾首歌曲即可捕捉他們獨特的風格。此功能對於希望創作出反映個人風格的藝術家特別有益。

ACE-Step v1.5 的優勢對於需要多功能和高品質音樂生成工具的音樂創作者來說最為顯著。它支援超過 50 種語言的多語言歌詞,允許全球範圍的創意表達。此外,該模型還提供各種編輯功能,如封面生成、重新繪製和人聲轉 BGM 轉換,增強了其在創意工作流程中的實用性。內容創作者、音樂製作人和藝術家可以將 ACE-Step v1.5 無縫整合到他們的專案中,從其速度、品質和靈活性中受益。

ACE-Step 1.5 XL = Free Music Generation in ComfyUI!

然而,也有一些權衡需要考慮。儘管 ACE-Step v1.5 高度高效,但其性能嚴重依賴於所使用的硬體。使用較弱 GPU 的使用者可能會經歷較慢的生成時間或模型大小的限制。該模型還需要至少 4GB 的 VRAM 才能本地運行,這對於某些使用者來說可能是一個限制。此外,生成的音樂品質,雖然令人印象深刻,但在某些情況下可能無法完全匹配人類創作的組成的細微差異。使用者應準備對輸出進行微調和調整,以更好地滿足他們的特定需求。

為了充分利用 ACE-Step v1.5,使用者應熟悉其各種功能和設置。該模型提供多種語言的廣泛文檔,包括 Gradio Web UI、Studio UI、VST3 插件、Python API、REST API 和 CLI 的指南。這些資源提供了詳細的說明,從基本的音樂生成到高級自訂和訓練,如何有效地使用該模型。透過探索這些工具,使用者可以釋放 ACE-Step v1.5 的全部潛力,創作出符合他們創意願景的音樂。

總之,ACE-Step v1.5 代表了開源音樂生成領域的重大進步,為創作者提供了一個強大且多功能的工具。其速度、品質和自訂選項的結合,使其成為任何希望提升音樂製作能力的人的寶貴資產。儘管存在一些硬體和品質方面的考慮,但對於大多數使用者來說,使用 ACE-Step v1.5 的好處遠遠超過了權衡。透過利用其先進的功能和廣泛的文檔,創作者可以產生高品質的音樂,反映他們獨特的風格和願景。

Source: https://github.com/ace-step/ACE-Step-1.5

Categories: 模型, 開源, 音樂

SpatialEdit:精細圖像空間編輯的基準測試

01
EasonXiao-888/SpatialEdit 在 GitHub 上

SpatialEdit 是一款開創性的工具,適用於對圖像進行精細空間編輯感興趣的人士。它特別適用於需要對物件運動、旋轉、3D視角、構圖和相機移動進行精確控制的開發人員、研究人員和愛好者。該工具不僅僅改變圖像的外觀,還能實現詳細的空間操作。對於任何想深入這一領域的人,首先應該關注 SpatialEdit 的核心功能,例如它處理3D點控制、基於條件幀的視頻生成、相機軌跡轉換、物件移動和物件旋轉的能力。這些功能通過倉庫中的各種應用示範,提供了該工具在實踐中可以實現的清晰視圖。

在實踐中,SpatialEdit 通過結合先進的模型和合成數據集來工作。例如,SpatialEdit-500K 數據集是一個使用可控制的Blender管道生成的合成訓練集。該數據集為物件中心和相機中心操作提供了精確的真實轉換,使其對於可擴展的訓練無價之寶。建立在這些數據上的 SpatialEdit-16B 模型,作為精細空間編輯的基線,不僅在一般編輯任務上達到競爭性表現,而且在空間操作上表現出色。用戶應注意運行代碼所需的先決條件和外部檢查點,例如用於相機級基準評估的VGGT和用於構圖評估的YOLO26x。

從中受益最大的人是那些從事計算機視覺、圖像處理和機器學習研究的人。研究人員可以使用基準測試套件 SpatialEdit-Bench 來評估他們的空間編輯模型的有效性。該基準聯合測量感知逼真度和幾何保真度,確保編輯的圖像不僅在視覺上可信,而且在幾何上準確。對於開發人員,SpatialEdit 提供了一個堅固的框架,用於創建需要對圖像進行精確空間控制的應用,例如在虛擬現實、增強現實和數字內容創作中。

然而,需要考慮一些權衡。設置過程可能很複雜,需要兼容的CUDA和PyTorch環境來運行閃電注意力機制。此外,一些配置文件包含需要在運行推理之前更新的佔位符或內部路徑。用戶還應注意,基準腳本假設可以訪問外部基準元數據、源圖像和模型檢查點。這些要求對於新入行的人可能構成挑戰,但倉庫中提供的詳細文檔和示例評估工具可以幫助減輕這些問題。

總之,SpatialEdit 是一個強大的空間基礎圖像編輯工具,提供對各種空間轉換的精確控制。它最適合需要進行精細空間操作的研究人員和開發人員。用戶應專注於了解該工具的核心功能和先決條件,同時注意其中的權衡。通過利用 SpatialEdit-500K 數據集和 SpatialEdit-16B 模型,可以在空間編輯任務中達到競爭性表現。對於計算機視覺和圖像處理領域的人來說,其好處是顯著的,但要充分利用該工具的潛力,需要仔細設置和配置。

  • 主要功能:3D點控制、基於條件幀的視頻生成、相機軌跡轉換、物件移動和物件旋轉。
  • 目標受眾:計算機視覺、圖像處理和機器學習領域的研究人員、開發人員和愛好者。
  • 權衡:複雜的設置過程、需要兼容的硬體和軟體環境,以及更新配置文件中的內部路徑。

Source: https://github.com/EasonXiao-888/SpatialEdit

Categories: 影像處理, 開源

OpenCook:專案特定的程式開發代理個人化

CLI 概覽
OpenDataBox/OpenCook 在 GitHub 上

OpenCook 是一個開創性的工具,旨在彌合強大但通用的程式開發代理與深入個人化程式碼實現之間的差距。對於處理複雜專案並有嚴格規範的開發者來說,這尤其有價值,他們需要能夠無縫整合到現有程式碼庫中的功能。透過利用 實作指南規範 和多層級 記憶 系統,OpenCook 確保程式開發代理能夠執行尊重每個專案獨特特徵的任務,從樣式指南到構建系統和回歸測試。

誰應該嘗試 OpenCook?主要是處理大型、複雜程式碼庫並需要高度自訂和遵循特定編碼標準的開發者和團隊。這包括涉及資料庫功能、語言運行時和編譯器後端的專案。對於這些使用者,OpenCook 提供了一種自動化新功能實現的方式,同時維護他們程式碼的完整性和品質。

在開始使用 OpenCook 時,首先應該專注於理解和配置 實作指南規範。這些是引導程式開發代理在您專案的特定背景下正確實現功能的核心組件。實作指南提供針對您領域的逐步指示,而規範則編碼代理必須遵循的慣例和約束。透過正確設置這些,您可以確保代理的行動與您的專案需求一致。

在實際操作中,OpenCook 通過 規劃 → 編碼 → 測試 管道運行,由專業代理驅動:CodeAgent、PlanAgent 和 TestAgent。PlanAgent 首先分解任務並識別相關文件和入口點,確保變更正確地範圍化。然後,CodeAgent 在注入的實作指南和規範的指導下編寫程式碼,而 TestAgent 則驗證變更是否編譯並通過所有測試。這個迭代過程持續進行,直到產生一個完全功能齊全且可合併的補丁。

使用 OpenCook 的好處對於經常需要實現新功能或對程式碼庫進行重大變更的團隊來說最為顯著。它減少了確保新程式碼遵循專案慣例並通過所有必要檢查所需的手動工作。這導致更快的開發週期和更高的程式碼品質。此外,持久記憶系統有助於代理在會話之間保留知識,隨著時間的推移提高其性能。

然而,有一些權衡需要考慮。設置 OpenCook 需要對您專案的結構和慣例有良好的理解。創建有效的實作指南和規範可能很耗時,特別是對於複雜的專案。此外,雖然 OpenCook 支援各種 LLM 提供商,但結果的品質可能會根據所選模型而有所不同。開發者應嘗試不同的模型,以找到最適合他們需求的模型。

總之,OpenCook 是一個創新的解決方案,旨在提升程式開發代理的能力。透過專注於專案特定的個人化,它實現了更精確和自動化的程式碼實現。雖然它需要一些初始設置和配置,但在程式碼品質和開發效率方面的益處使其成為複雜專案的寶貴工具。開發者應考慮將 OpenCook 整合到他們的工作流程中,以簡化功能實現並維持高編碼標準。

Source: https://github.com/OpenDataBox/OpenCook

Categories: 編程, 開源

SkillClaw:讓技能在代理群體中共同進化

SkillClaw
AMAP-ML/SkillClaw 在 GitHub 上

SkillClaw 透過從真實會話數據中進化可重用的技能,並在代理群體中共享這些技能,使 LLM 代理逐漸變得更好。

[!NOTE] SkillClaw 是一個在多用戶 OpenClaw 風格代理生態系統中實現技能集體進化的框架。它自動從多個用戶和代理的真實世界經驗中提煉出可重用的技能,並通過雲端共享這些技能,以實現整個代理群體的持續進化。

  • 與 OpenAI 兼容的 LLM API 端點
  • 客戶端 / 共享憑證:example env.sh
  • 進化伺服器環境模板:evolve server/.env.example
  • 檢查配置:skillclaw config show

Source: https://github.com/AMAP-ML/SkillClaw

Categories: Agent, 開源

NVlabs/Sana:SANA:使用線性擴散變換器進行高效高解析度影像合成:快速專案概覽

logo
來源:GitHub 上的 NVlabs/Sana

SANA 是一個以效率為導向的代碼庫,用於高解析度影像和視訊生成,提供完整的訓練和推理管道。此儲存庫包含 SANA、SANA-1.5、SANA-Sprint 和 SANA-Video 的代碼。更多詳細資訊可以在我們的 📚 文件中找到。

我們介紹 SANA ,一系列用於高解析度影像和視訊生成的高效擴散模型:

  • SANA :生成高達 4K 解析度的文本到影像,比 Flux-12B 小 20 倍且快 100 倍。
  • SANA-1.5 :在訓練時間和推理時間進行高效的計算擴展,以獲得更好的品質。
  • SANA-Sprint :透過 sCM 蒸餾進行一步/少步生成,在 H100 上每張 1024px 影像只需 0.1 秒。
  • SANA-Video/LongSANA :使用區塊線性注意力 / 配合 LongLive 進行高效的視訊生成。
  • 線性注意力 :在 DiT 中用線性注意力替換傳統注意力,以在高解析度下提高效率。
  • DC-AE :32× 影像壓縮(與傳統的 8× 相比)以減少潛在令牌。

來源:https://github.com/NVlabs/Sana (NVlabs/Sana)

Source: https://github.com/NVlabs/Sana

Categories: 香港大學, NVIDIA, 影像模型, 新聞, 開源

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理,佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考,先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習,令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色,仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源,方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 香港中文大學, , 影像模型, 開源, 中國

LGTM – 0.5 秒 重建 3D 場景

LGTM 是首個原生支援 4K 饋送前向(feed-forward)方法,透過預測緊湊的高斯原語(Gaussian primitives)搭配每個原語的紋理(textures),解耦幾何複雜度與渲染解析度,避免傳統方法隨解析度增加而原語數量二次方爆炸。這是由 Yixing Lao(香港大學博士生)領導的 3D 高斯噴濺(Gaussian Splatting)研究項目,已被 ICLR 2026 接受。

Categories: 香港大學, 視覺模型, 視頻模型, 開源

ClawKeeper 安全插件

ClawKeeper 是 SafeAI-Lab-X 開發的開源專案,提供 OpenClaw 自主代理的全面即時安全框架。

ClawKeeper 透過三層架構保護 OpenClaw 代理:技能層(指令級政策注入)、插件層(運行時執行與監控)、監視器層(獨立外部監督,可中斷高風險動作)。
它防範提示注入、憑證洩漏、代碼注入等威脅,並支援跨平台與雲端部署。

Categories: 開源, OpenClaw

四個提升作業效能的開源工具

You NEED to try these open-source AI projects right now...

GStack 由 Y Combinator 總裁 Garry Tan 開發,已獲近 5 萬 GitHub 星標,提供 20+ 角色工具如 CEO 審核、工程經理和 QA。
安裝簡單,只需在 Claude Code 貼上指令,即可透過 /gstack 命令啟用辦公室會議、程式碼審核等流程。
適合 solo 開發者模擬矽谷團隊,基於 Tan 的創業經驗。

NousResearch 的 Hermes Agent 類似 OpenClaw,已有 12k+ 星標,具自改善迴圈,能從經驗產生技能並優化。
支援終端介面、多聊天 app(如 Telegram)、並行子代理和記憶遷移。
強調自主學習,適合想探索 OpenClaw 替代者的你。

Obra 的 Superpowers 插件給 Claude Code 超能力,已超 11 萬星標,聚焦 TDD(測試驅動開發)和工作樹平行化。
安裝只需 claude plugin install superpowers,即用 /s brainstorm 等命令規劃、執行和審核程式碼。
強調從腦storm 到部署的全流程,適合開發導向使用者。

Paperclip 旨在打造零人力公司,33k+ 星標,使用 Node.js 和 React UI 協調 AI 代理團隊追蹤目標、成本和工單。
如 CEO、CTO 等角色自動處理 issue,支援心跳排程和審計日誌,但作者警告不易立即獲利。
未來將加知識庫和 OpenClaw 整合,適合實驗自主業務。

Categories: 新聞, 開源

Page 3 of 23
1 2 3 4 5 23