AnyRecon:使用視頻擴散模型進行任意視角3D重建

logo
OpenImagingLab/AnyRecon 在 GitHub 上

AnyRecon利用視頻擴散模型從輸入視頻中重建任意的3D視圖。這個創新的工具對於希望探索視覺敘事新維度的內容創作者和研究人員特別有用。

在開始使用AnyRecon時,最初應專注於理解其核心功能——將連續幀轉換為空間上一致的3D重建。該過程涉及將視頻數據通過預訓練模型,該模型輸出詳細的3D模型。此工作流程需要仔細準備輸入視頻並精確配置模型參數。

研究人員和藝術家最能受益於AnyRecon的功能。它使他們能夠從現有的視頻內容生成沉浸式的3D環境,為虛擬現實應用和互動媒體打開了可能性。然而,用戶應該意識到該工具需要強大的大型語言模型(LLM)才能達到最佳性能。

主要收穫包括:
* AnyRecon使用視頻擴散模型進行3D重建。
* 適合內容創作和研究目的。
* 需要堅固的LLM以獲得最佳效果。

了解AnyRecon的底層機制有助於用戶有效地量身定製他們的項目。通過嘗試不同的視頻輸入和調整設置,創作者可以解鎖獨特的視覺體驗。

Source: https://github.com/OpenImagingLab/AnyRecon

Categories: 香港大學, 香港中文大學, 影像處理, 模型, 開源

Vista4D 使用 4D 點雲進行視頻重拍

Vista4D 預告圖
Eyeline-Labs/Vista4D 在 GitHub 上

Vista4D 提供了一種獨特的視頻重拍方法,通過從新的角度合成場景。它利用 4D 點雲有效地處理現實世界中的視頻缺陷。這使得它特別適合希望擴展其視覺敘事能力的創作者。

在開始使用 Vista4D 時,重點是理解其核心功能——從新穎的角度重拍視頻。該框架對點雲工件的強健性確保了即使在不完美的重建下也能可靠運行。此特性對於維護場景完整性至關重要。

在實際應用中,Vista4D 受益於動態場景擴展和 4D 場景重組的專業人士。它在保留場景內容的同時允許精確的相機控制,為創意編輯打開了大門。用戶可以預期在視頻製作流程中獲得增強的靈活性。

該框架需要一個強大的大型語言模型(LLM)以獲得最佳結果。創作者和編輯人員將發現 Vista4D 因其創新性的視頻操作方法而極具價值。

• 使用新穎視角增強視頻重拍
• 對點雲工件具有強健性
• 適合動態場景擴展和重組

Source: https://github.com/Eyeline-Labs/Vista4D

Categories: 影像模型, 影像處理, 模型, 視頻模型, 開源

ClawGUI:建立、評估和部署GUI代理

ClawGUI 標誌
ZJU-REAL/ClawGUI 在GitHub上

ClawGUI 是一個為研究人員和開發人員設計的堅固框架,專門用於處理GUI代理。它提供了一個統一的解決方案,用於訓練、評估和部署這些代理,使其成為AI和移動自動化領域的無價工具。對於新手來說,最好的起點是ClawGUI-RL,它專注於通過線上強化學習來建立GUI代理。這個模組利用了平行多環境設置和真實設備訓練,確保代理可以在各種場景中高效且有效地進行訓練。

在實踐中,ClawGUI 通過整合三個核心組件來運作:ClawGUI-RL 用於訓練,ClawGUI-Eval 用於評估,以及ClawGUI-Agent 用於部署。訓練階段使用了先進的技術,如GiGPO + PRM來優化策略學習,而評估階段則提供了六個基準測試進行嚴格測試。最後,部署階段允許進行真實世界的應用,透過自然語言來控制移動設備。這種無縫整合確保了GUI代理的整個生命週期可以在單一框架內進行管理。

最能從ClawGUI中受益的是那些從事尖端AI研究和移動自動化的人。研究人員可以使用這個框架來開發和測試新的演算法,而開發人員則可以在真實世界應用中部署這些代理。該框架處理複雜任務的能力,如細粒度步驟級獎勵和訓練期間的自動故障轉移,使其特別適用於需要高可靠性和性能的專案。

然而,也有一些權衡需要考慮。ClawGUI的複雜性意味著用戶需要對強化學習和GUI代理開發有紮實的理解。此外,運行平行環境和真實設備訓練的資源需求可能相當大。用戶在深入之前應確保擁有足夠的計算資源。儘管存在這些挑戰,ClawGUI仍為希望推進GUI代理領域的任何人提供了一個強大且靈活的解決方案。

一些需要關注的關鍵特點包括平行多環境設置,這允許在多個基於Docker的Android環境中進行高效訓練。真實設備訓練能力也至關重要,因為它確保代理可以在真實世界條件下進行測試和優化。對於評估,ClawGUI-Eval提供的六個基準測試提供了一套全面的測試來衡量代理的性能。最後,ClawGUI-Agent中的部署選項,包括跨平台支援和自然語言控制,使得將GUI代理整合到各種應用中變得輕鬆。

ClawGUI是一個全面的框架,涵蓋了GUI代理的整個生命週期。它特別有益於AI和移動自動化領域的研究人員和開發人員,提供了先進的訓練技術、嚴格的評估方法和靈活的部署選項。雖然它需要在相關技術方面有堅實的基礎,但其提供的益處使它成為那些希望推動GUI代理開發邊界的值得投資的選擇。

Source: https://github.com/ZJU-REAL/ClawGUI

Categories: Agent, 模型, 編程, 開源

ACE-Step-1.5:超越幾乎所有商業替代方案的最強本地音樂生成模型,支援 Mac、AMD、Intel 和 CUDA 裝置

StepFun Logo
ace-step/ACE-Step-1.5 on GitHub

ACE-Step v1.5 是一款開創性的開源音樂生成模型,將商業級別的品質帶到消費級硬體上,使其成為音樂創作者、製作人和愛好者的無價工具。該模型擅長快速生成高品質音樂,能夠在 A100 GPU 上於不到 2 秒內生成完整歌曲,在 RTX 3090 上則在不到 10 秒內完成。其效率和性能使廣泛的使用者群體,從業餘愛好者到專業製作人,都能利用先進的音樂生成能力,而無需依賴昂貴的商業軟體。

對於考慮使用 ACE-Step v1.5 的使用者,首先應關注其混合架構,該架構結合了語言模型(LM)與擴散變換器(DiT)。LM 作為規劃者,將使用者查詢轉換為全面的歌曲藍圖,而 DiT 則合成實際的音頻。這種獨特的設置允許對音樂生成過程進行精確控制,使使用者能夠創建從短循環到 10 分鐘作品的各種組成。該模型支援超過 1000 種樂器和風格,提供細緻的音色描述,以滿足多樣化的音樂偏好。

在實際應用中,ACE-Step v1.5 通過使用 LM 生成元數據、歌詞和字幕,透過鏈式思維來引導 DiT 合成音樂。這種內在的強化學習方法確保了對齊,而不受外部偏見的影響,從而生成緊密遵循使用者提示的音樂。使用者還可以透過輕量級 LoRA 訓練來個性化模型,僅需幾首歌曲即可捕捉他們獨特的風格。此功能對於希望創作出反映個人風格的藝術家特別有益。

ACE-Step v1.5 的優勢對於需要多功能和高品質音樂生成工具的音樂創作者來說最為顯著。它支援超過 50 種語言的多語言歌詞,允許全球範圍的創意表達。此外,該模型還提供各種編輯功能,如封面生成、重新繪製和人聲轉 BGM 轉換,增強了其在創意工作流程中的實用性。內容創作者、音樂製作人和藝術家可以將 ACE-Step v1.5 無縫整合到他們的專案中,從其速度、品質和靈活性中受益。

ACE-Step 1.5 XL = Free Music Generation in ComfyUI!

然而,也有一些權衡需要考慮。儘管 ACE-Step v1.5 高度高效,但其性能嚴重依賴於所使用的硬體。使用較弱 GPU 的使用者可能會經歷較慢的生成時間或模型大小的限制。該模型還需要至少 4GB 的 VRAM 才能本地運行,這對於某些使用者來說可能是一個限制。此外,生成的音樂品質,雖然令人印象深刻,但在某些情況下可能無法完全匹配人類創作的組成的細微差異。使用者應準備對輸出進行微調和調整,以更好地滿足他們的特定需求。

為了充分利用 ACE-Step v1.5,使用者應熟悉其各種功能和設置。該模型提供多種語言的廣泛文檔,包括 Gradio Web UI、Studio UI、VST3 插件、Python API、REST API 和 CLI 的指南。這些資源提供了詳細的說明,從基本的音樂生成到高級自訂和訓練,如何有效地使用該模型。透過探索這些工具,使用者可以釋放 ACE-Step v1.5 的全部潛力,創作出符合他們創意願景的音樂。

總之,ACE-Step v1.5 代表了開源音樂生成領域的重大進步,為創作者提供了一個強大且多功能的工具。其速度、品質和自訂選項的結合,使其成為任何希望提升音樂製作能力的人的寶貴資產。儘管存在一些硬體和品質方面的考慮,但對於大多數使用者來說,使用 ACE-Step v1.5 的好處遠遠超過了權衡。透過利用其先進的功能和廣泛的文檔,創作者可以產生高品質的音樂,反映他們獨特的風格和願景。

Source: https://github.com/ace-step/ACE-Step-1.5

Categories: 模型, 開源, 音樂

daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人(human‑centric)的文本到視頻生成模型,同時支援視頻與音頻 token 的聯合生成,主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab(中國上海人工智慧實驗室 SII‑GAIR)與 Sand.ai 這兩方聯合開發

  • 單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer,僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力,也無需多流處理。
  • 🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
  • 🌍多語言— 支援中文(國語和粵語)、英語、日語、韓語、德語和法語。
  • 超快推理-在單一 H100 GPU 上,可在2 秒內產生 5 秒 256p 視頻,在38 秒內產生5 秒 1080p 影片。
  • 🏆最先進的結果—在超過 2,000 次的成對人工評估中,與 Ovi 1.1 的勝率達到80.0% ,與 LTX 2.3 的勝率達到60.9% 。
  • 📦完全開源— 我們發布完整的模型堆疊:基礎模型、精煉模型、超解析度模型和推理程式碼。
Categories: 數字人, 模型, 視頻模型, 開源

Code2World 基於動作預測的 GUI 代理

Code2World 本身不是一個「GUI 設計工具」,但它可以用在「優化 GUI 設計」的流程裡,特別是幫你 驗證設計是否好操作、是否容易出錯、是否符合使用者行為預期。Code2World 以靈活的方式顯著提升了下游導航的成功率,在 AndroidWorld 導航方面,其性能比 Gemini-2.5-Flash 提升了 9.5%。

它透過產生可渲染的程式碼來模擬下一個視覺狀態。實驗表明,Code2World-8B 在下一界面 UI 預測方面表現卓越,足以媲美 GPT-5 和 Gemini-3-Pro-Image 等競爭對手。(Huggingface 模型及數據集出現 404)(圖為預測介面的結果)

Categories: 阿里巴巴, Agent, 模型, 編程, 開源

LongVie 2 – 可控超長影片生成

可控的超長影片生成是一項基礎但具有挑戰性的任務,因為現有的方法雖然對短片段有效,但由於時間不一致和視覺品質下降等問題而難以擴展。

LongVie 2 的核心設計可確保時間一致性:
1)統一雜訊初始化策略,在各個片段之間保持一致的生成;
2)全域控制訊號歸一化,可在整個視訊的控制空間中強制對齊。為了減輕視覺品質下降,LongVie 2 採用密集(例如深度圖)和稀疏(例如關鍵點)控制訊號,並輔以一種退化感知訓練策略,可以自適應地平衡模態貢獻以保持視覺品質。

LongVie 2 : Multimodal Controllable Ultra-Long Video World Model
Categories: NVIDIA, 多模態模型, 影像模型, 模型, 視頻模型, 開源


GLM-4.7-Flash 在 Mac 上的測試及比較

GLM-4.7-Flash 是 Zhipu AI 最新發布的 30B 參數 MoE 模型(3B 活躍參數),專為高效本地運行與程式碼生成設計,在同尺寸模型中達到開源 SOTA 效能。​​

影片使用 Inferencer app 在 M3 Ultra Mac Studio (512GB RAM) 測試 GLM-4.7-Flash 的 MLX 量化版本,比較未量化與 Q4/Q5/Q6/Q8 效能。未量化版生成 5000 個 token 的 3D 太陽系程式(含滑鼠互動),優於 Qwen3-Coder 30B (1700 token) 與 Neotron。

​量化後 Q5/Q6 版維持高品質輸出(56 token/s,24-27GB 記憶體),適合 32GB 系統;批次處理 4 個提示達 120 token/s 總吞吐量,但記憶體升至 140GB。​量化指標顯示 Q6 perplexity 1.23、token accuracy 96.65%,僅輕微發散,證明品質接近基模。

Let's Run GLM-4-7-Flash - Local AI Super-Intelligence for the Rest of Us | REVIEW
量化級別PerplexityToken Accuracy記憶體使用 (GB)Token/s (單一批次)
Base1.22100%60
Q5.51.2594.5%2456
Q6.51.2396.7%2756
Q8.51.2397.8%3450
Categories: 模型, 開源

MedGemma 1.5 醫學影像更新

人工智慧在醫療保健領域的應用正以驚人的速度加速發展,其應用速度是整體經濟的兩倍。為了支持這項變革,Google去年透過其健康人工智慧開發者基金會(HAI-DEF) 計畫發布了 MedGemma 開源醫療生成式人工智慧模型集。 MedGemma 等 HAI-DEF 模型旨在為開發者提供評估和調整的起點,以適應其醫療應用場景,並且可以
透過 Vertex AI 在Google雲端 上輕鬆擴展。 MedGemma 的發布反應熱烈,下載量達數百萬次,並
在 Hugging Face 上發布了數百個社區構建的變體

Categories: Google, Medical醫學, 模型, 開源

Page 1 of 9
1 2 3 9