Awesome-WAM:看懂機械人點樣先諗後做

Temporal evolution and taxonomy of representative works on World Action Models (WAMs).

如果你對機械人或 AI 有興趣,但又唔想一開始就埋頭讀大量論文,Awesome-WAM 其實幾好入手。它本身唔係一個直接拿來部署的機械人程式,而係一個系統化整理庫,集中介紹 World Action Models 這個新方向,並附有每篇論文的重點摘要,方便讀者由概念開始慢慢建立理解。

這個主題想解決的核心問題,其實幾直觀:不少模型能夠由影像或文字直接產生動作,但未必真係「理解」下一步世界會點變。WAM 的做法,是將環境變化預測同動作生成放埋一齊考慮,令機械人唔只係反應快,亦更似先模擬後行動。

這個儲存庫最有價值的地方,在於它唔單止列論文,而係嘗試用統一框架整理整個領域,例如分開 Cascaded 與 Joint 兩類路線,亦有提到訓練資料來源、評估方式,以及與 Vision-Language-Action 發展之間的關係。對初學者來講,這種分類比單看論文名更易掌握全貌。

  • 提供系統化總覽,適合先建立概念再深入讀文獻
  • 有每篇文章的簡短導讀,節省篩選時間
  • 涵蓋相關模型與方向,如 RT-2、OpenVLA、π0,以及庫內收錄的 DREMA、RoboScape、Ctrl-World
  • 重視架構分類、數據來源與評估方法,唔只係單純清單

如果你想上手,最實際做法係先看它對 WAM 的整體定義,再沿分類去揀有興趣的論文摘要閱讀。研究人員、學生、做機械人產品規劃的人都會受用;即使你未必會親自訓練模型,這個整理庫都能幫你較快分清哪些方法偏向預測世界、哪些更強調動作生成控制。

整體來說,Awesome-WAM 比較似一張持續更新的地圖,而唔係單一工具。對想跟進 embodied AI、VLA 與 world model 交叉發展的人,它的價值在於幫你用較低成本看清研究脈絡,同時保留足夠細節,方便之後再深入追文。

網址: https://github.com/OpenMOSS/Awesome-WAM

網址: https://openmoss.github.io/Awesome-WAM/

Categories: 開源, 世界模型

HERMESV2:把3D理解與未來預測合而為一的自駕世界模型

HERMES++ overview

HERMES++是一個面向自動駕駛的統一世界模型,核心目標不是只做未來場景生成,而是同時處理3D場景理解未來幾何預測。這點很關鍵,因為多數方法通常偏重其中一端,導致語意理解與物理演化之間仍有落差。

實際使用上,它比較適合拿來當研究型框架:先把多視角輸入整理成BEV表示,再讓模型在共享表示上同時回答當前場景理解任務,並推估未來幾何變化。若團隊正在做自駕感知、模擬預測或世界模型整合,這種設計能減少分散建模的成本。

這個專案最有意思的創新,在於把適合語意推理的資訊與幾何演化需求接起來。它透過BEV token承接多視角空間資訊,再加入LLM-enhanced world queriesCurrent-to-Future LinkJoint Geometric Optimization,讓目前場景語意能更自然地影響未來結構生成。

重點摘要如下:
– 以單一框架同時支援3D理解與未來點雲/幾何預測
– 使用BEV表示壓縮多視角輸入,保留較一致的空間結構
– 透過語言推理增強的world queries傳遞語意與世界知識
– 用幾何顯式與隱式約束提升未來場景結構一致性

若從應用場景來看,HERMES++最適合用在需要「理解現在、推演未來」的自駕研究,例如未來場景模擬、感知與預測聯合建模,或作為下游規劃系統的前端世界表徵。README與專案頁面顯示它在多個基準上有不錯表現,但若要評估實務部署價值,仍建議進一步確認推論成本、資料需求與特定任務設定。

如需特定模型,專案內容明確提到會結合大型語言模型(LLMs)進行語意知識轉移;不過實際採用的基礎模型細節,從目前提供資訊中不宜過度推定。整體而言,這不是入門型套件,而是一個相當有研究含量、試圖打通理解與生成邊界的自駕世界模型方案。

Source: https://github.com/H-EmbodVis/HERMESV2

Categories: 開源, 香港大學, 影像處理, 世界模型

iWorld-Bench:互動世界模型評測新基準

iWorld-Bench Overview

iWorld-Bench 是一個面向互動式世界模型的基準測試,目標是評估模型在外部動作序列驅動下的感知、推理與回應能力。網站資訊指出,它提供 33 萬段影片資料、4,900 個測試任務,以及 9 項綜合指標,用來觀察模型在距離感知、記憶與軌跡跟隨等面向的表現。

實際使用上,研究者可把不同類型的世界模型接到其統一的 Action Generation Framework,將多種輸入模態轉換為可比較的互動任務。這種做法特別適合訓練後評測、模型橫向比較,以及檢查模型在多視角、不同天氣與多場景條件下的穩定性。

這個專案的主要創新,在於把原本互動形式不一致的世界模型拉到同一套評估框架中,並設計六類任務統一測試。相較既有基準多偏向一般世界模型或操作策略評估,iWorld-Bench 強調多輸入、動作控制、鏡頭控制、記憶能力,以及跨場景與全天候適應性。

  • 提供 33 萬段影片與 4,900 個測試任務
  • 以統一動作生成框架比較不同互動世界模型
  • 評測重點涵蓋視覺生成、軌跡跟隨與記憶能力
  • 支援多模態輸入、多視角、多場景與全天候條件
  • 已用於評估 14 個具代表性的世界模型

從應用角度看,會受惠的工作包含具身 AI、機器人模擬、可控影片生成、自主代理訓練,以及需要互動式環境建模的研究。性能與評估方面,網站明確表示其以 9 項指標檢驗 14 個代表性模型,並指出現有方法仍有侷限;但由於論文、程式碼、資料集與排行榜尚未公開,部分細節仍需等待正式發布確認。

模型列表:文中僅提到共評估 14 個代表性世界模型,頁面內容未列出具體名稱。

Categories: 視覺模型, 世界模型, AGI

MultiWorld 可擴充的多代理、多視角視頻世界模型

Screenshot

MultiWorld 在可擴充的多代理、多視角視頻世界模型的開發上代表了一個重要的進步。這個專案對於那些希望在複雜環境中模擬多個代理和視角的人工智慧和機器人領域的研究人員和開發人員特別有價值。在深入研究 MultiWorld 時,首先需要理解其基礎概念:建立一個虛擬世界,讓多個代理能夠同時從各種角度進行互動和學習。這種設定不僅增強了模擬的真實感,還提供了一個堅實的平台,用於在動態和不可預測的情境中測試和優化 AI 算法。

在實際應用中,MultiWorld 通過將先進的機器學習技術與複雜的模擬環境相結合來運作。該系統允許創建詳細的虛擬世界,每個代理可以從其獨特的視角感知環境,與其他代理互動,並從這些互動的結果中學習。這種方法對於需要高度情境意識和適應性決策的應用特別有益,例如自動駕駛汽車導航或複雜的機器人任務。然而,需要注意的是,這種系統的複雜性也帶來了某些權衡。例如,運行多個代理和視角的計算需求可能相當大,需要強大的硬體和高效的資源管理。

從 MultiWorld 中受益最大的研究人員和開發人員是那些從事需要深入了解多代理互動和多視角感知的專案的人。這包括人工智慧研究、機器人技術,甚至遊戲開發領域的專業人士,這些領域中真實和動態的環境是必不可少的。通過利用 MultiWorld,這些專業人士可以創建更準確的模擬,從而做出更明智的決策和創新。然而,實施時必須清楚了解專案的目標和模擬環境的具體需求。

在考慮將 MultiWorld 用於專案時,有幾個因素需要注意。首先,系統的複雜性意味著需要對底層的機器學習演算法和模擬環境有深入的了解。這可能需要額外的培訓或與這些領域的專家合作。其次,運行模擬所需的計算資源可能是相當大的,因此仔細規劃和優化是必不可少的。最後,雖然 MultiWorld 為模擬多代理、多視角場景提供了一個強大的工具,但重要的是要認識到其侷限性,並考慮這些侷限性可能如何影響專案的結果。通過仔細權衡這些考慮因素,開發人員和研究人員可以最大化 MultiWorld 的好處,同時最小化潛在的缺點。

對於那些希望在多代理系統和多視角模擬領域取得進展的人來說,MultiWorld 提供了一個令人信服的機會。儘管在理解和資源方面需要大量的投資,但在增強模擬能力和改進 AI 算法方面的潛在回報是巨大的。對於那些準備應對挑戰的人,MultiWorld 為人工智慧和機器人領域的創新和發現提供了一個強大的平台。

Source: https://github.com/CIntellifusion/MultiWorld

Categories: 開源, 香港大學, 世界模型

HY-World 2.0 世界的多模式世界模型

HY-World-2.0 預告片
Tencent-Hunyuan/HY-World-2.0 在 GitHub 上

HY-World 2.0作為一個先鋒框架,使用各種輸入模式生成和重建3D世界。這個工具對於計算機視覺、圖形和AI領域的開發人員、研究人員和愛好者特別有價值,他們希望推動3D資產創建的邊界。該框架能夠接受如文本、單視圖圖像、多視圖圖像和視頻等輸入,使其極其靈活。用戶應首先專注於由WorldMirror 2.0驅動的世界重建功能,該功能可以高效地將多視圖圖像或視頻轉換為詳細的3D表示,包括網格和高斯濺射。

在實踐中,HY-World 2.0通過一個複雜的管道運行,其中包括全景生成、軌跡規劃、世界擴展和世界組成等階段。每個階段都建立在上一個階段之上,將簡單的輸入轉變為複雜、可導航的3D環境。例如,用戶可以上傳一系列城市景觀的照片,HY-World 2.0會重建該場景的詳細3D模型,包括紋理和光線效果。這種能力對於需要精確、可編輯3D模型的建築師、城市規劃師和遊戲開發人員尤其有益。

最能從HY-World 2.0中受益的個人和團隊是那些從事創建沉浸式體驗的人。遊戲開發人員可以利用該工具快速原型化新關卡,而電影製片人可能會用它來生成虛擬場景。此外,教育工作者和培訓師可以創建互動3D模擬以供培訓之用。然而,也有一些權衡需要考慮。雖然HY-World 2.0在生成高質量3D資產方面表現出色,但它需要大量的計算資源,特別是在處理大型數據集或高分辨率輸出時。用戶應確保擁有強大的硬件,理想情況下有多個GPU,以充分利用該框架的能力。

此外,當前的開源計劃表明,一些組件,如世界生成的完整推理代碼和特定模塊如HY-Pano 2.0和WorldStereo 2.0,仍在等待發布。早期採用者應做好準備,應對這些功能可用時可能出現的限制和更新。儘管有這些考慮,HY-World 2.0代表了3D世界建模的重大進步,提供了一個堅固的創新和創造平台。

使用HY-World 2.0時要記住的關鍵點包括:

  • 輸入模式的多樣性:該框架支持廣泛的輸入類型,使其適應各種使用案例。
  • 高品質輸出:生成的3D資產非常詳細,可以輕鬆集成到流行的遊戲引擎和設計軟件中。
  • 計算需求:確保有足夠的硬件資源來滿足處理要求。
  • 持續開發:跟蹤最新發布和改進,以充分發揮該框架的潛力。

總體而言,HY-World 2.0是一個強大的工具,它架起了想像與現實之間的橋樑,使用戶能夠創建持久、可編輯的3D世界,這些曾經只存在於理論中。

Source: https://github.com/Tencent-Hunyuan/HY-World-2.0

Categories: 開源, 騰訊, 世界模型, 中國

LingBot-world 高保真世界模型

LingBot-World 是一個專為交互式世界模型設計的開源框架。其核心 LingBot-World-Base 致力於提供高保真模擬與精准控制、且邏輯一致的模擬環境。該模型由一個可擴展數據引擎(Scalable Data Engine)驅動,通過從大規模遊戲環境中學習物理規律與因果關係,超越了傳統的被動式視頻合成,實現了與生成世界的交互。

LingBot-World 告別了隨機的“幻覺”式生成。它支持精細化的、由動作驅動的生成(action-conditioned generation),能夠精確響應用戶指令,渲染出高質量且符合物理真實感的動態場景。

Categories: 開源, 視頻模型, 世界模型

NeoVerse 4D 世界模型

NeoVerse 是一種強大的 4D 世界模型,專門設計來處理現實環境中的單眼視頻,從而實現多種應用。這個模型的核心優勢在於它能夠進行無姿態限制的前饋 4D 重建,這意味著它可以從普通的單眼視頻中直接生成高質量的 4D 場景,而不需要複雜的多視角數據或預處理步驟。

Categories: 開源, 影像模型, 影像處理, 視覺模型, 視頻模型, 世界模型

Page 3 of 3
1 2 3