騰訊 – InferNews

HY-World 2.0 世界的多模式世界模型

HY-World-2.0 預告片 — Tencent-Hunyuan/HY-World-2.0 在 GitHub 上

HY-World 2.0作為一個先鋒框架，使用各種輸入模式生成和重建3D世界。這個工具對於計算機視覺、圖形和AI領域的開發人員、研究人員和愛好者特別有價值，他們希望推動3D資產創建的邊界。該框架能夠接受如文本、單視圖圖像、多視圖圖像和視頻等輸入，使其極其靈活。用戶應首先專注於由WorldMirror 2.0驅動的世界重建功能，該功能可以高效地將多視圖圖像或視頻轉換為詳細的3D表示，包括網格和高斯濺射。

在實踐中，HY-World 2.0通過一個複雜的管道運行，其中包括全景生成、軌跡規劃、世界擴展和世界組成等階段。每個階段都建立在上一個階段之上，將簡單的輸入轉變為複雜、可導航的3D環境。例如，用戶可以上傳一系列城市景觀的照片，HY-World 2.0會重建該場景的詳細3D模型，包括紋理和光線效果。這種能力對於需要精確、可編輯3D模型的建築師、城市規劃師和遊戲開發人員尤其有益。

最能從HY-World 2.0中受益的個人和團隊是那些從事創建沉浸式體驗的人。遊戲開發人員可以利用該工具快速原型化新關卡，而電影製片人可能會用它來生成虛擬場景。此外，教育工作者和培訓師可以創建互動3D模擬以供培訓之用。然而，也有一些權衡需要考慮。雖然HY-World 2.0在生成高質量3D資產方面表現出色，但它需要大量的計算資源，特別是在處理大型數據集或高分辨率輸出時。用戶應確保擁有強大的硬件，理想情況下有多個GPU，以充分利用該框架的能力。

此外，當前的開源計劃表明，一些組件，如世界生成的完整推理代碼和特定模塊如HY-Pano 2.0和WorldStereo 2.0，仍在等待發布。早期採用者應做好準備，應對這些功能可用時可能出現的限制和更新。儘管有這些考慮，HY-World 2.0代表了3D世界建模的重大進步，提供了一個堅固的創新和創造平台。

使用HY-World 2.0時要記住的關鍵點包括：

輸入模式的多樣性：該框架支持廣泛的輸入類型，使其適應各種使用案例。
高品質輸出：生成的3D資產非常詳細，可以輕鬆集成到流行的遊戲引擎和設計軟件中。
計算需求：確保有足夠的硬件資源來滿足處理要求。
持續開發：跟蹤最新發布和改進，以充分發揮該框架的潛力。

總體而言，HY-World 2.0是一個強大的工具，它架起了想像與現實之間的橋樑，使用戶能夠創建持久、可編輯的3D世界，這些曾經只存在於理論中。

Source: https://github.com/Tencent-Hunyuan/HY-World-2.0

Categories: 騰訊, 開源, 中國, 世界模型

OmniShow 全方位人體物件互動影片生成模型

OmniShow 標誌 — Correr-Zhou/OmniShow 在 GitHub 上

OmniShow 提出了一種突破性的人體物件互動影片生成（HOIVG）解決方案，提供了一個統一的框架，整合了文字、參考圖像、音訊和姿態條件。這個多功能模型特別吸引電腦視覺和多媒體處理領域的研究人員和開發人員，他們希望推動影片合成技術的邊界。對於考慮使用此工具的人，首先應該關注其核心功能以及如何應用於各種任務，例如音訊驅動的化身、物件交換和影片混音。

該模型的有效性在於其能夠無縫處理多種類型的輸入數據。在實踐中，OmniShow 使用 統一通道條件 來整合參考圖像和姿態，使用由參考重建損失監督的偽幀增強影片令牌。這確保生成的影片與輸入數據保持語義一致性。此外，閘控局部上下文注意力 在對齊音訊特徵與影片幀方面發揮了重要作用，確保精確同步。分離然後聯合訓練 策略允許高效使用多樣化的數據集，最初在單個任務上訓練專業模型，然後將它們合併以實現全面的多模式能力。

從 OmniShow 中受益最大的研究人員和開發人員是那些從事需要高保真影片生成和複雜多模式輸入的專案的人。該模型在單一框架內支援 R2V（參考到影片）、RA2V（參考+音訊到影片）、RP2V（參考+姿態到影片）和 RAP2V（參考+音訊+姿態到影片）等任務的靈活性，使其成為無價的工具。它啟用廣泛的應用，從創建對音訊輸入做出反應的逼真化身，到生成準確反映指定姿態和物件的影片。

然而，需要考慮權衡。OmniShow 架構的複雜性可能對那些新接觸先進影片生成模型的人構成挑戰。使用者應當準備好面對陡峭的學習曲線和由於模型的全面性可能導致的較長訓練時間。此外，對多種模式的高品質輸入數據的要求可能很嚴苛，因為劣質輸入可能會導致不滿意的輸出。

為了充分利用 OmniShow，使用者應從探索 HOIVG-Bench 開始，這是一個專門的基準測試，提供在各種多模式條件下對 HOIVG 的系統評估。該基準測試包括 135 個精心挑選的樣本，配有詳細的文字說明、參考圖像、音訊和姿態序列，提供了一個全面的數據集，用於測試和驗證模型的性能。通過檢查這些樣本，使用者可以了解 OmniShow 如何處理不同類型的輸入數據，並識別潛在改進的領域。

OmniShow 是任何參與先進影片生成任務的人的強大工具。其將多種模式統一到單一連貫框架中的能力使其與其他模型區別開來。儘管它提供了顯著的好處，使用者應當注意與其複雜性和數據需求相關的挑戰。通過仔細考慮這些因素並專注於模型的核心優勢，研究人員和開發人員可以釋放其全部潛力，並推動人體物件互動影片生成領域的創新。

Source: https://github.com/Correr-Zhou/OmniShow

Categories: 香港大學, 香港中文大學, 騰訊, 視頻模型, 開源

InteractAvatar 互動數字人

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻，同時保持音畫同步（lip‑sync + co‑speech gestures）。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同，我們的模型可以從靜態參考圖像中感知環境，並產生複雜的、文本引導的與物體的交互，同時保持高保真度的唇部同步。

雙流 Diffusion Transformer（DiT）架構：一個分支做「感知與互動規劃」（Perception and Interaction Module, PIM），負責理解圖片裡的物體位置與關係，並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」（Audio‑Interaction Aware Generation Module, AIM），把動作與語音融合成高品質視頻。

Categories: 騰訊, 影像模型, 影像處理, 數字人, 視頻模型, 開源

VerseCrafter 精準控制鏡頭

VerseCrafter 是一套以 4D 幾何控制驅動的影片擴散模型，目標在單張參考圖上同時掌控相機運動與多目標的三維軌跡，讓生成的影片在視角變化與物體遷移間保持高度一致。讓使用者能夠像操控遊戲或電影一樣，精確控制鏡頭和物體的運動，從而生成逼真的動態影片。

一般的 AI 影片模型通常難以同時掌控鏡頭移動和多個物體的動作，VerseCrafter 透過一種全新的表示法解決這個問題：1. 動態世界模擬：它不只是畫出一連串的畫面，而是先在一個隱藏的 3D 空間中建立場景的基礎結構（例如背景點雲），然後加上時間軸，變成 4D。2. 精準控制：鏡頭：你可以指定鏡頭要怎麼飛行（例如從左邊飛到右邊，或是繞著物體旋轉）。你甚至可以指定畫面中的物體要如何移動、旋轉。