騰訊 – Page 2 – InferNews

EffOPD：助訓練模型流程更精明

2026 年 5 月 19 日

Repository image for caiyuchen-ustc/EffOPD

EffOPD 是一個圍繞模型訓練流程改良的研究實作，重點不在做一個全新聊天產品，而是在訓練途中更有效率地挑選值得評估的候選參數。從儲存庫資訊可見，它建基於 verl 與 GOPD，並調整訓練器與工作流程相關檔案，屬於偏底層的優化工具。

實際使用時，做法是沿用原本 OPD 的訓練流程，再加入迭代測試相關設定，並準備一份 parquet 格式的輕量驗證資料。這種安排的意思很直接：模型訓練到某些檢查點時，系統會額外評估幾個外推候選，而不是每次都用完整驗證流程，從而加快判斷。

專案想解決的，是大模型強化學習或蒸餾訓練中，評估成本高、嘗試路線多的問題。它較特別的地方，在於把「外推搜尋」和「即時輕量驗證」結合，讓訓練期間可以更早篩走不理想方向；儲存庫亦提到可設定每次最多測試 5 個候選，反映它著重效率與可控性之間的平衡。

建基於 verl 與 GOPD，較適合已有相關訓練基礎的人
透過啟用迭代測試，在訓練中加入外推式候選搜尋
使用 parquet 驗證檔建立輕量驗證集，減少即時評估負擔
可調整每個檢查點評估的候選數量，預設實驗值為 5

適合主要作為研究實驗、訓練流程調校，以及想比較不同訓練決策成本的人。相關脈絡上，儲存庫明確提到 OPD、GOPD 和 EffOPD，而論文方向亦圍繞大型語言模型的強化學習動態與 on-policy distillation；對一般用家未必即插即用，但對做模型訓練研究的人有參考價值。

GitHub： https://github.com/caiyuchen-ustc/EffOPD

Paper： https://arxiv.org/pdf/2605.11739

Categories: 開源, 香港科技大學, 騰訊, 模型訓練

DepthVLM：識睇圖又識估距離

2026 年 5 月 18 日

如果你曾經好奇電腦點樣由一張相片判斷物件有幾遠，DepthVLM 就係一個幾有代表性的答案。呢個專案主打由單張圖片直接輸出具實際尺度的深度資訊，同時保留問答、理解畫面內容等多模態能力，唔係只做單一視覺任務。

對一般開發者而言，上手方向算清晰：程式碼、模型權重同基準資料都已有公開入口，亦提供示例視覺化結果方便先睇效果。要留意資料本身受授權限制，作者未有直接派發整理後全集，但有公開資料整理流程，較適合願意自己重現訓練或評估的人。

佢較特別之處，在於唔需要將「睇圖理解」同「估深度」拆開做。論文資訊顯示，DepthVLM 會喺單次推理中同時產生深度圖與文字輸出，並以輕量模組接到語言模型骨幹上，速度亦比同類 VLM 方案如 DepthLM、Youtu-VL 更快。

如果你做機械人、AR/VR、室內導航，或者想研究影像中的 3D 空間推理，呢類模型特別有價值。從公開內容看，相關比較對象包括 DepthLM-12B、Youtu-VL-4B、InternVL3.5-38B，以及偏純視覺路線的 Depth Anything V3、UniDepth V2、Metric3D v2、Depth Pro、ZoeDepth。

一個模型兼顧畫面理解與深度預測
可輸出具米制尺度的稠密深度圖
推理效率強調比部分現有 VLM 更快
已提供範例、模型檔與基準標註入口
較適合研究、實驗同進階應用整合

整體來講，DepthVLM 吸引之處唔單止係準確度，而係它試圖將 3D 感知正式帶入視覺語言模型工作流。若你想搵一個連接「識答問題」同「識判斷空間距離」的方案，呢個專案相當值得先收藏再深入試用。

網址： https://github.com/hanxunyu/DepthVLM

網址： https://arxiv.org/pdf/2605.15876

Categories: 開源, 香港科技大學, 騰訊, 影像模型, 視覺模型

HY-World 2.0 世界的多模式世界模型

2026 年 4 月 17 日

HY-World-2.0 預告片 — Tencent-Hunyuan/HY-World-2.0 在 GitHub 上

HY-World 2.0作為一個先鋒框架，使用各種輸入模式生成和重建3D世界。這個工具對於計算機視覺、圖形和AI領域的開發人員、研究人員和愛好者特別有價值，他們希望推動3D資產創建的邊界。該框架能夠接受如文本、單視圖圖像、多視圖圖像和視頻等輸入，使其極其靈活。用戶應首先專注於由WorldMirror 2.0驅動的世界重建功能，該功能可以高效地將多視圖圖像或視頻轉換為詳細的3D表示，包括網格和高斯濺射。

在實踐中，HY-World 2.0通過一個複雜的管道運行，其中包括全景生成、軌跡規劃、世界擴展和世界組成等階段。每個階段都建立在上一個階段之上，將簡單的輸入轉變為複雜、可導航的3D環境。例如，用戶可以上傳一系列城市景觀的照片，HY-World 2.0會重建該場景的詳細3D模型，包括紋理和光線效果。這種能力對於需要精確、可編輯3D模型的建築師、城市規劃師和遊戲開發人員尤其有益。

最能從HY-World 2.0中受益的個人和團隊是那些從事創建沉浸式體驗的人。遊戲開發人員可以利用該工具快速原型化新關卡，而電影製片人可能會用它來生成虛擬場景。此外，教育工作者和培訓師可以創建互動3D模擬以供培訓之用。然而，也有一些權衡需要考慮。雖然HY-World 2.0在生成高質量3D資產方面表現出色，但它需要大量的計算資源，特別是在處理大型數據集或高分辨率輸出時。用戶應確保擁有強大的硬件，理想情況下有多個GPU，以充分利用該框架的能力。

此外，當前的開源計劃表明，一些組件，如世界生成的完整推理代碼和特定模塊如HY-Pano 2.0和WorldStereo 2.0，仍在等待發布。早期採用者應做好準備，應對這些功能可用時可能出現的限制和更新。儘管有這些考慮，HY-World 2.0代表了3D世界建模的重大進步，提供了一個堅固的創新和創造平台。

使用HY-World 2.0時要記住的關鍵點包括：

輸入模式的多樣性：該框架支持廣泛的輸入類型，使其適應各種使用案例。
高品質輸出：生成的3D資產非常詳細，可以輕鬆集成到流行的遊戲引擎和設計軟件中。
計算需求：確保有足夠的硬件資源來滿足處理要求。
持續開發：跟蹤最新發布和改進，以充分發揮該框架的潛力。

總體而言，HY-World 2.0是一個強大的工具，它架起了想像與現實之間的橋樑，使用戶能夠創建持久、可編輯的3D世界，這些曾經只存在於理論中。

Source: https://github.com/Tencent-Hunyuan/HY-World-2.0

Categories: 開源, 騰訊, 世界模型, 中國

OmniShow 全方位人體物件互動影片生成模型

2026 年 4 月 14 日

OmniShow 標誌 — Correr-Zhou/OmniShow 在 GitHub 上

OmniShow 提出了一種突破性的人體物件互動影片生成（HOIVG）解決方案，提供了一個統一的框架，整合了文字、參考圖像、音訊和姿態條件。這個多功能模型特別吸引電腦視覺和多媒體處理領域的研究人員和開發人員，他們希望推動影片合成技術的邊界。對於考慮使用此工具的人，首先應該關注其核心功能以及如何應用於各種任務，例如音訊驅動的化身、物件交換和影片混音。

該模型的有效性在於其能夠無縫處理多種類型的輸入數據。在實踐中，OmniShow 使用 統一通道條件 來整合參考圖像和姿態，使用由參考重建損失監督的偽幀增強影片令牌。這確保生成的影片與輸入數據保持語義一致性。此外，閘控局部上下文注意力 在對齊音訊特徵與影片幀方面發揮了重要作用，確保精確同步。分離然後聯合訓練 策略允許高效使用多樣化的數據集，最初在單個任務上訓練專業模型，然後將它們合併以實現全面的多模式能力。

從 OmniShow 中受益最大的研究人員和開發人員是那些從事需要高保真影片生成和複雜多模式輸入的專案的人。該模型在單一框架內支援 R2V（參考到影片）、RA2V（參考+音訊到影片）、RP2V（參考+姿態到影片）和 RAP2V（參考+音訊+姿態到影片）等任務的靈活性，使其成為無價的工具。它啟用廣泛的應用，從創建對音訊輸入做出反應的逼真化身，到生成準確反映指定姿態和物件的影片。

然而，需要考慮權衡。OmniShow 架構的複雜性可能對那些新接觸先進影片生成模型的人構成挑戰。使用者應當準備好面對陡峭的學習曲線和由於模型的全面性可能導致的較長訓練時間。此外，對多種模式的高品質輸入數據的要求可能很嚴苛，因為劣質輸入可能會導致不滿意的輸出。

為了充分利用 OmniShow，使用者應從探索 HOIVG-Bench 開始，這是一個專門的基準測試，提供在各種多模式條件下對 HOIVG 的系統評估。該基準測試包括 135 個精心挑選的樣本，配有詳細的文字說明、參考圖像、音訊和姿態序列，提供了一個全面的數據集，用於測試和驗證模型的性能。通過檢查這些樣本，使用者可以了解 OmniShow 如何處理不同類型的輸入數據，並識別潛在改進的領域。

OmniShow 是任何參與先進影片生成任務的人的強大工具。其將多種模式統一到單一連貫框架中的能力使其與其他模型區別開來。儘管它提供了顯著的好處，使用者應當注意與其複雜性和數據需求相關的挑戰。通過仔細考慮這些因素並專注於模型的核心優勢，研究人員和開發人員可以釋放其全部潛力，並推動人體物件互動影片生成領域的創新。

Source: https://github.com/Correr-Zhou/OmniShow

Categories: 開源, 香港大學, 香港中文大學, 騰訊, 視頻模型

InteractAvatar 互動數字人

2026 年 2 月 5 日

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻，同時保持音畫同步（lip‑sync + co‑speech gestures）。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同，我們的模型可以從靜態參考圖像中感知環境，並產生複雜的、文本引導的與物體的交互，同時保持高保真度的唇部同步。

雙流 Diffusion Transformer（DiT）架構：一個分支做「感知與互動規劃」（Perception and Interaction Module, PIM），負責理解圖片裡的物體位置與關係，並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」（Audio‑Interaction Aware Generation Module, AIM），把動作與語音融合成高品質視頻。

Categories: 開源, 騰訊, 影像模型, 影像處理, 數字人, 視頻模型

VerseCrafter 精準控制鏡頭

2026 年 1 月 9 日

VerseCrafter 是一套以 4D 幾何控制驅動的影片擴散模型，目標在單張參考圖上同時掌控相機運動與多目標的三維軌跡，讓生成的影片在視角變化與物體遷移間保持高度一致。讓使用者能夠像操控遊戲或電影一樣，精確控制鏡頭和物體的運動，從而生成逼真的動態影片。

一般的 AI 影片模型通常難以同時掌控鏡頭移動和多個物體的動作，VerseCrafter 透過一種全新的表示法解決這個問題：1. 動態世界模擬：它不只是畫出一連串的畫面，而是先在一個隱藏的 3D 空間中建立場景的基礎結構（例如背景點雲），然後加上時間軸，變成 4D。2. 精準控制：鏡頭：你可以指定鏡頭要怎麼飛行（例如從左邊飛到右邊，或是繞著物體旋轉）。你甚至可以指定畫面中的物體要如何移動、旋轉。