ActWorld 讓世界模型學懂互動

Og image

ActWorld 是一個 Interactive World Model,目標是把「可四處觀看的世界」推進到「可以即時操作的世界」。以往不少世界模型主要支援移動、轉向、環視等導航動作,對場景中的物件互動支援有限;這個項目則加入中途操作物件的能力,例如拾取、搬運、放置,令同一次 rollout 不只是在場景中行走。

這個項目想處理兩個核心問題:一是缺少高質素的人與物件互動數據,二是模型容易忘記早前發生、但會影響之後物件狀態的關鍵畫面。為此,團隊建立了 100K interaction video dataset,並以 chain-of-thought reasoning 產生 per-chunk captions;同時提出 hierarchical action-aware memory 和 persistent memory bank,讓模型按互動重要性保留歷史資訊,減少 action-forgetting。

使用時,讀者可先從項目頁面的 Paper、Code、Video 和 Comparisons 了解能力範圍。從內容描述判斷,ActWorld 適合研究 Interactive World Model、Computer-use agents(CUAs)相關模擬環境、機械人互動、或需要長時序場景生成與控制的團隊參考。

  • 在單一模型內同時處理 long-horizon navigation 與 object interaction
  • 透過 100K interaction video dataset 補足互動數據不足
  • 用 hierarchical action-aware memory 保留較重要的互動歷史
  • 以 persistent memory bank 追蹤事件更新與物件身份

按頁面說明,實驗結果顯示它在不犧牲 viewpoint control 的情況下,interaction fidelity 明顯優於只做導航的 baseline。現階段公開資訊以研究展示為主,若想深入理解效果,最應留意 Comparisons 及論文中的評測設定與限制。

項目: https://interactwm.github.io/ActWorld/

Categories: 開源, 騰訊, Agentic, Video, AI productions, 多模態模型, 模型, 世界模型, Dataset 數據集

RhymeFlow:加快影片生成的新路線

Repository image for Simon-Dcs/RhymeFlow

現時不少影片生成加速方法,主要仍沿用標準 diffusion pipeline:每一幀都要在所有 diffusion timesteps 完整做一次 dense denoising,再配合 sparse attention 或 KV-caching 減少單步計算。RhymeFlow 指出,這種固定範式忽略了相鄰影格內容與動作高度相關,令自然影片裡大量中間步驟其實屬於重複運算。

這是一個免訓練的影片生成加速框架,核心目標是替 DiT(Diffusion Transformers)影片模型減少推理延遲與運算成本。它將不同影格的 denoising trajectory 拆開處理:先找出主導語意變化的 keyframes,讓 keyframes 保持逐步去噪,非 keyframes 則逐步跳過部分步驟,再用 latent trajectory projection 補回時間一致性。

這個做法的創新,不在於單純把 attention 再稀疏化,而是直接挑戰「所有影格都要同步、密集去噪」的舊假設。論文描述,RhymeFlow 在現有 DiT-based video generation models 上,能同時取得更高 inference speed 與更好 visual quality;不過 GitHub 目前公開重點放在 Wan 2.1 adaptation,HunyuanVideo adaptation 仍在準備中。

如果你想試,較合理的切入點是把它當成 Wan 2.1 的加速實驗框架,比較 dense、svg、sap、rhyme、rhyme_sap 幾種方法輸出時間與畫面差異。環境要求偏高,文件列出 CUDA 12.4 / 12.8 與 PyTorch 2.5.1 / 2.6.0,亦牽涉 FlashInfer、flash-attn 和自訂 kernels,較適合已有 GPU 與 PyTorch 經驗的人。

  • 項目類型:training-free 影片生成加速框架,處理 DiT 影片模型推理太慢的問題
  • 方法重點:keyframes 做 dense denoising,非 keyframes 跳步處理,再用 latent trajectory projection 維持時序一致
  • 可比較方法:dense、svg、sap、rhyme、rhyme_sap
  • 相關模型:Wan 2.1 已有 adaptation,HunyuanVideo adaptation 尚未完整釋出
  • 適合場景:研究影片生成推理優化、比較不同加速策略、測試速度與畫質取捨

整體來看,RhymeFlow 的價值很明確:它不是改模型權重,也不是重新訓練,而是重排 denoising flow scheduling,從流程層面節省計算。對研究者與進階開發者而言,這類思路比單純堆硬件更有參考價值;對一般創作者來說,現階段門檻仍在部署與 GPU 環境。

GitHub: https://github.com/Simon-Dcs/RhymeFlow

Paper: https://arxiv.org/pdf/2606.06309

Categories: 開源, 騰訊, NVIDIA, Video, Content Creator, AI productions, Python, 模型訓練, 深度學習, 視頻模型, 框架, 清華大學

Stream3D-VLM 把串流影片變成 3D

Stream3D-VLM Logo

Stream3D-VLM 是一個 online 3D vision-language model,重點是直接從串流影片做即時空間理解,而不是等整段影片或整個場景收集完才分析。對想研究機械人、空間問答,或 3D 場景互動的人來說,這個項目處理的是「模型可否一邊看、一邊建立場景概念,再即時回答問題」這件事。

使用這個項目時,核心資源包括已公開的 Stream3D-VLM-4B 模型、Stream3D-1M Dataset,以及 Stream3D-Bench。資料方面未有直接釋出原始媒體,但有提供標註、GLB 與 RRD 等重建結果;GLB 可放入一般 3D viewer 逐步查看點雲,RRD 則可配合相機姿態與點雲記錄觀察完整重建流程。

Stream3D-VLM 加入 incremental geometry priors,令模型隨時間吸收對齊的 3D 幾何線索。項目亦提出 Visual-Spatial Feature Integration(VSFI)模組,以及 Geometry-Adaptive Voxel Compression(GAVC)模組,前者負責把幾何資訊逐步注入視覺串流,後者用 3D 結構去壓縮 visual tokens,減少長序列推理負擔。

團隊亦建立了可擴展的資料生成流程,整理超過 1M online spatio-temporal 3D QA pairs,並設計涵蓋 29 項任務的基準。項目聲稱在 online 與 offline 的 3D spatial understanding、reasoning、grounding 任務上,表現優於部分 proprietary 與 open-source models;不過文章未在這份資訊中列出完整數字,閱讀結果時仍要配合論文與實驗頁面一起看。

  • 解決痛點:傳統 3D Large Multimodal Models 多數依賴離線處理,這個項目改為面向 streaming video。
  • 主要方法:結合 autoregressive streaming control、VSFI 與 GAVC。
  • 資料與基準:提供 Stream3D-1M Dataset 標註及 Stream3D-Bench,涵蓋 29 項任務。
  • 可視化資源:支援 GLB 與 RRD,方便檢查增量重建與相機軌跡。
  • 相關模型:已公開 Stream3D-VLM-4B,可作為了解整體能力的主要入口。

整體來看,Stream3D-VLM 最適合用來觀察 3D 多模態模型如何由「看完整段再答」走向「邊看邊答」。它未必是一般開發者即裝即用的輕量工具,但對研究串流場景理解、3D 問答、空間推理流程的人,這個項目有相當清晰的方向與實驗野心。

GitHub: https://github.com/hanxunyu/Stream3D-VLM

項目: https://stream3d-vlm.github.io/

Categories: 香港科技大學, 騰訊, NVIDIA, 多模態模型, 模型, 視覺模型, Robotic

GEM 把深度圖生成帶入訓練流程

overview

GEM(Generative-supervised Embodied vision-language Model)是一個面向具身智能的 Vision-Language Models(VLMs)項目,重點不是只靠文字與圖片對答,而是讓模型同時學會場景的空間結構。它加入了深度圖生成這個輔助目標,希望補足一般文字驅動預訓練較少接觸的物理與幾何訊息,令模型不只「看得明」,也更接近「知道怎樣在空間中行動」。

這個設計想解決的問題很清楚:很多模型在語意理解、問答和描述表現不錯,但一牽涉到距離、遮擋、方向、可操作位置,或者下一步應怎樣做,能力就未必跟得上。GEM的做法,是在預訓練階段直接把 depth map generation 放進去,令模型在學文字生成時,也學場景深度與結構。論文亦提到其方法結合 hybrid autoregressive-diffusion architecture,並以 progressive training strategy 先穩定生成模組,再聯合訓練。

GEM 比較適合研究與實驗用途。倉庫已提供 GEM-2B checkpoint、GEM-250K 資料樣本,以及 VLM training / inference 代碼;要動手測試,主要是先準備 Python 3.10+ 環境與 torch、transformers、deepspeed、flash-attn 等依賴,再把資料路徑、depth image 路徑、MODEL_PATH 和 OUTPUT_DIR 設定好。由於資料位置需要手動修改到程式檔案內,整個流程不像一般即開即用工具,比較像給熟悉模型訓練流程的人做重現、微調或延伸開發。

項目的亮點不止於模型結構,還包括資料方向。README 提到釋出的是 GEM-250K 樣本,而論文內容則描述了更大規模的 GEM-4M,涵蓋 grounding、reasoning、planning 以及 depth supervision。這表示團隊的重點不只是堆大模型參數,而是把具身任務常見的空間理解、時序規劃和物理推理,放進同一套訓練資料與目標內,這對 Embodied VLMs 走向 Vision-Language-Action Models(VLA)相當關鍵。

  • 核心方法是在 VLM 預訓練中加入 depth map generation,強化 physical grounding 與 spatial reasoning
  • 已公開的相關資源包括 GEM-2B、GEM-250K,以及訓練與推論代碼
  • 延伸版本 GEM-VLA 面向 Vision-Language-Action Models(VLA)與機械人操作
  • 依賴包含 torch>=2.6.0、transformers>=4.57.0、deepspeed、flash-attn、accelerate、peft、triton、torchcodec
  • 現階段較適合研究人員、ML 工程師,或想重現論文結果的團隊

性能方面,GEM 在多個 embodied benchmarks 上有強勁表現,而論文內容則進一步指出 GEM 與 GEM-VLA 在 diverse embodied benchmarks、LIBERO 模擬環境,以及 real-world robot tasks 取得 state-of-the-art results。從公開資訊可見,它比較的是空間推理、grounding 與任務執行能力,而不只是通用聊天或圖文問答分數。不過,倉庫頁面未完整列出所有可重現的評測表格與設定細節,使用時仍應以論文和後續釋出的完整資料為準。

整體來看,GEM最適合關注機械人、多模態學習、Embodied Intelligence 的讀者留意。若你正在找的是一個現成聊天助手,這個項目未必對口;但若你想了解下一代模型怎樣由「看圖答題」走向「理解空間並支援動作決策」,GEM提供了一條很具代表性的路線。相關模型與基礎包括 GEM、GEM-2B、待釋出的 GEM-8B、延伸版本 GEM-VLA,以及其代碼所建基的 Qwen3-VL、Sana、RDT2。

GitHub: https://github.com/zhaorw02/GEM

Paper: https://arxiv.org/pdf/2605.28548

Categories: 騰訊, Agentic, 模型, 視覺模型, 清華大學

SGT 點樣拉近多模態理解與生成

Understanding capability gains across proxy task levels

SGT 是一個研究味較重的項目,核心想法是用「圖像分割」作為生成式微調的代理任務,讓同一個多模態模型不只看得明,亦畫得更準。它針對的痛點很清楚:不少統一多模態模型會把理解與生成分開優化,結果兩邊能力未必真正協同。

這個項目的亮點,在於它沒有再把重心放在像素紋理,而是改用較高層次的語意結構作監督。簡單講,模型不是只學顏色和邊緣,而是學物件區域與空間關係,這對圖片理解,以及按位置生成內容,都更有幫助。

從 README 提供的結果來看,SGT 曾在 BAGEL(7B+7B)和 OmniGen2(3B+4B)上驗證,顯示它不是綁死單一架構的做法。研究亦比較了 edge、depth、segmentation 三類代理任務,結論偏向一致:segmentation 在理解能力提升上表現最好,而生成的空間準確度亦有改善;至於數學或圖表推理,就未見明顯幫助。

想了解這個項目,可先看論文與項目頁,再留意其公開資料集 SAM-SGT,重點不是立即部署,而是理解這套訓練思路如何套入現有多模態模型。對研究人員、模型訓練工程師,或關心視覺理解與生成整合的人,這個方向特別值得留意。

  • 以圖像分割作生成式微調代理,連接理解與生成
  • 已在 BAGEL 與 OmniGen2 驗證,具一定架構通用性
  • 比起 edge、depth,segmentation 更能提升視覺理解表現
  • 生成結果的空間對位更穩,尤其適合位置敏感提示
  • 分割資料越多,表現有持續上升趨勢

整體來說,SGT 吸引之處不在花巧功能,而在提出一條頗務實的訓練路線:用高層語意監督,補回多模態模型常見的理解與生成落差。若你關注 UMM 後訓練方法,這個項目很值得放入觀察名單。

GitHub: https://github.com/song2yu/SGT

Paper: https://arxiv.org/pdf/2605.18714

Categories: 開源, 騰訊

EffOPD:助訓練模型流程更精明

Repository image for caiyuchen-ustc/EffOPD

EffOPD 是一個圍繞模型訓練流程改良的研究實作,重點不在做一個全新聊天產品,而是在訓練途中更有效率地挑選值得評估的候選參數。從儲存庫資訊可見,它建基於 verl 與 GOPD,並調整訓練器與工作流程相關檔案,屬於偏底層的優化工具。

實際使用時,做法是沿用原本 OPD 的訓練流程,再加入迭代測試相關設定,並準備一份 parquet 格式的輕量驗證資料。這種安排的意思很直接:模型訓練到某些檢查點時,系統會額外評估幾個外推候選,而不是每次都用完整驗證流程,從而加快判斷。

專案想解決的,是大模型強化學習或蒸餾訓練中,評估成本高、嘗試路線多的問題。它較特別的地方,在於把「外推搜尋」和「即時輕量驗證」結合,讓訓練期間可以更早篩走不理想方向;儲存庫亦提到可設定每次最多測試 5 個候選,反映它著重效率與可控性之間的平衡。

  • 建基於 verlGOPD,較適合已有相關訓練基礎的人
  • 透過啟用迭代測試,在訓練中加入外推式候選搜尋
  • 使用 parquet 驗證檔建立輕量驗證集,減少即時評估負擔
  • 可調整每個檢查點評估的候選數量,預設實驗值為 5

適合主要作為研究實驗、訓練流程調校,以及想比較不同訓練決策成本的人。相關脈絡上,儲存庫明確提到 OPDGOPDEffOPD,而論文方向亦圍繞大型語言模型的強化學習動態與 on-policy distillation;對一般用家未必即插即用,但對做模型訓練研究的人有參考價值。

GitHub: https://github.com/caiyuchen-ustc/EffOPD

Paper: https://arxiv.org/pdf/2605.11739

Categories: 開源, 香港科技大學, 騰訊, 模型訓練

DepthVLM:識睇圖又識估距離

DepthVLM Logo

如果你曾經好奇電腦點樣由一張相片判斷物件有幾遠,DepthVLM 就係一個幾有代表性的答案。呢個專案主打由單張圖片直接輸出具實際尺度的深度資訊,同時保留問答、理解畫面內容等多模態能力,唔係只做單一視覺任務。

對一般開發者而言,上手方向算清晰:程式碼、模型權重同基準資料都已有公開入口,亦提供示例視覺化結果方便先睇效果。要留意資料本身受授權限制,作者未有直接派發整理後全集,但有公開資料整理流程,較適合願意自己重現訓練或評估的人。

佢較特別之處,在於唔需要將「睇圖理解」同「估深度」拆開做。論文資訊顯示,DepthVLM 會喺單次推理中同時產生深度圖與文字輸出,並以輕量模組接到語言模型骨幹上,速度亦比同類 VLM 方案如 DepthLMYoutu-VL 更快。

如果你做機械人、AR/VR、室內導航,或者想研究影像中的 3D 空間推理,呢類模型特別有價值。從公開內容看,相關比較對象包括 DepthLM-12BYoutu-VL-4BInternVL3.5-38B,以及偏純視覺路線的 Depth Anything V3UniDepth V2Metric3D v2Depth ProZoeDepth

  • 一個模型兼顧畫面理解與深度預測
  • 可輸出具米制尺度的稠密深度圖
  • 推理效率強調比部分現有 VLM 更快
  • 已提供範例、模型檔與基準標註入口
  • 較適合研究、實驗同進階應用整合

整體來講,DepthVLM 吸引之處唔單止係準確度,而係它試圖將 3D 感知正式帶入視覺語言模型工作流。若你想搵一個連接「識答問題」同「識判斷空間距離」的方案,呢個專案相當值得先收藏再深入試用。

網址: https://github.com/hanxunyu/DepthVLM

網址: https://arxiv.org/pdf/2605.15876

Categories: 開源, 香港科技大學, 騰訊, 影像模型, 視覺模型

HY-World 2.0 世界的多模式世界模型

HY-World-2.0 預告片
Tencent-Hunyuan/HY-World-2.0 在 GitHub 上

HY-World 2.0作為一個先鋒框架,使用各種輸入模式生成和重建3D世界。這個工具對於計算機視覺、圖形和AI領域的開發人員、研究人員和愛好者特別有價值,他們希望推動3D資產創建的邊界。該框架能夠接受如文本、單視圖圖像、多視圖圖像和視頻等輸入,使其極其靈活。用戶應首先專注於由WorldMirror 2.0驅動的世界重建功能,該功能可以高效地將多視圖圖像或視頻轉換為詳細的3D表示,包括網格和高斯濺射。

在實踐中,HY-World 2.0通過一個複雜的管道運行,其中包括全景生成、軌跡規劃、世界擴展和世界組成等階段。每個階段都建立在上一個階段之上,將簡單的輸入轉變為複雜、可導航的3D環境。例如,用戶可以上傳一系列城市景觀的照片,HY-World 2.0會重建該場景的詳細3D模型,包括紋理和光線效果。這種能力對於需要精確、可編輯3D模型的建築師、城市規劃師和遊戲開發人員尤其有益。

最能從HY-World 2.0中受益的個人和團隊是那些從事創建沉浸式體驗的人。遊戲開發人員可以利用該工具快速原型化新關卡,而電影製片人可能會用它來生成虛擬場景。此外,教育工作者和培訓師可以創建互動3D模擬以供培訓之用。然而,也有一些權衡需要考慮。雖然HY-World 2.0在生成高質量3D資產方面表現出色,但它需要大量的計算資源,特別是在處理大型數據集或高分辨率輸出時。用戶應確保擁有強大的硬件,理想情況下有多個GPU,以充分利用該框架的能力。

此外,當前的開源計劃表明,一些組件,如世界生成的完整推理代碼和特定模塊如HY-Pano 2.0和WorldStereo 2.0,仍在等待發布。早期採用者應做好準備,應對這些功能可用時可能出現的限制和更新。儘管有這些考慮,HY-World 2.0代表了3D世界建模的重大進步,提供了一個堅固的創新和創造平台。

使用HY-World 2.0時要記住的關鍵點包括:

  • 輸入模式的多樣性:該框架支持廣泛的輸入類型,使其適應各種使用案例。
  • 高品質輸出:生成的3D資產非常詳細,可以輕鬆集成到流行的遊戲引擎和設計軟件中。
  • 計算需求:確保有足夠的硬件資源來滿足處理要求。
  • 持續開發:跟蹤最新發布和改進,以充分發揮該框架的潛力。

總體而言,HY-World 2.0是一個強大的工具,它架起了想像與現實之間的橋樑,使用戶能夠創建持久、可編輯的3D世界,這些曾經只存在於理論中。

Source: https://github.com/Tencent-Hunyuan/HY-World-2.0

Categories: 開源, 騰訊, 世界模型, 中國

OmniShow 全方位人體物件互動影片生成模型

OmniShow 標誌
Correr-Zhou/OmniShow 在 GitHub 上

OmniShow 提出了一種突破性的人體物件互動影片生成(HOIVG)解決方案,提供了一個統一的框架,整合了文字、參考圖像、音訊和姿態條件。這個多功能模型特別吸引電腦視覺和多媒體處理領域的研究人員和開發人員,他們希望推動影片合成技術的邊界。對於考慮使用此工具的人,首先應該關注其核心功能以及如何應用於各種任務,例如音訊驅動的化身、物件交換和影片混音。

該模型的有效性在於其能夠無縫處理多種類型的輸入數據。在實踐中,OmniShow 使用 統一通道條件 來整合參考圖像和姿態,使用由參考重建損失監督的偽幀增強影片令牌。這確保生成的影片與輸入數據保持語義一致性。此外,閘控局部上下文注意力 在對齊音訊特徵與影片幀方面發揮了重要作用,確保精確同步。分離然後聯合訓練 策略允許高效使用多樣化的數據集,最初在單個任務上訓練專業模型,然後將它們合併以實現全面的多模式能力。

從 OmniShow 中受益最大的研究人員和開發人員是那些從事需要高保真影片生成和複雜多模式輸入的專案的人。該模型在單一框架內支援 R2V(參考到影片)、RA2V(參考+音訊到影片)、RP2V(參考+姿態到影片)和 RAP2V(參考+音訊+姿態到影片)等任務的靈活性,使其成為無價的工具。它啟用廣泛的應用,從創建對音訊輸入做出反應的逼真化身,到生成準確反映指定姿態和物件的影片。

然而,需要考慮權衡。OmniShow 架構的複雜性可能對那些新接觸先進影片生成模型的人構成挑戰。使用者應當準備好面對陡峭的學習曲線和由於模型的全面性可能導致的較長訓練時間。此外,對多種模式的高品質輸入數據的要求可能很嚴苛,因為劣質輸入可能會導致不滿意的輸出。

為了充分利用 OmniShow,使用者應從探索 HOIVG-Bench 開始,這是一個專門的基準測試,提供在各種多模式條件下對 HOIVG 的系統評估。該基準測試包括 135 個精心挑選的樣本,配有詳細的文字說明、參考圖像、音訊和姿態序列,提供了一個全面的數據集,用於測試和驗證模型的性能。通過檢查這些樣本,使用者可以了解 OmniShow 如何處理不同類型的輸入數據,並識別潛在改進的領域。

OmniShow 是任何參與先進影片生成任務的人的強大工具。其將多種模式統一到單一連貫框架中的能力使其與其他模型區別開來。儘管它提供了顯著的好處,使用者應當注意與其複雜性和數據需求相關的挑戰。通過仔細考慮這些因素並專注於模型的核心優勢,研究人員和開發人員可以釋放其全部潛力,並推動人體物件互動影片生成領域的創新。

Source: https://github.com/Correr-Zhou/OmniShow

Categories: 開源, 香港大學, 香港中文大學, 騰訊, 視頻模型

InteractAvatar 互動數字人

InteractAvatar 能從一張靜態參考圖生成「人與物體互動」的視頻,同時保持音畫同步(lip‑sync + co‑speech gestures)。同時能夠執行基於場景的人機互動 (GHOI)。與以往僅限於簡單手勢的方法不同,我們的模型可以從靜態參考圖像中感知環境,並產生複雜的、文本引導的與物體的交互,同時保持高保真度的唇部同步。

雙流 Diffusion Transformer(DiT)架構:一個分支做「感知與互動規劃」(Perception and Interaction Module, PIM),負責理解圖片裡的物體位置與關係,並生成對齊文字指令的動作序列。另一個分支做「音訊‑互動感知生成」(Audio‑Interaction Aware Generation Module, AIM),把動作與語音融合成高品質視頻。

Categories: 開源, 騰訊, 影像模型, 影像處理, 數字人, 視頻模型

Page 1 of 2
1 2