HY-World 2.0 世界的多模式世界模型

HY-World-2.0 預告片
Tencent-Hunyuan/HY-World-2.0 在 GitHub 上

HY-World 2.0作為一個先鋒框架,使用各種輸入模式生成和重建3D世界。這個工具對於計算機視覺、圖形和AI領域的開發人員、研究人員和愛好者特別有價值,他們希望推動3D資產創建的邊界。該框架能夠接受如文本、單視圖圖像、多視圖圖像和視頻等輸入,使其極其靈活。用戶應首先專注於由WorldMirror 2.0驅動的世界重建功能,該功能可以高效地將多視圖圖像或視頻轉換為詳細的3D表示,包括網格和高斯濺射。

在實踐中,HY-World 2.0通過一個複雜的管道運行,其中包括全景生成、軌跡規劃、世界擴展和世界組成等階段。每個階段都建立在上一個階段之上,將簡單的輸入轉變為複雜、可導航的3D環境。例如,用戶可以上傳一系列城市景觀的照片,HY-World 2.0會重建該場景的詳細3D模型,包括紋理和光線效果。這種能力對於需要精確、可編輯3D模型的建築師、城市規劃師和遊戲開發人員尤其有益。

最能從HY-World 2.0中受益的個人和團隊是那些從事創建沉浸式體驗的人。遊戲開發人員可以利用該工具快速原型化新關卡,而電影製片人可能會用它來生成虛擬場景。此外,教育工作者和培訓師可以創建互動3D模擬以供培訓之用。然而,也有一些權衡需要考慮。雖然HY-World 2.0在生成高質量3D資產方面表現出色,但它需要大量的計算資源,特別是在處理大型數據集或高分辨率輸出時。用戶應確保擁有強大的硬件,理想情況下有多個GPU,以充分利用該框架的能力。

此外,當前的開源計劃表明,一些組件,如世界生成的完整推理代碼和特定模塊如HY-Pano 2.0和WorldStereo 2.0,仍在等待發布。早期採用者應做好準備,應對這些功能可用時可能出現的限制和更新。儘管有這些考慮,HY-World 2.0代表了3D世界建模的重大進步,提供了一個堅固的創新和創造平台。

使用HY-World 2.0時要記住的關鍵點包括:

  • 輸入模式的多樣性:該框架支持廣泛的輸入類型,使其適應各種使用案例。
  • 高品質輸出:生成的3D資產非常詳細,可以輕鬆集成到流行的遊戲引擎和設計軟件中。
  • 計算需求:確保有足夠的硬件資源來滿足處理要求。
  • 持續開發:跟蹤最新發布和改進,以充分發揮該框架的潛力。

總體而言,HY-World 2.0是一個強大的工具,它架起了想像與現實之間的橋樑,使用戶能夠創建持久、可編輯的3D世界,這些曾經只存在於理論中。

Source: https://github.com/Tencent-Hunyuan/HY-World-2.0

Categories: 騰訊, 開源, 中國, 世界模型

Qwen3.6-Plus 專為 Agentic AI 設計的模型

Qwen3.6-Plus 顯著增強了模型的智能體(Agent)編程能力。無論是前端網頁開發,還是複雜的代碼倉庫級問題求解,Qwen3.6-Plus 均樹立了全新的業界標桿(SOTA)。此外,Qwen3.6-Plus 對世界的感知更加精准,多模態推理能力也更為敏銳。本次發佈直接回應了社區在 Qwen3.5-Plus 部署期間反饋的意見,為開發者生態提供了高度穩定可靠的基礎,帶來真正具有變革意義的“氛圍編程”(Vibe Coding)體驗。

官方已提供 OpenClaw 整合,編輯 ~/.openclaw/openclaw.json

{
  "models": {
    "mode": "merge",
    "providers": {
      "bailian": {
        "baseUrl": "https://dashscope.aliyuncs.com/compatible-mode/v1",
        "apiKey": "DASHSCOPE_API_KEY",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.6-plus",
            "name": "qwen3.6-plus",
            "reasoning": true,
            "input": ["text", "image"],
            "contextWindow": 1000000,
            "maxTokens": 65536
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "bailian/qwen3.6-plus"
      },
      "models": {
        "bailian/qwen3.6-plus": {}
      }
    }
  }
}

Categories: 阿里巴巴, Agent, Vibe Coding, OpenClaw, 中國

Qwen3.5-Omni 多模態模型

Qwen3.5-Omni 是 Qwen 最新一代全模態大模型,支持文本、圖片、音頻、音視頻理解。結構上,Qwen3.5-Omni 的 Thinker 與 Talker 均採用 Hybrid-Attention MoE 架構。Qwen3.5-Omni 系列包含 Plus、Flash、Light 三種尺寸的 Instruct 版本,支持 256k 長上下文,模型支持超過 10 小時的音頻輸入及超過 400 秒的 720P(1 FPS)音視頻輸入。模型在海量文本、視覺以及超過 1 億小時的音視頻數據上進行原生多模態預訓練,該模型展現出卓越的全模態感知與生成能力。相比 Qwen3-Omni,Qwen3.5-Omni 多語言能力大大增強,能夠支持 113 種語種和方言的語音識別和 36 種語種和方言的語音生成。目前可通過 Offline API 和 Realtime API 進行體驗。

Qwen3.5-Omni Thinker 通過 Vision Encoder 和 AuT 接受視覺和音頻信號輸入,音視頻信號通過 interleave 交織並搭配 TMRoPE 編碼位置信息。Thinker 負責處理全模態信號並輸出文本,Talker 負責接收來自 Thinker 的多模態輸入以及文本輸出,進行 contextual 語音生成,語音表徵通過 Qwen3-Omni 提出的 RVQ 編碼來替代繁重的 DiT 運算。由於 chunk-wise 的流式輸入設計和流式 Talker 設計,整個模型可以進行 realtime interaction。不同於上一代 Qwen3-Omni 的雙軌 Talker 輸入,Talker 在輸入的組織方式上採用了 ARIA(自適應速率交錯對齊,Adaptive Rate Interleave Alignment)來動態對齊文本與語音單元,然後進行交錯排布,以避免由於文本與語音 Token 編碼效率差異導致的語音不穩定性,如漏讀、誤讀或數字發音模糊等問題。

Categories: 阿里巴巴, 多模態模型, 中國

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理,佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考,先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習,令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色,仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源,方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 香港中文大學, , 影像模型, 開源, 中國

Pulse of Motion 讓影片更自然

Pulse of Motion 讓你在觀看影片時「感覺更舒服」,但看不到技術本身。目前很多生成影片(如 SVD、Pika 等)的動作時間常常跑偏,作者稱這種現象為 chronometric hallucination,也就是「看起來平滑但實際上時間尺度錯亂」。

現在很多生成模型會「時間錯亂」角色走路太快/太慢;手勢、動作和音效不搭;看起來動作很順,但「感覺怪怪的」。這套技術可以用來:調整生成模型的輸出(例如:自動快慢放或重採樣),讓影片「更像真實拍攝」,看起來更舒服。自動檢測影片的 真實時間尺度

Categories: 影像處理, 視頻模型, 開源, 中國