中國 – InferNews

HY-World 2.0 世界的多模式世界模型

HY-World-2.0 預告片 — Tencent-Hunyuan/HY-World-2.0 在 GitHub 上

HY-World 2.0作為一個先鋒框架，使用各種輸入模式生成和重建3D世界。這個工具對於計算機視覺、圖形和AI領域的開發人員、研究人員和愛好者特別有價值，他們希望推動3D資產創建的邊界。該框架能夠接受如文本、單視圖圖像、多視圖圖像和視頻等輸入，使其極其靈活。用戶應首先專注於由WorldMirror 2.0驅動的世界重建功能，該功能可以高效地將多視圖圖像或視頻轉換為詳細的3D表示，包括網格和高斯濺射。

在實踐中，HY-World 2.0通過一個複雜的管道運行，其中包括全景生成、軌跡規劃、世界擴展和世界組成等階段。每個階段都建立在上一個階段之上，將簡單的輸入轉變為複雜、可導航的3D環境。例如，用戶可以上傳一系列城市景觀的照片，HY-World 2.0會重建該場景的詳細3D模型，包括紋理和光線效果。這種能力對於需要精確、可編輯3D模型的建築師、城市規劃師和遊戲開發人員尤其有益。

最能從HY-World 2.0中受益的個人和團隊是那些從事創建沉浸式體驗的人。遊戲開發人員可以利用該工具快速原型化新關卡，而電影製片人可能會用它來生成虛擬場景。此外，教育工作者和培訓師可以創建互動3D模擬以供培訓之用。然而，也有一些權衡需要考慮。雖然HY-World 2.0在生成高質量3D資產方面表現出色，但它需要大量的計算資源，特別是在處理大型數據集或高分辨率輸出時。用戶應確保擁有強大的硬件，理想情況下有多個GPU，以充分利用該框架的能力。

此外，當前的開源計劃表明，一些組件，如世界生成的完整推理代碼和特定模塊如HY-Pano 2.0和WorldStereo 2.0，仍在等待發布。早期採用者應做好準備，應對這些功能可用時可能出現的限制和更新。儘管有這些考慮，HY-World 2.0代表了3D世界建模的重大進步，提供了一個堅固的創新和創造平台。

使用HY-World 2.0時要記住的關鍵點包括：

輸入模式的多樣性：該框架支持廣泛的輸入類型，使其適應各種使用案例。
高品質輸出：生成的3D資產非常詳細，可以輕鬆集成到流行的遊戲引擎和設計軟件中。
計算需求：確保有足夠的硬件資源來滿足處理要求。
持續開發：跟蹤最新發布和改進，以充分發揮該框架的潛力。

總體而言，HY-World 2.0是一個強大的工具，它架起了想像與現實之間的橋樑，使用戶能夠創建持久、可編輯的3D世界，這些曾經只存在於理論中。

Source: https://github.com/Tencent-Hunyuan/HY-World-2.0

Categories: 騰訊, 開源, 中國, 世界模型

Qwen3.6-Plus 專為 Agentic AI 設計的模型

Qwen3.6-Plus 顯著增強了模型的智能體（Agent）編程能力。無論是前端網頁開發，還是複雜的代碼倉庫級問題求解，Qwen3.6-Plus 均樹立了全新的業界標桿（SOTA）。此外，Qwen3.6-Plus 對世界的感知更加精准，多模態推理能力也更為敏銳。本次發佈直接回應了社區在 Qwen3.5-Plus 部署期間反饋的意見，為開發者生態提供了高度穩定可靠的基礎，帶來真正具有變革意義的“氛圍編程”（Vibe Coding）體驗。

官方已提供 OpenClaw 整合，編輯 ~/.openclaw/openclaw.json

{
  "models": {
    "mode": "merge",
    "providers": {
      "bailian": {
        "baseUrl": "https://dashscope.aliyuncs.com/compatible-mode/v1",
        "apiKey": "DASHSCOPE_API_KEY",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.6-plus",
            "name": "qwen3.6-plus",
            "reasoning": true,
            "input": ["text", "image"],
            "contextWindow": 1000000,
            "maxTokens": 65536
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "bailian/qwen3.6-plus"
      },
      "models": {
        "bailian/qwen3.6-plus": {}
      }
    }
  }
}

Categories: 阿里巴巴, Agent, Vibe Coding, OpenClaw, 中國

Qwen3.5-Omni 多模態模型

Qwen3.5-Omni 是 Qwen 最新一代全模態大模型，支持文本、圖片、音頻、音視頻理解。結構上，Qwen3.5-Omni 的 Thinker 與 Talker 均採用 Hybrid-Attention MoE 架構。Qwen3.5-Omni 系列包含 Plus、Flash、Light 三種尺寸的 Instruct 版本，支持 256k 長上下文，模型支持超過 10 小時的音頻輸入及超過 400 秒的 720P（1 FPS）音視頻輸入。模型在海量文本、視覺以及超過 1 億小時的音視頻數據上進行原生多模態預訓練，該模型展現出卓越的全模態感知與生成能力。相比 Qwen3-Omni，Qwen3.5-Omni 多語言能力大大增強，能夠支持 113 種語種和方言的語音識別和 36 種語種和方言的語音生成。目前可通過 Offline API 和 Realtime API 進行體驗。

Qwen3.5-Omni Thinker 通過 Vision Encoder 和 AuT 接受視覺和音頻信號輸入，音視頻信號通過 interleave 交織並搭配 TMRoPE 編碼位置信息。Thinker 負責處理全模態信號並輸出文本，Talker 負責接收來自 Thinker 的多模態輸入以及文本輸出，進行 contextual 語音生成，語音表徵通過 Qwen3-Omni 提出的 RVQ 編碼來替代繁重的 DiT 運算。由於 chunk-wise 的流式輸入設計和流式 Talker 設計，整個模型可以進行 realtime interaction。不同於上一代 Qwen3-Omni 的雙軌 Talker 輸入，Talker 在輸入的組織方式上採用了 ARIA（自適應速率交錯對齊，Adaptive Rate Interleave Alignment）來動態對齊文本與語音單元，然後進行交錯排布，以避免由於文本與語音 Token 編碼效率差異導致的語音不穩定性，如漏讀、誤讀或數字發音模糊等問題。

Categories: 阿里巴巴, 多模態模型, 中國

Gen-Searcher 準確同貼近現實圖片

Gen-Searcher 係全球首個專為圖像生成設計嘅多模態深度研究代理，佢會先上網搜尋資料、瀏覽證據同埋搵視覺參考，先至開始繪圖。呢個模型透過專門嘅訓練數據同強化學習，令生成嘅圖片更準確同貼近現實。佢喺多個測試基準上表現出色，仲可以輕鬆轉移應用到唔同嘅圖像生成模型上。所有代碼、模型同數據都已經完全開源，方便開發者直接使用。影像產生使用
Qwen/Qwen-Image-Edit-2509 和 FastAPI 進行服務。(MMLab, CUHK)

Categories: 香港中文大學, 庫, 影像模型, 開源, 中國

Pulse of Motion 讓影片更自然

Pulse of Motion 讓你在觀看影片時「感覺更舒服」，但看不到技術本身。目前很多生成影片（如 SVD、Pika 等）的動作時間常常跑偏，作者稱這種現象為 chronometric hallucination，也就是「看起來平滑但實際上時間尺度錯亂」。

現在很多生成模型會「時間錯亂」角色走路太快／太慢；手勢、動作和音效不搭；看起來動作很順，但「感覺怪怪的」。這套技術可以用來：調整生成模型的輸出（例如：自動快慢放或重採樣），讓影片「更像真實拍攝」，看起來更舒服。自動檢測影片的 真實時間尺度；

Categories: 影像處理, 視頻模型, 開源, 中國