InferNews

Matrix-Game 3.0 記憶增強世界模型

Matrix‑Game 3.0 是一個基於 Diffusion Transformer（DiT）的記憶增強世界模型，目標是做 720p 解析度、可達 40 FPS 的實時長序列互動視訊生成，用於第一人稱、第三人稱等遊戲／虛擬世界場景。它能根據滑鼠＋鍵盤輸入一邊生成新畫面，一邊維持場景長時間的一致性（例如分鐘級序列），並可擴展到 2×14B 甚至 28B MoE 規模。

三大技術層面

Data Engine
- 用 Unreal Engine 生成合成資料，加上對 AAA 遊戲的大規模自動錄製、與真實影片資料增強，產出高品質的 Video–Pose–Action–Prompt 四元資料。
- 這種「工業級無限資料機器」讓模型能學習大量互動式行為與視角變化。
記憶增強模型（Memory‑augmented DiT）
- 基礎模型是一個統一的雙向 DiT，把過去的潛在畫面、當前加噪畫面與動作輸入（滑鼠／鍵盤）放在同一個架構裡。
- 用 residual error buffer 收集預測殘差，再以「error injection」把誤差加回訓練，讓模型學會在長時間序列上自我修正，增強長時一致性。
- 加入 camera‑aware memory retrieval，只撿選視角相關的歷史畫面作為記憶條件，用 Plücker 編碼處理幾何關係，並用一個「sink latent」（第一幀）錨定場景整體風格。
高效實時推論（Distillation + Quantization）
- 採用多段式的自生成 few‑step distillation（基於 Distribution Matching Distillation），讓「學生模型」在訓練時就模擬實際的少量步數 autoregressive 推論流程，做到訓練與推論對齊。
- 搭配 INT8 量化、輕量化 VAE 解碼器（MG‑LightVAE）以及 GPU 加速的記憶檢索，單個 5B 模型可在 8 張 GPU 上達到 720p @ 40 FPS，而 2×14B 模型則在更長時間和更複雜場景下表現更好。

Categories: 影像模型, 視頻模型, 開源

RealRestorer – 通用真實世界影像復原

RealRestorer 是一個開源、通用型實拍圖像修復模型，目標是統一處理多種真實世界降級（blur、rain、low‑light、noise、haze 等），同時盡量保留原始場景結構與細節。

Categories: 影像模型, 影像處理, 開源

daVinci‑MagiHuman 單流數字人

daVinci‑MagiHuman 是一個 15B 參數、專注數字人（human‑centric）的文本到視頻生成模型，同時支援視頻與音頻 token 的聯合生成，主打「人類主體」表現力。daVinci‑MagiHuman 由 SII‑GAIR Lab（中國上海人工智慧實驗室 SII‑GAIR）與 Sand.ai 這兩方聯合開發

單流 Transformer — 一個統一的 150 億參數、40 層的 Transformer，僅透過自註意力機制即可聯合處理文字、視訊和音訊。無需交叉注意力，也無需多流處理。
🎭卓越的以人為本的品質— 富有表現力的面部表情、自然的語音表達協調、逼真的身體動作以及準確的音視頻同步。
🌍多語言— 支援中文（國語和粵語）、英語、日語、韓語、德語和法語。
⚡超快推理－在單一 H100 GPU 上，可在2 秒內產生 5 秒 256p 視頻，在38 秒內產生5 秒 1080p 影片。
🏆最先進的結果—在超過 2,000 次的成對人工評估中，與 Ovi 1.1 的勝率達到80.0% ，與 LTX 2.3 的勝率達到60.9% 。
📦完全開源— 我們發布完整的模型堆疊：基礎模型、精煉模型、超解析度模型和推理程式碼。

Categories: 數字人, 模型, 視頻模型, 開源

Helios – 實時生成分鐘級長視頻

Helios 是一個 140 億參數（14B）自回歸擴散模型（autoregressive diffusion model），設計成可以在單張 NVIDIA H100 GPU 上以約 19.5 FPS 實時生成分鐘級長視頻。它原生支援 Text‑to‑Video（T2V）、Image‑to‑Video（I2V）和 Video‑to‑Video（V2V）三種任務，並有一個統一的輸入表示。

在維持 14B 規模的前提下，不使用 KV‑cache、稀疏/線性注意力、量化等常見加速技術，單卡就能跑到 19.5 FPS。

Helios‑Base（高質量）
Helios‑Mid（中間 checkpoint）
Helios‑Distilled（極端高效、對消費卡更友好），有 YouTuber 甚至在 RTX 4090 級別上跑 33 幀每段、分鐘級長視頻。

Helios - A 14B ByteDance Real-Time Long Video Generation Model Run Locally.

Watch this video on YouTube

Categories: 字節跳動, 視頻模型, 開源

Utonia – Point Cloud 的單一編碼器

Utonia 是一個統一的自監督點雲 Transformer 編碼器，目標是「一個編碼器適用於所有點雲域」，也就是在不同感測器與場景（遙感、戶外 LiDAR、室內 RGB‑D、物件級 CAD 模型、單目視頻轉 3D 點雲等）上共享同一個 backbone，讓預訓練特徵能跨域遷移。

Utonia 在大量異構點雲資料上 jointly 預訓練一個單一的 Point Transformer V3 編碼器，不依賴 domain‑specific 的頭或模組，只用一個 shared representation space。

跨域資料混合：
研究中混合了遙感（衛星/航拍）、自駕車用 LiDAR、室內 RGB‑D 掃描、CAD 物件模型、以及從 RGB 影片 lift 上來的點雲，一起放入 masked autoencoding 式的自監督訓練流程。

Categories: 香港中文大學, 影像模型, 影像處理, 開源

美國政府動用《國防生產法》對付 Anthropic AI 😳😳😳 這是我們每個人未來生活方式的轉折點！(NotebookLM 製作)

美國政府動用《國防生產法》對付 Anthropic AI 😳😳😳 這是我們每個人未來生活方式的轉折點！

Categories: 新聞

OpenClaw 3 級制存放 Skill 的地方

OpenClaw 三個存放 Skill 的地方——搞錯一個你就完了 | 龍蝦客製化、安全避坑一次搞懂 !

Categories: Agent, 教學, 開源

LuxTTS 声音克隆 | 1G低显存必备

LuxTTS 声音克隆 | 1G低显存必备，全系电脑适配，150倍超快速推理，高清晰48KHz声音复刻~

Watch this video on YouTube

https://github.com/ysharma3501/LuxTTS

Categories: 教學, 語音, 開源

OpenClaw 翻車實錄 | 10 分鐘設定安全防護指南 | 防止 Indirect Prompt Injection !

Categories: Agent, 教學

Code2World 基於動作預測的 GUI 代理

Code2World 本身不是一個「GUI 設計工具」，但它可以用在「優化 GUI 設計」的流程裡，特別是幫你驗證設計是否好操作、是否容易出錯、是否符合使用者行為預期。Code2World 以靈活的方式顯著提升了下游導航的成功率，在 AndroidWorld 導航方面，其性能比 Gemini-2.5-Flash 提升了 9.5%。

它透過產生可渲染的程式碼來模擬下一個視覺狀態。實驗表明，Code2World-8B 在下一界面 UI 預測方面表現卓越，足以媲美 GPT-5 和 Gemini-3-Pro-Image 等競爭對手。(Huggingface 模型及數據集出現 404)(圖為預測介面的結果)

Categories: 阿里巴巴, Agent, 模型, 編程, 開源

Page 5 of 71

« Previous 1 … 3 4 5 6 7 … 71 Next »