世界模型 – InferNews

PhiZero 用物理語言先推演再生成影片

2026 年 8 月 1 日

生成影片最難處理的，往往唔係畫面清唔清，而係物件點移動、碰撞同延續。PhiZero 屬於世界模型（World Model），焦點放在「先理解世界狀態點轉變，再生成畫面」，用較細緻的 physical language 去表達變化，減少直接由像素預測帶來的不穩定感。

它想解決的問題很明確：自然語言太粗略，難以完整描述複雜物理過程；純視覺生成又未必能穩定保留因果同動作連貫性。PhiZero 於是從大量無標註影片學出一套 compact discrete representation，先把相鄰影片狀態之間的轉變編碼成 physical language，再交由模型根據首幀畫面同文字動作意圖，預測之後的狀態序列，最後渲染成影片。

它採用 reason-then-render 流程。前段由 Physical Language Tokenizer 抽取相鄰 latent video states 的有序特徵，配合 FSQ 離散化成 physical language；後段由以 Qwen3-VL-4B 初始化的 autoregressive VLM 負責推演，再用訓練好的 diffusion decoder 輸出影片。這種拆法的價值，在於同一套 transition representation 可以重用在 physically realistic generation、action-conditioned simulation、interactive rollouts 同 zero-shot transfer，而唔係只限單一生成任務。

先推演世界轉變，再生成影片，重點放在因果與動作連續性
physical language 來自無標註 in-the-wild videos，自監督學習轉變結構
以 Qwen3-VL-4B 作為 reasoner 基礎，並擴充 25K atomic symbols 詞彙
同一表示方式可支援生成、模擬、互動 rollout 同 transfer

現有資料顯示，PhiZero 的訓練資料同時結合真實與模擬影片，並經過逐步篩選，令模型由廣泛視覺經驗收斂到較多動態互動片段。官方頁面已展示 demos，但程式碼仍標示為即將推出，所以現階段較適合把它看成一個值得關注的世界模型方向：它不是單靠更大影片模型硬推結果，而是嘗試先建立可推理、可重用的物理語言介面。

項目主頁 · Paper

Categories: Qwen, Video, 視覺模型, 世界模型

Temporal-Distance-JEPA 訓練世界模型能懂「時間距離」

2026 年 8 月 1 日

Repository image for HKBU-KnowComp/Temporal-Distance-JEPA

香港浸會大學 HKBU KnowComp 的 Jiaxin Bai 公開了 Temporal-Distance-JEPA 論文重現項目，核心不是再做一個更複雜的世界模型，而是修正 JEPA 規劃常見的落差：訓練時學短期 latent prediction，規劃時卻往往直接拿 latent Euclidean distance 當成目標進度。這個項目屬於模型研究重現項目，處理的是離線示範沒有 reward 時，planner 點樣判斷哪條想像路徑更接近目標。

作者保留 LeWM encoder–predictor 與 SIGReg backbone，但不再只依賴 embedding 幾何，而是從 reward-free demonstration logs 挖出 directed temporal cost。做法沿住論文邏輯很清楚：同一條 trajectory 的先後步序提供 positive targets，跨 trajectory 配對充當 heuristic negatives，再用 rollout-consistency 令學到的成本更貼近 planner horizon。這種 framing 直接回應舊範式把 latent L2 當成進度代理的限制，因為拓撲主導任務未必適合只看幾何距離。

結果在 Two-Room、Reacher 這類 topology-dominated tasks，規劃時直接部署 mined cost d_psi；到了 Push-T、OGB-Cube 這類 contact-rich tasks，則改用同一個 temporally trained checkpoint 上的 latent l2 planning。locked evaluation 下，Two-Room 成功率提升到 100.0%，高於 LeWM 的 97.4%；OGB-Cube 亦比 LeWM 高 14.2 分，並且整體上對 LeWM 與 RC-aux baseline 都能持平或更好。

建基於 stable-worldmodel、stable-pretraining 與 LeWM 既有布局，重點在訓練目標與規劃成本的重新對齊
公開庫是 paper-reproduction release，保留 Python CLI，但刻意不附 cluster／Slurm 包裝
資料以 HDF5 形式放在 STABLEWM_HOME，涵蓋 Push-T、Two-Room、Reacher、OGB-Cube
採用 10 epochs，並附有 locked results、cost matrix、diagnostics 等結果資料

這個庫比較像給已有研究工作流的人接手重跑：有 Python 環境、requirements、Hydra config、資料位置與 checkpoint 輸出方式，但沒有替不同排程系統準備現成封裝。歷史上的 contrastive SoftJEPA 相容程式仍可能留在 losses.py 或 jepa.py，不屬於公開配置；換句話說，閱讀與重現時要以 td_jepa 設定為準。對做 world model、offline RL、latent MPC 的研究團隊來說，這個項目最有價值的地方，是它把「表示學到什麼」與「規劃要怎樣排序未來」重新綁在一起。

GitHub · Paper

Categories: 開源, 香港, Embedding, Python, 模型訓練, 世界模型, 中國, 浸會大學

Gemini Robotics 2 想令機械人動作更完整

2026 年 7 月 31 日

CSJxggUnu5m5TfompiXP2z7YLThhUvDn2 kBueCZv6HCEWWefUt WLzM6wxnTV1sTGqBbvmXDnOTB12W18NDr2NgFVXvHKCiTtjfXpyzuOYPJZXlg=w1440

機械人最難處理的，往往不是單一步驟，而是由看見環境、理解指令，到整個身體協調完成動作的連續過程。Gemini Robotics 2 聚焦的正是這個落差，嘗試把 whole body intelligence 帶入機械人，讓系統不只會辨識和規劃，還能更自然地連動身體控制。

Google DeepMind 把它放在 Gemini Robotics 這條 physical AI 路線之下，定位清楚偏向機械人操作與互動。相比只處理螢幕、語言或單一機械臂任務的做法，這個方向更重視整體行為是否連貫，包括感知、推理、用工具與跟環境互動能否接上同一套能力。

對研究機械人、embodied AI 同 VLA 工作流的人來說，這類項目最有參考價值的地方，在於它瞄準真實場景中的協調問題，而不是只展示單點能力。文章提供的內容仍屬簡介層面，未見完整評測細節、量化指標或部署條件，所以現階段較適合當成技術方向觀察，而不是直接當作可落地規格。

把機械人的感知、推理與身體動作放到同一條能力鏈
核心關注點是 whole body intelligence，而不只是語言或視覺理解
屬於 Gemini Robotics 系列，延伸 Google DeepMind 的 physical AI 佈局
現有公開資訊偏介紹性，性能與限制仍有待更多技術資料補充

整體來看，Gemini Robotics 2 反映出機械人模型正在由「識唔識做判斷」走向「能唔能夠完整做完一個動作」。對需要長步驟操作、工具使用與環境互動的場景，這種整合式能力會比單一模組升級更值得留意。

項目主頁

Categories: Google, Gemini, NanoBanana, Agentic, Video, Audio, 安全, Robotic, 世界模型, VLA, Skill 技能

Wonder：Adobe 把影片變成可探索世界

2026 年 7 月 31 日

由一張圖片或一段影片出發，Wonder會建立一個可以邊走邊看的互動式 Video World Model，處理的是「鏡頭一直移動，但場景仍要連貫」這個難題。你向前推、左右轉，甚至回到之前看過的位置，畫面都要盡量保持幾何、外觀同動態一致，而唔係每一格重新幻想一次。

呢個項目吸引的地方，在於它兼顧了互動感同穩定性。官方資料指出，Wonder支援 image-to-video 同 video-conditioned generation，提供 6-DoF camera control，並以接近固定延遲維持最長一分鐘的探索；對想做可遊走場景、遊戲世界原型、動畫預覽，或者互動式視覺敘事的人來講，呢種體驗比單次生成短片更有用。

為咗令鏡頭控制唔只停留喺抽象指令，Wonder把相機平移與旋轉轉成可對齊畫面的密集視覺證據，再配合 3D scaffold 同 environment map 去建立可導航空間。它亦保留完整歷史的 KV caches，再用 sparse attention 抽取相關記憶，令系統可以在不明顯拖慢回應下，維持較長距離的一致性。

支援 I2V+V2V multimodality，可由圖片或影片開始生成互動世界
提供 6-DoF camera control，重點是可探索而唔係只看固定鏡頭片段
以 sparse attention 配合完整歷史記憶，改善長時段連貫性
官方展示為 16 FPS rollout，頁面上的 32 FPS 影片屬線性插幀後處理

訓練部分用了 Mixture-of-Students 設計，並以 GAN Control Regularization 處理蒸餾時的 camera drift，目標是同時保住控制能力同長期一致性。現階段公開資訊以示範與技術報告為主，Code 同 HuggingFace 尚未釋出；不過單看定位，Wonder已經清楚指向一類更接近「可互動世界」而唔係「一次性影片生成」的世界模型方向。

項目主頁

Categories: 開源, Video, Image, 3D, 模型訓練, 視頻模型, 世界模型

Sana 把高解像生成壓到快 100 倍

2026 年 7 月 26 日

高解像圖片同影片生成最常見的卡位，不是效果做不到，而是算力、延遲同部署成本太難接受。NVlabs/Sana 屬於生成模型代碼庫，集中處理這個矛盾：在維持高解析輸出的前提下，把訓練與推理做得更省、更快，並且一路延伸到圖片、影片、世界模型等多條分支。

這個項目唔係單一模型，而是一個家族。SANA 主打最高到 4K 的 text-to-image，README 直接給出「比 Flux-12B 細 20 倍、快 100 倍」的定位；SANA-1.5 進一步處理訓練期與推理期的 compute scaling；SANA-Sprint 則把重點放在 one/few-step 生成，官方數字提到 H100 上 1024px 圖片可做到 0.1 秒級。取向很清楚：不是一味追最大模型，而是用效率換取更可部署的生成流程。

影片部分同樣值得留意。SANA-Video 與 SANA-Video 2.0 把焦點放在 720p 長序列生成，做法上用 hybrid linear attention 配合 Attention Residuals，目的是減少 full-softmax attention 的成本，同時盡量保住畫質與長序列表達能力。公開資料提到 SANA-Video 2.0 在單張 H100 上，720p/5 秒影片可做到 13.06 秒，VBench 總分 84.30，也強調比 Wan 2.2 14B 有大幅速度優勢，但這類數字仍要連同硬件、步數與設定一齊理解。

同一庫內含 SANA、SANA-1.5、SANA-Sprint、SANA-Video、SANA-WM、SANA-Streaming、Sol-RL
提供完整 training 與 inference pipeline，唔止展示模型效果
可透過官方 demo、Hugging Face、ComfyUI 整合去理解生成表現與部署方向
重點不是極限參數量，而是高解像生成的速度、成本同可擴展性

部署與測試路線相對清晰：已有官方文件、網頁 demo、Hugging Face 集合，亦見到 ComfyUI、SGLang、Replicate 等接點，代表它較適合研究團隊、影像工作流開發者，以及想把高解像生成放進產品流程的人。 SANA-WM 的 2.6B controllable world model、6-DoF camera control，同 Sol-RL 的加速收斂能力，則顯示這個項目不只做靜態出圖，而是朝更完整的生成系統推進。

項目主頁 · GitHub

Categories: 開源, NVIDIA, ComfyUI, Stable Diffusion, Video, Image, AI productions, txt2img, 模型訓練, 世界模型

Wan Streamer v0.3：讓 AI 學懂「世界不變，只有事件在流動」

2026 年 7 月 17 日

A robot navigates a suburban neighborhood and drives a car through a sequence of events

玩過 AI 影片對話工具的人都會發現一個矛盾：模型可以跟你聊天，但一旦想做動作，畫面就容易卡頓、失憶，甚至換了一張臉。Wan Streamer v0.3 想解決的就是這個問題——它把影片分成兩件事來學，一件是「世界設定」（場景、角色、畫風、聲音這些要長期保持一致的東西），另一件是「事件流」（說話、動作、鏡頭移動、環境變化這些隨時間發生的事）。

這個拆法聽起來抽象，但對使用者來說，最直接的差別就是角色終於可以做自然語言描述的動作了。你打開鏡頭，模型會一邊跟你說話，一邊伸手拿起眼前的物件、轉向聲音來源、或者露出驚訝的表情，而且動作和對嘴的時序是學出來的，不是後製對齊的。延遲仍然維持在約 200 毫秒，解析度 640×368、幀率 25fps，即時互動不會被打斷。

從工作流角度看，這個版本最大的價值是把普通影片變成訓練素材：先建立世界，再沿時間軸學接下來會發生什麼。同一套能力日後可以遷移到漫遊探索、機器人控制等場景，而這次發佈聚焦在即時音視頻對話。

重點摘要：

拆解式學習：將「持續世界」與「事件流」分開建模，避免長對話中場景漂移
自由動作描述：支援用自然語言寫出動作（如拿取物件、轉向、變換姿勢），並與對話同步渲染
即時互動規格：640×368、25fps、約 200ms 模型側延遲，支援全雙工音視頻
普通影片即訓練素材：不需特殊標註，現成影片就能用於學習時間軸上的因果事件
可遷移架構：同一套預訓練能力可延伸至具身導航、漫遊等場景

對於做數位人、虛擬主播、互動敘事或即時陪聊的團隊，這個方向值得留意；對於只是想試試看的個人，現有 demo 已經足夠展示「角色真的在過日子，而不只是在回話」的差異。

項目主頁

Categories: Video, Audio, 多模態模型, 模型訓練, 語音, Robotic, 世界模型, Skill 技能

BadWAM 直指 World-Action Models 盲點

2026 年 7 月 17 日

當一個 World-Action Models（WAMs）睇落仍然能夠預測合理未來，但實際控制已經被悄悄帶偏，問題就唔再只是準確率高低。BadWAM 屬於研究型安全測試框架，集中模擬 World-Action Drift Attacks，用細微視覺擾動去拆開「想像」同「行動」之間原本應該對齊的部分。

呢個項目的價值，在於它唔係單純證明模型會失手，而係指出一種更難察覺的失效方式：未來預測仍然似樣，行動卻已經朝向任務失敗。相比一般只睇輸出有冇偏移的對抗攻擊做法，BadWAM更貼近 WAM 的結構特性，分成 Action-only Adversarial Attack 同 Imagination-preserving Adversarial Attack 兩條路線，後者尤其針對「表面正常、實際出錯」的情況。

重點可先睇幾項：
– 支援 query-based 攻擊，重點在凍結的 WAM 上做線上搜尋
– 提供 LIBERO closed-loop attack evaluation，唔只停留在單步分析
– 包含 matched-strength stealth analysis 同 ablation experiments
– 內附 statistics export 與 plotting utilities，方便整理結果

從部署角度看，儲存庫提供的是研究代碼而唔係開箱即用套件，基礎環境指向 Python 3.10+，並建基於 FastWAM。README 亦講明未附 model checkpoints、LIBERO data、dataset statistics、RoboTwin assets 同實驗輸出，所以要重現結果，仍然要自行補齊相關資源與依賴。

現有公開結果已經說明這個框架唔只係概念展示。在 LIBERO closed-loop 測試中，action-only WAM 成功率由 96.5% 跌到 43.1%，joint WAM 亦由 98.1% 跌到 61.5%。受益最大的會係做機械人控制、WAM 安全、對抗魯棒性測試的研究團隊；對一般應用開發者來說，它未必直接幫你部署產品，但很適合作為檢查模型是否「睇落可靠、其實已偏航」的驗證工具。

項目主頁 · GitHub

Categories: 開源, 香港, 香港理工大學, Python, 安全, 世界模型, Dataset 數據集, 框架

[技術文章] Xiaomi-Robotics-U0 小米用世界模型打通機械人

2026 年 7 月 15 日

當世界模型式的影像與影片生成能力要落到機械人場景，難題唔止係出圖或出片，而係同一個場景喺多個視角下都要合理，物件幾何要一致，仲要符合唔同 robot embodiment 嘅操作限制。

Xiaomi-Robotics-U0 屬於 world foundation model 路線，針對的正是這類 embodied synthesis 工作：一邊保留大型 image and video generation model 已學到的視覺知識，一邊補上機械人資料需要的可控性與一致性。

常見做法通常係用有限的機械人資料去微調 foundation model，但作者認為呢種範式容易犧牲大規模預訓練帶來的泛化能力。Xiaomi-Robotics-U0 改用 unified embodied synthesis 設計，把 text-to-image generation、image editing、embodied scene generation、embodied transfer 同 embodied video generation 放入同一個 38-billion-parameter multimodal autoregressive model 聯合優化，將 embodied generation 視為 foundation image and video generation 的延伸，而唔係另一條割裂的任務線。

呢個項目最有用的地方，在於它不只生成好看的資料，而是生成可拿來支援機械人學習的資料。文中提到它首次支援跨多種 robot embodiments 的高品質 multi-view scene generation，亦加入 structured、controllable embodied transfer，做細緻編輯時仍可保留 multi-view consistency 同 interaction dynamics，對要做模擬資料擴增、場景改寫、操作軌跡配套生成的工作流幫助較大。

聯合處理多種任務，減少每個場景各自做模型適配的割裂流程
核心差異在於保住 pre-trained world foundation model 的泛化，同時加入 embodied constraints
支援 multi-view scene generation 與 embodied transfer，重點放在幾何一致性與互動連貫性
生成結果可作為 scalable data engine，服務後續 policy training

效能上，Xiaomi-Robotics-U0 在 single-step 與 sequential generation 任務都做到 state-of-the-art，human evaluations 中於 embodied scene generation 同 transfer 超過 GPT-Image-2.0，embodied video generation 在 World Arena 排名第一。更實際的指標來自真實操作任務：它把 π 0.5 \pi_{0.5} 在 out-of-distribution 情況下的 success rate 由 36.9% 提升到 63.2%，說明這類 world model 不只是內容生成工具，亦開始成為 embodied intelligence 的資料引擎。

文中亦提到完整流程涵蓋 dataset curation、unified annotation pipeline、single-step training、sequential training，以及配合 FlashAR 與 vLLM Integration 的 inference 設計。整體訊息很清楚：作者想證明 foundation world models 可以同時扮演 embodied world models 與合成資料基建，讓機械人訓練不再只依賴昂貴而稀缺的真人示範。

Paper

Categories: Video, Image, 軟件, txt2img, 多模態模型, 影像模型, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, Dataset 數據集, 小米-Xiaomi

PanoWorld 把 360 影片生成拉回真實場景

2026 年 7 月 14 日

做 360° 影片生成，最易穿崩的往往不是單幀畫質，而是鏡頭轉了一大圈之後，場景記憶是否仍然連貫。PanoWorld屬於世界模型兼影片生成模型，針對全景 world model 的 long-range memory 問題，目標是生成更符合空間幾何與物理一致性的 panoramic video。

這個項目的取向幾明確：不是單純追求更短時間出片，而是利用 omnidirectional representations 的 rotation-equivariant 特性，將旋轉視為隱含幾何變換，再把相機軌跡簡化成固定朝向下的平移。核心做法包括 Dense Panoramic Ray-Conditioning (DPRC) 與 Geometry-aware Memory Augmentation (GMA)，並建基於 Wan2.2 backbone 的 triple-stream DiT，處理當前動作建模與長程記憶。

現階段公開資訊較適合做推理測試與結果驗證，訓練代碼仍未釋出。環境要求也不算輕：Linux（已測 Ubuntu 22.04）、CUDA 12.8 以上、Python 3.10，並需要至少 20GB VRAM 的 CUDA GPU；README 亦提供 demo assets，可先用來跑 inference，觀察 81-frame 與 161-frame panoramic video 的生成表現。

重點放在 long-range memory，而非只提升單段片段觀感
可生成 81-frame、161-frame 的 panoramic video
評測依託 World360，涵蓋真實全景無人機片段與 AirSim360 模擬資料
官方表示在 World360 上明顯勝過其他方法，但目前公開細節以展示頁與推理資源為主

受益最明顯的，會是做 360 內容生成、沉浸式視覺、無人機視角模擬，或研究世界模型長時序一致性的團隊。它未必是最容易部署的項目，但定位很清楚：當一般 video model 在大範圍空間變化與光照變化下容易失憶，PanoWorld正面處理這個痛點，並且連同 World360 一起把評測場景拉近真實世界。

項目主頁 · GitHub

Categories: 開源, NVIDIA, Video, 3D, Linux, Python, 影像處理, 視頻模型, 世界模型, Dataset 數據集, 清華大學

ABot-World 把互動世界模型帶上桌面 GPU

2026 年 7 月 11 日

影片生成做到流暢並不罕見，但能一邊接收操作、一邊把世界延伸落去，門檻就高得多。ABot-World定位屬於模型加示範工具，核心處理的是 action-conditioned world rollout：用戶輸入動作之後，系統持續生成可探索的世界，而唔係播完就停的被動片段。

呢個項目的取向相當鮮明：它唔係先追求超高畫質，而是把「可互動、可持續、可在單張桌面顯示卡跑起來」放到前面。官方公開的數字是單張 NVIDIA RTX 5090 可在 720P、16 FPS、1.2 秒延遲、19GB GPU 記憶體下運行，配合 LongForcing training 減少 scene lock-in，令 rollout 期間可以擴展新場景同動態，唔使靠 prompt switching 硬接續。

測試方式算直接：項目已提供本地 gradio demo，同時有線上版 ABot World Studio；想自己部署，它在 Ubuntu 22.04、CUDA 13.3、NVIDIA RTX 5090 環境驗證過，並要先下載 ABot-World-0-5B-LF checkpoint。換句話說，現階段較適合把它理解成高階桌面 GPU 上的研究型互動系統，而唔係一般消費級硬件都能順手跑的輕量工具。

幾個重點值得留意：
– ABot-World-0-5B-LF 已公開，屬於 causal student model
– 互動重點在連續探索，不是固定長度 video generation
– 本地推理與線上 playground 都已提供，驗證路徑清楚
– Bidirectional Teacher Model 仍未釋出，生態暫時未算完整

適合研究 world model、interactive video generation、Agentic 模擬環境，或者想為遊戲原型與具身智能測試場景找參考的團隊。現階段的吸引力在於它把「無限 rollout」和「單桌面 GPU 即時推理」放到同一個項目內。

項目主頁 · GitHub · 模型

Categories: 開源, 阿里巴巴, Google, NVIDIA, Agentic, Video, Linux, 模型訓練, 視頻模型, 世界模型, 蘋果

Page 1 of 6

1 2 3 … 6 Next »