視頻模型 – Page 2

MultiRef-Compass：多模態影片不再各自為政

2026 年 7 月 17 日

同一段生成影片，畫面可能順眼、聲畫卻唔對位；角色外觀接近參考圖，指令跟從又未必準。MultiRef-Compass 抓住呢種常見落差，定位成一個開源評測工具包，處理 multi-reference multimodal video generation 的比較問題，重點唔係逐條片人手睇，而係用可重現的方法把不同模型放到同一把尺上量度。

它的取向相當明確：偏向研究比較，而唔係臨時檢查作品。項目用固定的 CSV 輸入欄位，接收文字、視覺參考、音訊參考同生成影片，再輸出 per_sample.csv、model_summary.csv、ranking.md 同 details.json。這種設計的好處，是團隊可以用同一批樣本反覆測不同模型；代價是流程較講究資料整理，較適合已有實驗管線的人。

跟只看單一分數的做法相比，MultiRef-Compass 把結果拆成四組共 14 個公開指標，包括 Basic Quality、Entity Fidelity、Audio-Video Consistency 同 Instruction Following。它同時混合 classical media-analysis pipelines、learned quality models、speaker embeddings，以及 multimodal language model judges，所以看到的不只是整體高低，仲會知道問題出在 anatomy、reference fidelity、voice timbre similarity，定係 temporal order。

用統一 schema 比較不同影片生成模型，較容易做橫向排名
保留 sample-level diagnosis，同時支援 model-level ranking
支援 text、visual-reference、audio-reference 三種條件一齊評測
著重公開 metric taxonomy，同類研究較易重現結果

現有資訊未見到完整安裝細節，但理解方式已很清楚：先準備符合欄位要求的 CSV manifest，再按指標群組跑評測後端。受益最大的，會是做多模態影片生成、聲畫對齊、角色一致性與指令跟從研究的團隊。相關能力圍繞 Visual Quality、Audio Quality、Entity Fidelity、Speech-Lip Synchronization、Voice Timbre Similarity 等指標展開；它未必幫你直接提升模型質素，卻能先把模型到底差在哪一環講清楚。

GitHub · 模型

Categories: 開源, Video, Audio, Embedding, 多模態模型, 視頻模型, 語音

[技術文章] Xiaomi-Robotics-U0 小米用世界模型打通機械人

2026 年 7 月 15 日

當世界模型式的影像與影片生成能力要落到機械人場景，難題唔止係出圖或出片，而係同一個場景喺多個視角下都要合理，物件幾何要一致，仲要符合唔同 robot embodiment 嘅操作限制。

Xiaomi-Robotics-U0 屬於 world foundation model 路線，針對的正是這類 embodied synthesis 工作：一邊保留大型 image and video generation model 已學到的視覺知識，一邊補上機械人資料需要的可控性與一致性。

常見做法通常係用有限的機械人資料去微調 foundation model，但作者認為呢種範式容易犧牲大規模預訓練帶來的泛化能力。Xiaomi-Robotics-U0 改用 unified embodied synthesis 設計，把 text-to-image generation、image editing、embodied scene generation、embodied transfer 同 embodied video generation 放入同一個 38-billion-parameter multimodal autoregressive model 聯合優化，將 embodied generation 視為 foundation image and video generation 的延伸，而唔係另一條割裂的任務線。

呢個項目最有用的地方，在於它不只生成好看的資料，而是生成可拿來支援機械人學習的資料。文中提到它首次支援跨多種 robot embodiments 的高品質 multi-view scene generation，亦加入 structured、controllable embodied transfer，做細緻編輯時仍可保留 multi-view consistency 同 interaction dynamics，對要做模擬資料擴增、場景改寫、操作軌跡配套生成的工作流幫助較大。

聯合處理多種任務，減少每個場景各自做模型適配的割裂流程
核心差異在於保住 pre-trained world foundation model 的泛化，同時加入 embodied constraints
支援 multi-view scene generation 與 embodied transfer，重點放在幾何一致性與互動連貫性
生成結果可作為 scalable data engine，服務後續 policy training

效能上，Xiaomi-Robotics-U0 在 single-step 與 sequential generation 任務都做到 state-of-the-art，human evaluations 中於 embodied scene generation 同 transfer 超過 GPT-Image-2.0，embodied video generation 在 World Arena 排名第一。更實際的指標來自真實操作任務：它把 π 0.5 \pi_{0.5} 在 out-of-distribution 情況下的 success rate 由 36.9% 提升到 63.2%，說明這類 world model 不只是內容生成工具，亦開始成為 embodied intelligence 的資料引擎。

文中亦提到完整流程涵蓋 dataset curation、unified annotation pipeline、single-step training、sequential training，以及配合 FlashAR 與 vLLM Integration 的 inference 設計。整體訊息很清楚：作者想證明 foundation world models 可以同時扮演 embodied world models 與合成資料基建，讓機械人訓練不再只依賴昂貴而稀缺的真人示範。

Paper

Categories: Video, Image, 軟件, txt2img, 多模態模型, 影像模型, 模型, 模型訓練, 視頻模型, Robotic, 世界模型, Dataset 數據集, 小米-Xiaomi

PanoWorld 把 360 影片生成拉回真實場景

2026 年 7 月 14 日

做 360° 影片生成，最易穿崩的往往不是單幀畫質，而是鏡頭轉了一大圈之後，場景記憶是否仍然連貫。PanoWorld屬於世界模型兼影片生成模型，針對全景 world model 的 long-range memory 問題，目標是生成更符合空間幾何與物理一致性的 panoramic video。

這個項目的取向幾明確：不是單純追求更短時間出片，而是利用 omnidirectional representations 的 rotation-equivariant 特性，將旋轉視為隱含幾何變換，再把相機軌跡簡化成固定朝向下的平移。核心做法包括 Dense Panoramic Ray-Conditioning (DPRC) 與 Geometry-aware Memory Augmentation (GMA)，並建基於 Wan2.2 backbone 的 triple-stream DiT，處理當前動作建模與長程記憶。

現階段公開資訊較適合做推理測試與結果驗證，訓練代碼仍未釋出。環境要求也不算輕：Linux（已測 Ubuntu 22.04）、CUDA 12.8 以上、Python 3.10，並需要至少 20GB VRAM 的 CUDA GPU；README 亦提供 demo assets，可先用來跑 inference，觀察 81-frame 與 161-frame panoramic video 的生成表現。

重點放在 long-range memory，而非只提升單段片段觀感
可生成 81-frame、161-frame 的 panoramic video
評測依託 World360，涵蓋真實全景無人機片段與 AirSim360 模擬資料
官方表示在 World360 上明顯勝過其他方法，但目前公開細節以展示頁與推理資源為主

受益最明顯的，會是做 360 內容生成、沉浸式視覺、無人機視角模擬，或研究世界模型長時序一致性的團隊。它未必是最容易部署的項目，但定位很清楚：當一般 video model 在大範圍空間變化與光照變化下容易失憶，PanoWorld正面處理這個痛點，並且連同 World360 一起把評測場景拉近真實世界。

項目主頁 · GitHub

Categories: 開源, NVIDIA, Video, 3D, Linux, Python, 影像處理, 視頻模型, 世界模型, 清華大學, Dataset 數據集

GenCeption 單一模型多種視覺任務

2026 年 7 月 14 日

做影像理解時，很多人最頭痛的不是單一任務做唔到，而是每做一種任務就要換一套模型。GenCeption 屬於通用視覺模型，目標是把深度估計、法線、相機姿態、分割、2D/3D 關鍵點甚至 4D grounding 放入同一個流程，並且用文字指令控制輸出。

它處理的核心問題，是電腦視覺長期依賴任務專用模型，工作流容易分散、訓練與部署成本亦高。GenCeption 的做法，是先用 video generative diffusion model 做預訓練，吸收空間與時間上的 world priors，以及原生的 vision-language alignment，再經過 multi-task post-training，把原本偏生成式、多步驟的骨幹，改造成單步 feed-forward 推理模型。

這種路線跟常見做法最大分別，在於它不是為每個任務各自砌一個模型，而是用單一、task-agnostic architecture 應付 dense 與 sparse vision tasks。資料上亦以 synthetic data 為主，重點放在學習效率、sim-to-real transfer，以及遇到 out-of-distribution 物件類別時的泛化能力。

支援多種視覺任務，包含 depth、surface normal、camera pose、segmentation、2D/3D keypoint prediction
透過文字指令切換任務，保持同一模型介面
把影片生成預訓練轉成 feed-forward 視覺推理，而不是停留在多步生成流程
官方描述指它在多個任務上可與專用 SOTA 模型競爭，對比對象包括 DepthAnything3、D4RT、VGGT-Ω、SAM3、Sapiens、DAVID

對研究多模態模型、通用機械視覺，或者想整合複數感知任務的人來說，GenCeption 值得留意。現時公開內容仍以研究展示為主，Code 亦標示為 TBA，所以較適合先理解方法方向與能力邊界，再觀察後續開源與可重現程度。

項目主頁

Categories: Google, Video, 3D, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型

ABot-World 把互動世界模型帶上桌面 GPU

2026 年 7 月 11 日

影片生成做到流暢並不罕見，但能一邊接收操作、一邊把世界延伸落去，門檻就高得多。ABot-World定位屬於模型加示範工具，核心處理的是 action-conditioned world rollout：用戶輸入動作之後，系統持續生成可探索的世界，而唔係播完就停的被動片段。

呢個項目的取向相當鮮明：它唔係先追求超高畫質，而是把「可互動、可持續、可在單張桌面顯示卡跑起來」放到前面。官方公開的數字是單張 NVIDIA RTX 5090 可在 720P、16 FPS、1.2 秒延遲、19GB GPU 記憶體下運行，配合 LongForcing training 減少 scene lock-in，令 rollout 期間可以擴展新場景同動態，唔使靠 prompt switching 硬接續。

測試方式算直接：項目已提供本地 gradio demo，同時有線上版 ABot World Studio；想自己部署，它在 Ubuntu 22.04、CUDA 13.3、NVIDIA RTX 5090 環境驗證過，並要先下載 ABot-World-0-5B-LF checkpoint。換句話說，現階段較適合把它理解成高階桌面 GPU 上的研究型互動系統，而唔係一般消費級硬件都能順手跑的輕量工具。

幾個重點值得留意：
– ABot-World-0-5B-LF 已公開，屬於 causal student model
– 互動重點在連續探索，不是固定長度 video generation
– 本地推理與線上 playground 都已提供，驗證路徑清楚
– Bidirectional Teacher Model 仍未釋出，生態暫時未算完整

適合研究 world model、interactive video generation、Agentic 模擬環境，或者想為遊戲原型與具身智能測試場景找參考的團隊。現階段的吸引力在於它把「無限 rollout」和「單桌面 GPU 即時推理」放到同一個項目內。

項目主頁 · GitHub · 模型

Categories: 開源, 阿里巴巴, Google, NVIDIA, Agentic, Video, Linux, 模型訓練, 視頻模型, 世界模型, 蘋果

Video-Oasis 想重做影片理解評測

2026 年 7 月 10 日

高分未必代表模型真係睇得懂影片，呢個項目正正針對呢個落差。Video-Oasis 屬於資料集與評測項目，重點不是再加一份題庫，而是重新檢查現有 video benchmark 到底有幾多題目真的需要 visual grounding 與 temporal reasoning，避免模型只靠文字線索、單幀畫面或靜態背景就答中。

普遍做法是把不同影片問答 benchmark 直接合併比較，作者認為這種固定範式忽略了「是否真係需要影片」這個前提。Video-Oasis 先整理 14 個 benchmark、24,416 個 QA samples，再用共享的 visual 與 temporal criteria 審視題目，結果指出約 55% 樣本可被 non-video shortcuts 解開，之後再萃取出 11,033 個較具代表性的 Video-Native 挑戰。

它和同類 benchmark 最大分別，在於不是追求覆蓋更多題型，而是先清理評測污染。官方資料提到五類 video-native challenges 才是核心難點，而現時模型在這部分表現仍然偏弱，最佳模型 Gemini-2.5 Pro 只有 46.7%，接近 chance 25.63% 之上不遠，說明這套評測更能拉開「答得中」與「真理解」之間的差距。

涵蓋 14 個 benchmark，任務由 perception 延伸到 reasoning，片段長度由幾秒到數小時
以 shared visual and temporal criteria 重新審核題目，不是單純拼接舊 benchmark
約 55% QA samples 可用 non-video shortcuts 解答，真正 video-native 部分約佔 45%
評測流程建基於 lmms-eval，並支援透過 huggingface_hub 下載模型
README 已提供資料下載、影片修復與目錄整理方式，但完整程式碼仍標示為 coming soon

部署理解上，它較像一個研究型 benchmark workflow：你要先準備 Python 3.12、CUDA-compatible GPUs、torch、vllm 0.11.0 與 transformers 4.57.0，再下載各 benchmark 影片、用 ffmpeg 腳本修復損毀檔案，之後透過內建 lmms-eval 跑 vqa_total 或 v_oasis 任務。現階段較適合做模型評測、研究比較，或者幫團隊檢查自家 video model 是否只是在 benchmark 上「識考試」，未必適合作為即裝即用的應用工具。

項目預設支援可由 huggingface_hub 下載的模型，示例提到 Eagle2.5-8B；成績說明中則點名 Gemini-2.5 Pro 為目前最佳表現者。整體來看，Video-Oasis 最有價值的地方不是再造一個排行榜，而是把影片理解評測裡最容易被忽略的捷徑問題公開化，令後續模型比較更可信。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, NVIDIA, Video, AI productions, Python, 視覺模型, 視頻模型, Dataset 數據集

CineMobile 點樣把電影運鏡搬上手機

2026 年 7 月 10 日

由 Wan 2.1 架構的 teacher model 壓縮而來，CineMobile 針對 image-to-video diffusion 而設，重點唔係追求最大全能，而係讓 bullet time、dolly zoom、slow motion 這類電影感鏡頭可以在手機晶片上跑得動。對一般使用者來說，最大差異是它把原本偏向雲端或高階 GPU 的生成流程，縮短到可在行動裝置完成的級別。

技術路線分三步走：先用 distillation-guided pruning 保留關鍵影片生成能力，再把壓縮後模型結合 diffusion distillation 與 reinforcement learning，進一步做成 4-step generator，最後再用 hybrid post-training quantization 把整體模型壓到 1 GB 以下。這組做法直接對準兩個瓶頸：DiTs 參數太大，以及多步去噪太慢。

頁面提供的數字相當具體。相比採用 Wan 2.1 architecture 的 teacher model，CineMobile 可帶來 40× 生成加速；生成 49-frame、480p 影片時，在 NVIDIA H200 GPU 的每步 denoising latency 為 0.6 秒，在 MediaTek Dimensity 8400 Ultimate 5G 平台約為 20 秒，峰值記憶體使用量為 1.8 GB。這代表它雖然仍有明顯等待時間，但已進入手機可接受的範圍。

基礎來源可確認與 Wan 2.1 架構有關，但頁面未見完整 base model 款式或 checkpoint 名稱
核心優化包括 pruning、distillation、reinforcement learning 與 post-training quantization
目標輸出為 49-frame、480p 的 cinematic camera motion 影片
重點能力在於連續運鏡，同時維持 subject identity 與 scene consistency

Hugging Face 暫未提供可直接下載量化檔的模型頁，未提供 GGUF、mmproj、llama.cpp、Ollama、LM Studio、chat template 或 v2 檔名更新資訊，亦無法判斷是否支援 MTP draft speculation。

項目主頁 · Paper

Categories: NVIDIA, Video, Image, AI productions, LLaMa, Ollama, 模型訓練, 視頻模型

Vidu S1 把即時互動影片拉近一步

2026 年 7 月 10 日

比起先寫好提示詞再等片段輸出，Vidu S1更接近一種可對話的視頻模型：你一邊講，數碼角色一邊跟住反應，處理的是「影片生成能否即時被人打斷、改向、持續延長」這個卡位。項目把重心放在 voice-controlled digital characters，而不是一次過產出完整短片，定位很清楚是互動內容而非傳統文生影片。

現有做法多數仍是 prompt-driven、片段式生成，用戶先提交指令，再等待固定長度輸出；作者主張這種範式難以支援 live interaction。Vidu S1改用 real-time speech control 與 infinite-length real-time interactive generation，讓角色在生成途中持續接受 spoken instructions，方向上更接近直播角色、虛擬主播和即時陪伴互動，而不是 cinematic clip 製作。

支援以語音即時控制角色動作，重點在連續互動而非單次出片
可自訂角色形象與 voice tones，涵蓋真人、二次元、寵物等 avatar
官方資料提到 540p、最高 42 FPS，並可在 consumer GPUs 運行
除了網頁體驗，也提供 API 文件，較適合接入互動產品流程

現有公開資訊較偏向服務化體驗：可先在 Vidu Stream 網頁建立角色、選擇或 clone 聲線，再開啟麥克風與鏡頭進行 live call；團隊要接入自家產品，則更可能經 API 而非直接本地完整重建。GitHub 儲存庫目前公開了論文、說明文件與入口，但未見完整本地訓練或推理流程，較像展示能力與提供接入方式的研究／產品型開源項目。

取捨也很明顯：它強調流暢、低延遲、可長時間互動，代表優先次序未必是最高解析度或最複雜鏡頭語言。受益最大的會是做虛擬主播、互動陪伴、角色扮演、品牌數字人和即時內容演示的團隊；要做電影感分鏡、長敘事剪輯或高度後期控制，現階段未必是它最強的一面。相關模型則包括 Vidu S1 本身，以及同一服務脈絡下的 Vidu Stream 互動入口。

項目主頁 · GitHub · Paper

Categories: 開源, API, Clone, 多模態模型, 數字人, 視覺模型, 視頻模型, 語音, 清華大學, Dataset 數據集

OpenCoF 用影片學會推理

2026 年 7 月 10 日

文字 Chain-of-Thought (CoT) 之外，OpenCoF 把推理搬到影片時間軸上，主打 Chain-of-Frame (CoF) reasoning：模型不是靠外部工具拆步驟，而是在連續生成的畫面裡理解因果、規則同狀態變化。這屬於一個研究型框架，核心想處理的問題，是現有影片生成模型多數只見過一般影片資料，未必學到穩定的時序推理能力。

作者對既有做法的批評很明確：以往影片模型通常用通用影片語料訓練，缺少專門針對 CoF reasoning 的監督，因此即使畫面能動起來，都未必真係「識推」。OpenCoF 於是補上兩層東西：先有 OpenCoF-17K 這個包含 17,312 段影片、覆蓋 11 類任務的資料集，再用它把 Wan2.2-I2V-A14B 經 LoRA 微調成 Wan-CoF，之後再加上 Visual Reasoning Tokens (vt) 與 Textual Reasoning Tokens (tt) 兩種設計。

OpenCoF 先用資料監督驗證影片推理能否被教出來，再用 token 設計補強中間推理狀態，而不是一開始就堆很多複雜推理機制。公開資訊顯示，Wan-CoF 單靠資料監督，已經在 MME-CoF、Gen-ViRe、VIPER、RULER-Bench 四個外部 benchmark 全面勝過基線；Wan-CoF vt 與 Wan-CoF tt 則再向前一步，但兩者偏重不同，vt 較擅長低階視覺線索，tt 較著重高階語意先驗。

OpenCoF-17K 由四條資料整理流程建成，兼顧規則型任務、程序生成場景與真實影片多樣性
Wan-CoF 以 Wan2.2-I2V-A14B 為底，靠 LoRA 微調驗證資料本身已可提升推理表現
Wan-CoF vt / Wan-CoF tt 分別從視覺 latent 與文字條件序列加入 reasoning tokens，走兩條互補路線
評測覆蓋 MME-CoF、Gen-ViRe、VIPER、RULER-Bench，結果指向同一件事：時序監督對影片推理有明顯幫助

OpenCoF 適合研究團隊、做視覺推理評測的人，或者關注 Video reasoning 與 Video generation 交界的開發者參考：儲存庫已公開論文與方法框架，但 code、dataset 同 model checkpoints 仍在內部審核，暫時未能直接下載測試；現時較合理的理解方式，是先把 OpenCoF 視為一個針對 CoF reasoning 的資料與訓練範式，等正式釋出後再判斷重現成本與落地價值。

項目主頁 · GitHub · Paper

Categories: 開源, 香港中文大學, 字節跳動, Video, 多模態模型, 視覺模型, 視頻模型, 蘋果, Dataset 數據集

LingBot-Video 想做懂物理的生成影片

2026 年 7 月 10 日

生成影片要做到「似真」，唔只係畫面靚，仲要交代到動作、物件同物理世界之間嘅關係。LingBot-Video屬於開源視頻模型，主打 embodied intelligence，想補足一般 T2V 只重視視覺效果、但對任務過程同物理合理性掌握較弱呢個缺口。

呢個項目的取向幾清楚：唔係單純追求更大參數，而係用 MoE（Mixture-of-Experts）架構去平衡容量同推理成本，官方說法指推理可快約 3 倍。訓練資料亦唔只靠網絡影片，仲加入超過 70,000 小時 embodied data，再配合 multi reward system，同時兼顧美感、physical rationality 同 task completion。

部署理解上，它已提供完整模型下載入口，同時覆蓋 Hugging Face、ModelScope 以及文件站；推理路線分成 diffusers 同 SGLang Diffusion，代表團隊唔只放權重，亦有考慮不同推理堆疊。README 亦列出 rewriter，當中包括以 Qwen3.6-27B 為基礎嘅版本，以及 Qwen3.6-27B LoRA adapter，表示提示詞改寫都係整個工作流一部分。

提供 LingBot-Video-Dense 同 LingBot-Video-MoE，前者較像基線路線，後者加入 Refiner
任務覆蓋 T2I、T2V、TI2V，唔只限純文字轉影片
以 embodied data 同多重獎勵機制強化動作合理性
有文件、模型頁同技術報告，較適合研究團隊同進階內容生成流程測試

受益最大嘅，會係想做機械人模擬、具身智能研究、動作導向影片生成，或者需要比較「任務是否完成」而唔只係「畫面是否好睇」嘅團隊。現有資訊未見到完整基準分數整理，所以性能判斷暫時仍要配合官方技術報告同實測；不過以開源定位、MoE 架構、Refiner 同 rewriter 一併公開嚟睇，LingBot-Video明顯係朝住較完整嘅研究與部署鏈路去設計。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Video, 多模態模型, 視覺模型, 視頻模型

Page 2 of 12

« Previous 1 2 3 4 … 12 Next »