中國 – Page 2 – InferNews

VideoChat3 一個睇得耐又睇得準的影片模型

2026 年 7 月 17 日

影片理解最麻煩的地方，往往唔係「識唔識睇」，而係要一邊保留動作細節，一邊捱得住長時間片段。VideoChat3 就係朝住呢個矛盾落手：它屬於多模態模型（Multimodal Large Language Model, MLLM），目標係用同一個 4B 模型處理細微動作、長片推理、temporal grounding 同 live streaming 回應。

同類項目好多時只會專注其中一段工作流，例如短片動作辨識，或者長片問答。VideoChat3 的取向係做 generalist video understanding，代價就唔係追求單一場景最極致的規格，而係用 I3D-ViT 同 Adaptive Frame Resolution 平衡 token 成本、時序證據同延遲，令模型唔需要全程用高成本方式讀完整段影片。

重點唔只係睇單格畫面，而係保留跨時間的證據
I3D-ViT 提供 16× spatiotemporal compression，主打效率
Adaptive Frame Resolution 會按需要提高畫面解析度，較適合 streaming 場景
已公開 model weights 同完整訓練數據，但 training code 仍未釋出

部署同測試的理解方式幾直接：現階段較接近研究釋出與模型體驗，適合先經 Hugging Face 取用 models & data，再按示範場景驗證長片問答、時間定位同串流回應表現。README 已列明完整訓練資料包括 Academic2M、LV116K、OL617K，對研究團隊、做 video agent、或者要建構影片檢索與監察流程的團隊最有參考價值。

公開資訊亦交代咗幾個關鍵數字：4B parameters、3M curated instruction samples、2,048 frames 下約 20.4s latency。呢啲數據未必代表所有環境都會有同樣效果，但至少講清楚它想證明的方向：唔靠超大模型，都可以把影片中的時間線索、事件關聯同即時反應放入同一套架構。相關模型與模組則以 VideoChat3、I3D-ViT、Adaptive Frame Resolution 為核心，整體更似一個面向研究與進階應用的開源影片理解項目。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 3D, 多模態模型, 模型, 視覺模型, 南京大學, 框架

Self-in-Space 補上無人機空間理解盲點

2026 年 7 月 17 日

講無人機視覺理解，很多方法集中在環境辨識或任務完成，但較少正面處理飛行器本身的狀態感知。Self-in-Space屬於研究型基準測試、訓練數據集與模型組合項目，核心是把 UAV 的 spatial cognition 與 self-awareness 分開檢查，看看模型是否不只「見到空間」，亦知道自己在場景中如何移動。

作者明確批評現有 UAV-oriented MLLMs 普遍偏向 environment-centered、task-oriented 範式：重視周圍有什麼，較少處理自身運動如何影響理解。為此，他們提出 SIS-Bench、SIS-Motion-54K 與 SIS-Motion，重新把 aerial understanding 拆成 perception、memory、reasoning 三層，再同時覆蓋空間與自我兩條軸線，令問題定義比一般影片問答 benchmark 更貼近 embodied UAV 場景。

SIS-Bench 包含 1,646 段真實 UAV 影片與 4,856 組 QA，覆蓋 13 個任務；團隊用它測試 26 個 video MLLMs，包括 6 個 proprietary models 與 20 個 open-source models。結果指出兩個穩定現象：模型對 self 的建模弱過 space，而且能力會由 perception 走到 memory、再到 reasoning 時逐步下跌，這個診斷比單看整體分數更有參考價值。

結合 benchmark、training dataset 與 motion-aware model，不是單一模型發佈
直接針對 UAV embodied intelligence 的 self-awareness 缺口
評測設計有清楚分層，方便看出模型在哪一段開始失準
SIS-Motion 嘗試用 motion-aware representation 改善 aerial video understanding
已公開 SIS-Bench 與 SIS-Motion-54K，可在 Hugging Face 或 ModelScope 了解內容

這項目的受眾很清楚：做 UAV 視覺、aerial video understanding、embodied AI、video MLLMs 評測的人，都會較容易用得着。現階段它更像研究與比較基礎設施，而不是即裝即用產品；想部署測試，較合理做法是先從 SIS-Bench 驗證現有模型在 self-awareness 與 spatial reasoning 的表現，再看 SIS-Motion 是否能為下游 UAV navigation tasks 帶來可轉移的增益。相關模型與資源以 SIS-Motion、SIS-Bench、SIS-Motion-54K 為主，並且對照了多個 video MLLMs 的表現。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, 字節跳動, Gemini, Video, 多模態模型, 模型訓練, 清華大學, Dataset 數據集

Hallo4D 點樣補救 3D 與 4D 生成穿崩

2026 年 7 月 17 日

做3D同4D內容生成，最麻煩往往唔係單張畫面唔夠靚，而係鏡頭一轉、時間一推進，物件結構開始重複、錯位，角色仲會出現 jitter、identity flicker 同 structural drift。Hallo4D沿住呢個痛點出發，屬於一個研究型框架，重點唔係再訓練新模型，而係插入現有流程，幫3D與4D生成結果找出並修正時空不一致。

而家常見做法多數仍然依賴 2D diffusion-based supervision，但欠缺直接約束幾何一致性的機制，所以會出現 duplicated structures 同 misaligned geometry；去到4D，問題再擴大到時間軸。Hallo4D提出的是 generation-detection-correction 範式：先生成，再用 Large Multimodal Models（LMMs）從 multi-view、multi-frame renderings 判斷邊度出錯，之後以 image-space consistency optimization 做修正，並用 multi-model voting 揀較穩定的候選結果。

它不是跟同類方法鬥基礎生成能力，而是做一層 tuning-free、model-agnostic 的補救機制，聲稱毋須 retraining 或 architectural modification。代價亦很明顯，整個流程更依賴外部 LMM 推理、候選修正與投票判斷，較像高質後處理，而唔係最省算力的路線。

重點放在 spatio-temporal hallucination mitigation，不是直接取代原有 3D / 4D 生成模型
用 LMMs 檢查多視角、多幀輸出，再引導修正不一致位置
針對時間穩定性加入 optical flow 驅動的 keyframe sampling
以 CSEA、log-dynamic-range loss 同 union-of-frusta visibility pruning 處理曝光崩壞

目前較適合當作研究方法理解，而不是即開即用的產品工具。測試方式大致應是把它接到既有 Text-to-3D、Image-to-3D 或 4D pipeline，對比 baseline 與修正後結果，觀察多視角幾何、角色身份穩定度同曝光控制有無改善；頁面亦提供多組 visual comparisons，以及在 SV4D 的額外 4D 場景結果。

十分適合本身已經在做 3D / 4D 生成、又經常被跨視角穿崩同時序閃爍拖慢流程的研究團隊。相關脈絡亦值得一併看：Hallo3D主攻 multi-view-consistent 3D generation，Hallo4D則把範圍擴展到統一處理 3D + 4D 的時空一致性；量化表現，現有儲存庫文字未見完整指標表，判斷仍要以論文與項目頁面的可視化對比為主。

項目主頁 · GitHub · Paper

Categories: 開源, Image, 3D, 多模態模型, 中國, Dataset 數據集, 任何模型

GigaWorld-Policy-0.5 推向機械人即時反應

2026 年 7 月 17 日

機械人控制最難受的地方，常常不是動作生成本身，而是模型一邊理解畫面、一邊預測未來場景時，推理成本高到難以閉環運作。GigaWorld-Policy-0.5屬於 World Action Model（WAM），重點是保留未來視覺動態對訓練的幫助，但在執行階段只解碼動作，減少為了生成未來影片而付出的額外開銷。

它延續 action-centered 的路線，再加入 Mixture-of-Transformers 架構，將視覺建模與動作生成分成不同 expert。咁樣做的取捨很清楚：訓練期間仍然利用未來場景演化強化動作學習，推理時則走較輕的 action-only pathway，提升即時控制效率。資料提到，它在本地 RTX 4090 上可做到 85ms inference latency，目標就是支援更接近即時的部署。

另一個值得留意的位置，是它不只改模型結構，亦加入 agent-based AutoResearch pipeline 來搜尋訓練配置。這種做法主要是減少手動調 hyperparameter 的時間，讓實驗設定更有系統地被篩選。對做 Robotic、世界模型或策略學習的人來說，這比單純追求更高指標更實用，因為整個訓練流程的效率同樣影響迭代速度。

保留 future visual dynamics 的訓練收益，但推理時只輸出動作
用 Mixture-of-Transformers 分開 visual expert 與 action expert，降低活躍計算量
以 mixed Action-Conditioned World Modeling（AC-WM）和 WAM 訓練，加強視覺與動作的耦合
引入 agent-based AutoResearch pipeline，提升訓練配置搜尋效率
已公開論文、程式碼與模型，方便研究用途跟進

整體來看，GigaWorld-Policy-0.5處理的是世界模型常見的速度與控制落地矛盾：訓練想要看得多、學得深，部署又要夠快。現有資料顯示，它把重心放在更有效率的 action-centered WAM 路線，適合關注即時機械人控制、閉環部署與本地推理表現的人。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 模型, 模型訓練, 編程, Robotic, 清華大學, 框架

Ring-Zero 1T 參數零樣本強化學習

2026 年 7 月 17 日

當模型愈做愈大，真正困難唔只係算力，而係點樣令佢喺冇人工示範推理鏈嘅情況下，仍然學到清晰、有效又可延伸嘅思考方式。Ring-Zero 屬於大型語言模型推理訓練研究，重點放喺將 zero RL 擴展到 1T 參數，觀察推理能力會唔會隨規模自然湧現。

呢個項目要處理嘅問題幾具體：以 Reinforcement Learning with Verifiable Rewards（RLVR）直接訓練 base model，雖然可以避開昂貴嘅人工 chain-of-thought（CoT）資料，但簡單放大規模會帶來可讀性差、token 冗餘，同埋推理深度唔夠靈活。Ring-Zero 針對呢幾個卡位，加入 clipped importance sampling、training-inference ratio correction 同 mixed-precision control，目標係令訓練流程更穩定，輸出亦更精煉。

同常見依賴監督式推理示範或者較細模型做 zero RL 嘅做法相比，Ring-Zero 想證明一件事：規模本身會改變模型學推理嘅方式。研究者觀察到訓練大致會經歷「discovery」再到「sharpening」兩個階段，而且模型會自發出現 anthropomorphism、structured formatting、self-verification、parallel reasoning 同 context anxiety 等行為，顯示部分人手設計技巧未必再係必要。

把 zero RL 擴展到 1T 參數，核心焦點係大規模推理湧現
唔用人工標註 CoT，改用 RLVR 從 trial-and-error 中學習
除咗最終答案，仲額外檢查 comprehensibility、reproducibility、efficiency
在七個數學 benchmark 上，Ring-2.5-1T-Zero 表現具競爭力

對研究 LLM 推理、模型訓練同 scaling law 嘅讀者，呢個項目最有參考價值。佢唔單止關心分數高低，仲嘗試回答大模型點樣學會更短、更有結構、亦更容易重現嘅 CoT；呢一點對之後做 AGI、模型訓練同推理優化都幾關鍵。

Youtube · Paper

Categories: 安全, 模型訓練, 中國, AGI, 清華大學, Dataset 數據集

SpectraReward：用 MLLM 反讀圖片做文生圖獎勵

2026 年 7 月 15 日

文生圖訓練最麻煩的一環，往往不是生成本身，而是怎樣穩定判斷圖片有冇跟足提示詞。SpectraReward 屬於影像生成 reinforcement learning 的獎勵方法，處理的正是這個問題：它不靠人工偏好標註，也不用再微調 reward model，而是借用預訓練 Multimodal Large Language Models（MLLMs）本身已有的圖文對齊能力，直接替生成結果打分。

核心做法很直觀：先讓 MLLM 看生成出來的圖片，再檢查它能否把原本的 prompt「讀返出嚟」。SpectraReward 用一次 image-conditioned、teacher-forced forward pass，計算 prompt 的平均 log-likelihood，數值越高，代表圖片越能還原文字意圖。相比常見做法要模型直接評分、回答拆解後的驗證問題，這個方法少了額外訓練步驟，也減少了設計評分流程的負擔。

項目亦提出 Self-SpectraReward，對 BAGEL 這類 unified multimodal models（UMMs）尤其有意思。做法是讓同一個模型的 understanding branch，為 generation branch 產生的樣本評分，形成 self-reward。這種安排的重點不在模型愈大愈好，而在 reward 與 policy 是否真正對齊；資料指出，這種內部對齊效果有時可追平，甚至超過更大型的外部 MLLMs。

不需要 preference labels，也不需要 reward-model fine-tuning
只用一次 MLLM forward pass，就可計出 training-free reward
把「圖片能否還原 prompt」變成可量化的獎勵訊號
Self-SpectraReward 適合 BAGEL 類 unified multimodal models（UMMs）

從結果描述來看，reward 提升時，複雜場景生成質素也同步改善，表示這個訊號不只理論上合理，亦能推動可見的畫面進步。對正在做 text-to-image generation、影像模型強化學習，或想減少外部獎勵模型依賴的讀者來說，SpectraReward 提供了一種更省步驟、但仍保留語義判斷能力的路線。文中提到的模型包括 MLLMs，以及 BAGEL 這類 unified multimodal models。

項目主頁 · GitHub

Categories: 香港, 香港大學, 字節跳動, Image, txt2img, 多模態模型, 影像模型, 模型訓練, 北京大學

Motion4Motion：免訓練跨物種動作轉移

2026 年 7 月 14 日

當角色外形差很遠，傳統動作轉移最易卡在骨架對唔上：人、鵝、熊貓根本冇共同骨骼模板，結果常見問題包括動作僵硬、身份漂移，或者腳步滑動。Motion4Motion 屬於影像生成／視頻模型方向的研究，直接避開骨架表示，改為從來源影片抽取密集 motion flow，再把動作帶到另一個目標主體身上。

呢個項目的可取之處，在於 training-free。它唔需要為跨物種或跨拓撲角色另行訓練模型，而係建基於凍結的 Diffusion Transformer（WAN-T2V）做兩階段推理：先找出來源影片主體的運動軌跡，再用 TransPE（Transferring Positional Encoding）把重定向後的位置信息注入注意力過程，令目標外觀跟住動起來。

重點可以整理成幾項：
– 毋須 skeleton，較易處理 human → panda、human → goose 呢類外形差異大嘅轉移
– 毋須額外訓練，推理時完成動作遷移，部署門檻較低
– 用 pixel-level motion flow 取代骨架驅動，減少骨架對齊失效帶來的限制
– 建基於預訓練視頻 diffusion transformer，保留生成式模型對外觀細節的表達能力

它會先用 Grounded SAM-2 在來源首幀取樣主體錨點，再靠 diffusion features 建立來源與目標之間的對應，並以 point tracker 追蹤時間上的軌跡。之後在去噪階段重用目標主體的 K/V，配合來自重定向 motion flow 的 RoPE 位置編碼，令 self-attention 按新動作重組畫面。

現有資料指出，Motion4Motion 在多組實驗與應用展示中勝過強基線，亦示範到跨物種轉移，甚至可出現「教枱行路」呢類非典型案例。適合留意角色動畫、視頻生成、動作重定向工作流嘅讀者；不過目前簡介主要集中在研究展示，具體穩定性與邊界情況仍要等更完整實驗細節支持。

項目主頁

Categories: 香港科技大學, Video, 教學, 模型訓練, 清華大學, 框架

LightMem-Ego：AI 眼鏡及手機的日常記憶系統

2026 年 7 月 14 日

LightMem-Ego 由 Zhejiang University、South China University of Technology、Central China Normal University 與 Lenovo Group Limited 共同開發。它瞄準的是手機與 AI 眼鏡長時間接收影像、聲音後，怎樣把零散片段變成可追問的日常記憶，屬於端到端 streaming multimodal memory system。

現有多模態助理多數擅長回答當下畫面或單次對話，但要回想剛才誰講過甚麼、物件放在哪裏、一天內發生過甚麼，就需要把連續經驗累積、整理和檢索。LightMem-Ego 的做法是把第一身 visual-audio streams 對齊到同一條時間線，再分成 Current memory、Short-term memory 和 Long-term memory，查詢時按問題動態路由到合適記憶層，並用 timestamped multimodal evidence 支撐答案。

工作流定位：連接 Rokid AI Glass Android app、browser frontend 和 online backend service。
主要用途：object finding、conversation recall、life summarization、routine discovery 和 hands-free wearable assistance。
核心取捨：不是只追求單次多模態理解，而是把輕量、持續累積和可檢索記憶放在中心。
部署理解： Quick Start 與 glasses + web deployment，但提供資料未列出完整安裝指令或模型配置細節。

對可穿戴裝置開發者、個人助理產品團隊來說，這個項目的價值在於它把擷取、時間線對齊、記憶分層和問答串成一條較完整的流程。它也較適合需要測試「長時間生活脈絡」的場景，而不是只做單張圖片問答或短語音轉錄。

性能與評估資料在提供內容中仍然有限，未見具體 benchmark 數字可引用。相關模型資料只提到 multimodal large language models 的背景，包括 OpenAI 與 Gemini；未明確指定 LightMem-Ego 後端必須使用哪一個固定模型。

GitHub · Paper

Categories: 開源, Gemini, OpenAI, Agentic, Audio, 多模態模型, 語音, 中國, 框架, Dataset 數據集

PanoWorld 把 360 影片生成拉回真實場景

2026 年 7 月 14 日

做 360° 影片生成，最易穿崩的往往不是單幀畫質，而是鏡頭轉了一大圈之後，場景記憶是否仍然連貫。PanoWorld屬於世界模型兼影片生成模型，針對全景 world model 的 long-range memory 問題，目標是生成更符合空間幾何與物理一致性的 panoramic video。

這個項目的取向幾明確：不是單純追求更短時間出片，而是利用 omnidirectional representations 的 rotation-equivariant 特性，將旋轉視為隱含幾何變換，再把相機軌跡簡化成固定朝向下的平移。核心做法包括 Dense Panoramic Ray-Conditioning (DPRC) 與 Geometry-aware Memory Augmentation (GMA)，並建基於 Wan2.2 backbone 的 triple-stream DiT，處理當前動作建模與長程記憶。

現階段公開資訊較適合做推理測試與結果驗證，訓練代碼仍未釋出。環境要求也不算輕：Linux（已測 Ubuntu 22.04）、CUDA 12.8 以上、Python 3.10，並需要至少 20GB VRAM 的 CUDA GPU；README 亦提供 demo assets，可先用來跑 inference，觀察 81-frame 與 161-frame panoramic video 的生成表現。

重點放在 long-range memory，而非只提升單段片段觀感
可生成 81-frame、161-frame 的 panoramic video
評測依託 World360，涵蓋真實全景無人機片段與 AirSim360 模擬資料
官方表示在 World360 上明顯勝過其他方法，但目前公開細節以展示頁與推理資源為主

受益最明顯的，會是做 360 內容生成、沉浸式視覺、無人機視角模擬，或研究世界模型長時序一致性的團隊。它未必是最容易部署的項目，但定位很清楚：當一般 video model 在大範圍空間變化與光照變化下容易失憶，PanoWorld正面處理這個痛點，並且連同 World360 一起把評測場景拉近真實世界。

項目主頁 · GitHub

Categories: 開源, NVIDIA, Video, 3D, Linux, Python, 影像處理, 視頻模型, 世界模型, Dataset 數據集, 清華大學

Canvas360 把全景生成拉回可用水平

2026 年 7 月 10 日

最值得留意嘅地方，在於佢唔只想生成一張闊圖，而係想處理 360 度全景最常見嘅破綻：左右邊界接唔上、透視變形唔自然、補圖後空間結構散開。Canvas360 屬於影像生成框架，建基於 FLUX，處理嘅係 text-to-panorama image generation，同時延伸到 inpainting、outpainting、editing 同 style transfer 呢類全景工作流。

現有做法多數先把全景當成一般平面圖片生成，再靠後處理減少接縫；作者認為呢種範式忽略咗 panoramic projection 本身嘅幾何特性，所以容易喺邊界、深度關係同局部結構出現錯位。Canvas360 用 two-stage framework 重組呢件事：先做 geometry-aware pretraining，引入 parallel RGB-depth pretraining，再配合 continuous position encoding、circular latent padding 同 per-block feature synchronization，將 360 度連續性直接放入模型學習過程。

同類項目相比，Canvas360 嘅取向唔係單純追求更華麗嘅畫面，而係優先修正全景生成最影響可用性嘅一致性問題。項目亦補上 Canvas360Dataset，提供 1M paired panoramic samples，支援 style transfer、inpainting、outpainting 同 editing，反映作者唔止做單一模型改良，仲想連訓練資料結構一併補強。

核心定位係 FLUX-based framework，主打 text-to-panorama image generation 同全景補全
關鍵方法包括 geometry-aware pretraining、continuous position encoding、circular latent padding
已公開 inference code 同 training code，但 model weights 與 online demo 仍然未釋出
需要 base model black-forest-labs/FLUX.1-dev，並可配合自備 LoRA 跑生成或下游任務
相關比較對象包括 PanFusion、SMGD、PAR、WorldGen、HunyuanWorld、DiT360，以及 FLUX.1-Kontext-dev、FLUX.2-dev、Qwen-Image-Edit

測試同現階段較接近研究型項目而唔係即開即用服務。儲存庫已提供 inference.py 同 inference_downstream.py，代表你可以在本地環境配好 PyTorch、依賴套件、FLUX.1-dev 存取權同 LoRA 後，直接驗證文字生成全景，或者試全景補圖與延展；不過權重未公開，所以現時更適合研究團隊、全景影像工具開發者，或者想研究 360 度生成方法嘅人先行閱讀同跟進。現有介紹強調結果比多個舊方法更少接縫瑕疵、結構更清晰，但儲存庫內容未見完整量化指標表，判斷性能仍要等論文與權重進一步公開後先更穩陣。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Stable Diffusion, Image, Python, 影像模型, 模型, 模型訓練, 視覺模型, Dataset 數據集, 框架, 清華大學

Page 2 of 12

« Previous 1 2 3 4 … 12 Next »