NVIDIA

TESSERA 把全年衛星影像壓成地表嵌入圖

2026 年 7 月 10 日

做地表分類、樹冠高度預測，或者想先整理一塊區域的衛星時序資料，卡位通常出在雲遮、感測器差異同時間序整理。TESSERA 屬於地球觀測 foundation model，核心做法係把一年份 Sentinel-1 同 Sentinel-2 觀測壓成 10m 解析度、逐像素的 representation（embedding）map，讓後續任務直接食用較穩定的特徵，而唔使每次由原始影像重新清洗。

TESSERA 同常見只做 cloud-free composite 或單時點特徵抽取唔同。作者明顯想保留 temporal-spectral 訊息，將不規則觀測、光學與雷達資料一齊編碼，所以它較像先建好一層通用地表表示，再交畀分類、回歸或視覺化項目使用；代價係流程唔算輕量，現階段亦仍然係 alpha，對外存取有限。

部署流程分成資料預處理、推理、再把輸出的分塊結果拼回最終 representation map；輸入會包括 ROI 的 TIFF、Sentinel-1/2 的起止日期，而且目前 downsample rate 只支援 1，即維持 10m 解析度。README 亦提到要先看完整教學，並涉及 Docker 與一定硬件需求，較適合有遙感或資料工程能力的團隊測試。

把全年 Sentinel-1 與 Sentinel-2 壓成逐像素 embedding，而唔係只輸出單次影像結果
適合接駁土地分類、樹冠高度預測、表示視覺化等下游任務
目前偏研究與內部測試階段，外部使用門檻仍然存在
10m resolution、TIFF 輸入、按時間範圍抽取資料，工作流相對完整但較重

相關模型 TESSERA 前身為 BTFM；延伸資料亦顯示 TESSERA v2 研究緊 pixel-wise EO foundation models 點樣擴展，並包含 0.5B、1B，以及訓練中的 2B 模型，再蒸餾成較細的 student。當中 21M 參數的 distilled 版本主打 embeddings-as-data 部署，仲提供 MATRYOSHKA representations，16 維前綴已可保留大部分 128 維表現。對想長期經營遙感特徵底座的團隊，呢個方向比逐任務重訓更有吸引力。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Embedding, 模型, Dataset 數據集

SPLASH 讓小型 MLLM 學會觸覺

2026 年 7 月 10 日

想將觸覺資料接入小型多模態模型，最麻煩的地方往往不是接唔接到，而是模型一邊學「摸到乜」，一邊把原本「睇到乜」的能力搞亂。SPLASH屬於模型訓練框架，針對的正是 MLLMs 在加入 tactile perception 後容易出現的 catastrophic forgetting，目標是在保住 vision-language 能力之下完成 visuo-tactile 對齊。

它的取向幾清楚：唔係全面重訓，也唔係隨便加一條 tactile branch 就算，而是先在 LLM backbone 入面找出較「沉睡」的參數空間，再把觸覺學習限制在呢部分。項目提到它用 weight 與 activation importance scoring 生成 dormant masks，之後做 mask-guided sparse training；好處是唔使大幅動到關鍵視覺語言參數，代價則是整個流程仍然偏研究型，部署前要先備好資料集、分割資料，同時需要 CUDA 12.0 以上與至少兩張 GPU 做分散式訓練。

現有版本主要有兩個模型變體：SPLASH-1B 以 InternVL2.5-1B 為 base MLLM，SPLASH-3B 則建基於 Qwen2.5-VL-3B，兩者都配合 ViT-Tiny + MLP adapter 作 tactile frontend。資料部分亦唔算輕量，除了 LLaVA-CC3M-Pretrain-595K 與 CC3M 用來生成 mask，仲要配合 Touch-Vision-Language-Dataset、TacQuad 等項目做訓練與 OOD 評估，所以它比較適合做多模態研究、機械感知、或想驗證觸覺—視覺聯合推理的團隊。

重點不在新增多少參數，而在把觸覺更新隔離到 dormant subspace
基底模型包括 InternVL2.5-1B 與 Qwen2.5-VL-3B
觸覺前端採用 ViT-Tiny + MLP adapter
評估覆蓋 SSVTP、TVL、TacQuad，並強調保留原有通用能力

以公開資訊判斷，SPLASH最值得留意的不是單一 benchmark 分數，而是它明確押注「non-destructive modality expansion」：讓模型多學一種感官，而唔需要用視覺能力做交換。對打算在緊湊參數預算下擴展 MLLMs 感知模態的研究項目而言，這個方向比單純追高表現更有參考價值。

項目主頁 · GitHub

Categories: 開源, Qwen, NVIDIA, 多模態模型, 模型訓練, Dataset 數據集

WildCity 把城市級空間智能拉回真實街道

2026 年 7 月 10 日

做城市級重建最麻煩的，不是把街景拼得靚，而是要在車流、光線變化、模糊影像同定位誤差同時存在時，仍然保留可用的空間結構。WildCity屬於Dataset 數據集兼研究測試平台，重點不是展示單一模型，而是提供一套面向真實城市環境的資料、重建基線與 closed-loop simulator，處理 rendering、simulation 同 spatial intelligence 之間長期脫節的問題。

這個項目的價值，在於資料規模同場景難度一齊拉高。，它覆蓋美國 6 個城市、18 段長距離行車軌跡、合共 1,507 公里，並整理成 3.01M synchronized keyframes，配合 6 個環視鏡頭、LiDAR、IMU 同 GPS。對研究團隊而言，這不只是多模態資料集，亦是一個可以檢查城市級 reconstruction、extrapolated rendering 與 embodied reasoning 能否真正落地的共同基準。

跟不少較乾淨、較短路段的資料集相比，WildCity的取向明顯更偏向「野外條件」：dynamic objects、lighting and appearance changes、motion blur、imperfect poses 都保留下來。代價是結果未必容易做得好看，但好處是更接近自動駕駛車隊、數碼孿生同機器人模擬會遇到的現實限制。它也不是即插即用型工具，因為 README 已寫明 code、dataset access 同 baseline 仍在準備釋出。

[ECCV26] WildCity: A Real-World City-Scale Testbed for Rendering, Simulation & Spatial Intelligence

Watch this video on YouTube

以真實車隊採集的城市級多模態資料為核心，而非單一演示場景
除了資料集，亦規劃 urban-tailored 3D Gaussian Splatting baseline 與 closed-loop simulator
適合測試大範圍 reconstruction、rendering 外推與 embodied reasoning
現階段較適合先追蹤研究與評估設計，完整部署流程仍要等官方釋出

現時可以把 WildCity 理解為一個正在成形的基礎設施項目：資料已公開描述，Hugging Face 亦有資料集入口，而官方儲存庫之後會補上 loaders、evaluation scripts、reconstruction baseline 同 simulator。相關模型方向目前最明確的是 urban-tailored 3D Gaussian Splatting；若你做的是自動駕駛感知、城市數碼孿生、robotics simulation 或 spatial intelligence，這套基準值得提早留意，因為它測的不是理想條件下的漂亮結果，而是城市尺度下能否持續運作。

項目主頁 · GitHub

Categories: 開源, NVIDIA, Agentic, 3D, 多模態模型, Robotic, 世界模型, Dataset 數據集

Rank-Then-Act 點樣用影片學出獎勵

2026 年 7 月 9 日

做強化學習最麻煩的地方，往往不是訓練本身，而是根本冇一個好用的 reward function。Rank-Then-Act 針對的正正是這個缺口：它屬於一個以 Vision-Language Model (VLM) 為核心的強化學習框架，目標是在沒有環境獎勵的情況下，從示範影片推回任務進度，再把這種進度感變成 agent 可學習的 dense reward。

同類方法很多時會直接學一個 scalar reward，或者預測成功與否，但作者刻意避開這條路。RTA 先用 GRPO 微調 VLM，要求模型在打亂次序的畫面序列中估計 task-completion 百分比與排序，再用 VOC 這個 rank-correlation reward 去約束模型真的理解時間進展，而不是偷看絕對時間線索；之後在第二階段，系統不是直接輸出分數當 reward，而是用 Spearman rank correlation 比較預測進度排序與真實時間索引，得到一個 bounded、scale-invariant 的學習訊號。

這種取向的好處，是 reward 較不容易因尺度漂移而失真，亦較有機會跨任務重用同一個 progress scorer。現有資料指出，它在離散環境如 PyBoy 上的 Catrap、Kirby，以及連續控制環境如 MetaWorld、PointMaze 都有不錯表現，對 unseen tasks 亦有泛化能力；不過這仍然是研究型項目，重點在方法驗證，未算是即裝即用的成品工具。

重點不是直接預測分數，而是先學會判斷畫面進度排序
第一階段用 GRPO 訓練 VLM，第二階段用 PPO 訓練策略
reward 來自 VOC 與 Spearman rank correlation，訊號範圍固定在可控區間
已覆蓋 Game Boy 模擬器 PyBoy 與 MetaWorld 這類不同控制場景
需要 Python 3.10+、CUDA GPU，第二階段還要 xvfb、ROM 與 save state

理解和測試這個項目，最合理的方式不是把它當普通套件安裝，而是當成兩階段實驗流程來看：先在 stage1 用 gameplay videos 訓練 progress scorer，再到 stage2 把該模型凍結成 reward model，放進 PPO 訓練流程。儲存庫已把資料處理、Hydra 設定、多 GPU 配置、PyBoy 包裝器與 VOC 計算分開整理好，適合研究團隊、做 video-based RL 的人，或者想比較 ordinal reward 與 scalar reward 差異的讀者深入追蹤。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Agentic, Video, Python, 多模態模型, 模型訓練, 視覺模型

NVIDIA 用單一影片模型兼顧連貫與速度

2026 年 7 月 8 日

做影片生成時，最常見的卡位係：Bidirectional diffusion 生成得穩，前後鏡頭更一致，但速度慢；Autoregressive 方式可以逐段輸出，較適合串流，不過長片段容易失去連貫。Flex-Forcing 針對的正正係呢個兩難，屬於影片模型方向，目標係用同一個 Video Diffusion Model 橫跨兩種生成模式。

它的做法不是把兩套系統硬拼在一起，而是用一個較靈活的 chunking 機制，同時沿時間軸同 denoising steps 去切分。咁樣模型可以在 chunk 之間做 bidirectional 的全局規劃，又能在 chunk 之內用 autoregressive 方式逐步生成，兼顧整體一致性同推理效率。網頁用一句話概括得很清楚：one model, two generation regimes。

對內容創作、長影片生成同需要邊生成邊輸出的工作流來說，呢種設計幾有吸引力。它不是單純追求最快，亦不是只追求最完整的全局建模，而係嘗試將「先看全局」同「逐段出片」放入同一套推理框架，減少以往要為不同場景分開選模型的麻煩。

統一 Bidirectional 與 Autoregressive 兩種影片生成路線
以 temporal axis 配合 denoising steps 的 chunking 作核心設計
chunk 之間強調全局規劃，chunk 之內保留串流生成能力
目標是改善長距離一致性、速度與 exposure bias 之間的取捨

現有資料顯示，Flex-Forcing 的核心價值在於統一訓練與推理框架，而不是只做單一生成模式的微調優化。公開內容暫時未完整列出具體評測細節，但方向已很明確：希望用一個模型覆蓋更多影片生成場景，特別適合重視長片段敘事連貫，同時又需要較靈活輸出節奏的項目。

項目主頁 · Paper

Categories: NVIDIA, Video, 模型訓練, 視頻模型, 框架

SaMer 壓縮視覺檢索成本

2026 年 7 月 8 日

圖文檢索做得細緻，往往要保留大量 image-side tokens，但儲存與比對成本也會跟住升。SaMer屬於開源框架／研究原型，針對 ColPali-style multi-vector retrievers 的 token 壓縮問題而來，重點不是單純刪減，而是盡量保住之後查詢仍可能用得着的 object-level evidence。

現有壓縮做法多數偏向 pruning、pooling，或者只按 feature 合併，代價是物件與區域證據容易被混在一起，令 MaxSim late interaction 原本可選取的細節訊號流失。SaMer的取向明確：保留原本 MaxSim retrieval objective，不改 late-interaction 介面，只在 image side 做 object-aware merge，修正「壓縮後證據變鈍」這個問題。

它的方法有三個關鍵步驟：先用 feature similarity 加 spatial proximity 做 Feature-Spatial Merging，再在訓練階段利用 Flickr30k-Entities 的框標註加入 Object-Aware Assignment，避免不同實例被錯誤合併，最後採用 Projection-Only Adaptation，只訓練 shared projection layer，vision encoder 同 language backbone 都維持 frozen。到 inference 時就不再依賴 bbox，這點令部署比一些需要 detector 或額外 grounding loss 的做法簡潔。

以 ColPali-style multi-vector retrieval 為核心場景，重點是減 storage 與 scoring 成本
K=64 時可移除超過 93% image-side tokens，ColPali 儲存量下降 16.09×
在 Flickr30K 與 MSCOCO，README 與項目頁指出 R@1 有提升
相關模型權重包括 vidore/colpali-v1.3-hf，另有 Hugging Face 的 SaMer models 集合

測試與重現路線算清楚：資料要先準備 Flickr30k-Entities，之後訓練 adapter、建立 compressed retrieval cache，再做 inference。原始資料列出 Python 3.10+、CUDA-enabled PyTorch，以及單 GPU／多 GPU 腳本流程，但 evaluation 章節在提供內容中未完整展開，所以更細的 benchmark 設定與完整數字仍要以論文與項目頁為準。

這類做法最適合需要多向量圖文檢索、又在意記憶體與延遲的團隊，例如做 large-scale image retrieval、phrase-level grounding，或者要把 ColPali 類系統壓到較可部署規模的研究與工程項目。它的取捨亦很清晰：不是追求最少 token，而是用較低成本保留日後查詢仍有機會選中的視覺證據。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, NVIDIA, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

MIRA 把《Rocket League》變成可互動世界模型

2026 年 7 月 8 日

打機畫面一路變化，背後又有四名玩家同時輸入動作，呢類情境一向好難靠 world model 穩定重建。MIRA 屬於開源框架兼研究型模型項目，處理的是多人互動環境中，如何按四條 action streams 即時生成《Rocket League》對戰畫面，令 2v2 比賽可以直接在模型內運行。

現有做法多數集中在 single-player world models，其他角色通常只被當成環境一部分；作者明確反對呢種 fixed framing，因為多人場景入面，畫面變化要分得清楚邊個玩家造成。MIRA 改用 multiplayer conditioning，並配合 Representation Autoencoders 同 latent diffusion，目標唔只係畫面似真，而係令物理互動、攻守切換同多角色行為保持連貫。

個項目的取向相當鮮明：它唔係先追求最輕量部署，而係用 5B parameters 模型換取即時互動與長時間 rollout 穩定性。資料來自 10,000 小時 gameplay，README 亦公開了 RocketScienceDataset，當中每個 sample 都包含四個同步視角、逐格 keyboard action 同 game state，對做世界模型、VLA 或互動模擬研究的團隊都很有參考價值。

屬於開源框架加世界模型研究項目，重點是部署、資料使用與評估多人互動生成
與單人 world model 最大分別，在於同時按四名玩家動作生成畫面，而唔係把其他玩家當背景擾動
官方指出模型可在單張 NVIDIA B200 GPU 上以 20 FPS 生成完整 2v2 對戰
相關資料集 rocket-science 提供同步視角、動作與 game state，方便重做測試與分析
README 提供 pixi 環境安裝與 test suite 入口，但更完整部署細節仍要靠原始程式與技術報告配合理解

就公開結果看，MIRA 最有說服力的地方唔係單一 benchmark 數字，而係它把「多人動作歸因」變成核心問題，再補上對物理理解的 targeted evaluations。官方亦表示，雖然模型只用短片段訓練，distributional quality 可維持到五分鐘量測範圍，實驗中甚至能持續更長時間；不過硬件門檻高，定位更接近前沿研究平台，而唔係一般人可隨手在本地執行的輕量工具。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, NVIDIA, 世界模型, Dataset 數據集, VLA

LLM-as-a-Verifier 點樣重寫代理評分

2026 年 7 月 8 日

代理系統最常見的瓶頸，唔係生成唔到答案，而係你難以知道它每一步到底做得幾好。LLM-as-a-Verifier屬於開源框架，針對的正是呢個問題：它唔只為最終結果打一次分，而係用更細緻的方式為候選答案、行動步驟同任務準則提供可量化回饋。

現有做法不少仍然依賴單次判斷、粗粒度分數，或者只看最終成敗；作者認為呢種固定範式會忽略不確定性，亦難以支援 progress tracking 同 reinforcement learning。LLM-as-a-Verifier改用三個核心設計重組驗證流程：score granularity、repeated evaluation 同 criteria decomposition，並且直接對 LLM score tokens 的完整 logprob distribution 取期望值，而唔係只取單一輸出。

呢個取向令它同一般 judge-style 評分器有明顯分野。它重點唔在於產生一句評語，而係產生可反覆比較、可分解、可累積的 fine-grained feedback，所以可以用於 Best-of-N selection、pairwise compare，同埋逐步追蹤代理行為變化。README 亦展示了 Python 套件 llm-verifier 的基本用法；安裝方式有提供，但更完整的部署細節主要放在官方文件，而某些流程亦需要 VERTEX_API_KEY 或可回傳 logprobs 的 OpenAI-compatible server。

支援任何 modality 的驗證框架，定位比單一 benchmark judge 更廣
方法核心是細粒度評分、重複驗證、按 criteria 拆解準則
可直接用於 selection、compare、track，同時連到 reinforcement learning
官方列出 Terminal-Bench V2、SWE-Bench Verified、MedAgentBench、RoboRewardBench 等結果
相關模型與服務包括 Qwen/Qwen3.5-9B、Qwen3-8B、Gemini 2.5 Pro，以及 OpenAI-compatible server

表現上，項目聲稱在多個 agentic benchmarks 達到 state-of-the-art，包括 Terminal-Bench V2 86.5%、SWE-Bench Verified 78.2%、RoboRewardBench 87.4%、MedAgentBench 73.3%，亦提到在 LIBERO 配合 SAC 微調 pi 0 policy 時，sample efficiency 約高 1.8 倍。呢類數字反映它較適合研究團隊、代理平台開發者，同埋想將評估訊號接入訓練迴路的人；單純只想要一個最終分數的團隊，未必需要用到它整套驗證尺度。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, NVIDIA, OpenAI, Agentic, Medical醫學, Python, Anthropic, Dataset 數據集

EVA-Client 補上真實機械人部署斷層

2026 年 7 月 8 日

研究團隊把模型訓練做得愈來愈完整，但一到真實機械人落地，常見情況仍然是靠零散 script、臨時橋接同各自為政嘅除錯流程撐住。EVA-Client屬於開源框架，集中處理已訓練操作策略喺真機部署、數據收集與評估之間嘅斷層，重點唔係再訓練一個新模型，而係令整個閉環更可重用。

它同一般只覆蓋單一步驟嘅工具唔同，將 transport、policy backend 同 inference strategy 放入同一套流程，支援 ROS1、ROS2、ZeroMQ 同 offline dataset，也能接 OpenPI、OpenPI-RTC、StarVLA、GR00T、mock、replay。作者明顯想修正「訓練框架成熟，但真機端仍然拼裝化」呢種既有範式，所以瀏覽器內直接整合 debug、部署、錄製、重播同比較，定位相當鮮明。

使用路徑方面，現有資料已交代可以用 .py config 串接機械人通訊、策略後端與推理策略，再透過介面喺 DEBUG、COLLECT、RESULT 分頁切換；不過完整安裝細節仍然要配合官方文件先夠穩陣。資料收集亦唔止錄影，還會保存 camera video、3D URDF scene、state charts、milestone scores，同步回放亦保留 QC PASS/FAIL 與每幀品質旗標，對做 dataset 整理同失敗分析幫助幾大。

把部署、收數同評測放入同一個 browser workflow，減少真機迭代時來回切換工具
支援多種 transport、backend 同 inference strategy，取向偏向兼容不同機械人與策略棧
內建 live latency compensation、async strategy 同 replay，重點放喺真機穩定度而唔只係跑通
Teleop demos 與 model rollouts 共用同一套 on-disk layout，方便後續整理成 LeRobot v2.1 episodes

性能數字方面，現有資訊未見統一 benchmark 分數，較多是能力與流程層面的描述，所以暫時唔適合把它理解成用單一指標決勝負嘅項目。較受惠嘅會是做 VLA、VAM、WAM 或機械人操作研究嘅團隊，尤其要頻繁比較 checkpoint、遠端連 policy server、或者同時管理多款真機平台嘅場景；已列出可配合嘅相關模型與系統包括 OpenPI、OpenPI-RTC、StarVLA、GR00T，以及 LeRobot、VLA Foundry 呢類訓練側框架。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, DeepSeek, Video, 3D, 多模態模型, Dataset 數據集, VLA

LiveEdit：串流影片編輯走向即時化

2026 年 7 月 5 日

LiveEdit 是一個 diffusion-based streaming video editing 系統，屬於影片編輯模型與方法項目。它的核心任務是根據來源影片加上文字指令，逐段完成 causal chunk-by-chunk editing，並盡量保留背景與沒有修改的區域。

這個項目不是追求離線影片慢慢算到最靚，而是針對接近即時的串流編輯。它建基於 Wan2.1 和 Self-Forcing codebase，並用 three-stage distillation，把雙向編輯 teacher 的能力轉移到串流 student，再配合 AR-oriented Mask Cache 減少重複運算，換來較低延遲。

部署與測試資訊算是完整，提供 inference scripts、training code、checkpoint instructions，也講明建議在 Linux 配合 NVIDIA GPUs 執行；單 GPU 可做 inference，多 GPU torchrun 主要用於訓練。輸入方式是準備一個 JSON，填入 source video 路徑和 instruction，然後配合已釋出的權重與 Wan2.1 base model 進行推理。

有一個相當關鍵的參考值：項目頁列出 12.66 FPS，並表示透過 4-step distilled diffusion generation 達成 real-time streaming inference。這個成績對互動式影片編輯很重要，不過公開資訊未見更完整的硬件條件、顯存需求或不同解析度下的比較，因此判斷效能時仍要保留一點。

重點不是一般文字生片，而是保留原片內容的串流影片編輯
主要技術包括 three-stage distillation、Causal DiT、AR-oriented Mask Cache
已公開 inference 與 training 程式碼，也提供 Hugging Face checkpoint 指引
已知較適合 Linux、NVIDIA GPU 環境，研究團隊或影像生成工程師較易受益
相關模型與基礎包括 Wan2.1-T2V-1.3B、bidirectional editing teacher、streaming student

整體來看，LiveEdit 的價值在於把 streaming video editing 做得更接近可互動系統，而不只是展示級效果。它較適合研究即時影片編輯、互動內容製作、直播視覺處理或需要低延遲生成的團隊；一般用家若想直接在圖形介面一鍵開用，現有資料未提供管理後台整合、免手動設定流程，仍然比較像面向研究與開發者的項目。

項目主頁 · GitHub · 模型

Categories: 開源, 香港科技大學, NVIDIA, Video, Linux, 模型, 視覺模型, 視頻模型, 蘋果, 框架

Page 3 of 7

« Previous 1 2 3 4 5 … 7 Next »