
UniverSat 是一個面向 Earth Observation 的 ViT-style backbone 研究原型。它的主要用途,是用單一模型處理不同感測器、不同解析度、不同光譜通道與不同時間長度的遙測影像,減少每種資料都要分開建模的麻煩。
現有做法多數沿用 ViTs 的 fixed input format,先把資料重採樣、挑選通道,或者替每個 sensor 準備獨立 encoder;作者認為這種範式會犧牲原始資訊,也令跨資料來源整合變得繁複。UniverSat 改用 Universal Patch Encoder (UPE),把任意 spatial、spectral、temporal 形狀的 patch 映射到共享 embedding space,核心取向是 一組權重處理多種輸入。
這個項目現階段更像可直接試驗的研究模型,而不是包辦整條流程的完整產品。公開資訊顯示可經 torch.hub 載入 pretrained weights,也有 demo notebook;理解方式不難,把它視為可插入 EO pipeline 的 backbone,輸入可用你手上的 sensors 組成 dict,再讀出 dense embeddings 供下游分類、分割或檢索任務使用。
它最值得留意的差異,在於不依賴 input resampling、channel selection、per-sensor encoder,並聲稱對未見過的 sensors 也能泛化。代價是這類通用 backbone 通常更依賴訓練資料覆蓋範圍;目前已知訓練橫跨 7 個 datasets、13 個 sensors,涵蓋 optical、radar、hyperspectral、elevation,空間解析度由厘米級到數百米,光譜由 1 band 到 396 channels,時間上亦可由單次觀測到 150+ revisits。
- 項目類型:地球觀測用的模型 backbone/研究原型,不是單純資料集或標註工具
- 解決問題:把多來源遙測資料放進同一模型,減少逐一調校感測器流程
- 部署理解:可用 pretrained weights 作推論與特徵抽取,較適合接到既有 PyTorch 流程
- 受益情境:研究團隊、遙測分析、跨感測器項目,尤其適合資料格式混雜的工作
- 相關模型與技術詞:Vision Transformers (ViTs)、Universal Patch Encoder (UPE)、PyTorch、Lightning、Hydra
以研究角度看,UniverSat 的價值不只在「多模態」,而是重新挑戰 Earth Observation 一直遷就模型輸入格式的習慣。若你正面對多個衛星或航測來源,又不想為每種資料各自維護一套 encoder,這個項目很值得跟進;不過基準細節與不同任務上的強弱,仍要回到論文與 benchmark 結果再細看。
GitHub: https://github.com/gastruc/UniverSat