模型 – Page 9 – InferNews

MobileForge：手機 GUI Agent 訓練新路線

2026 年 6 月 26 日

MobileForge 是一個用來調整 mobile GUI agents 的研究型訓練框架。它主要解決手機操作代理往往要靠人工寫任務、示範或獎勵標籤，成本高又難快速轉去新 App 的問題。

常用做法 human-written tasks、demonstrations 或 reward labels 去訓練，作者認為這種固定範式有兩個限制：生成的任務未必貼近目標 App，rollout 只得到稀疏成敗訊號，也很難轉成可重用的步驟級學習訊號。MobileForge 的處理方式是把目標 App 的真實互動交給 MobileGym，先做探索、抽取 executable curricula，再用 HiFPO 把 hints、hierarchical trajectory feedback 和 step-level GRPO training 串成一個不用任務標註的調整流程。

這個取向不是單靠更大模型硬推成績，而是重新整理資料來源與訓練單位：任務來自 target-app interaction，回饋不只看最後成功與否，還會拆成 outcome labels、process feedback 和 corrective hints。代價也很明顯，整個流程依賴真實 Android app 互動環境，部署與測試較像研究實驗管線，而不是裝好即用的消費級工具。

根據項目較合理的理解方式是：先取用作者釋出的 codebase、HuggingFace models、datasets 與 benchmark results，再在 Android 任務環境重跑 exploration、rollout、training、evaluation 幾個部分。它較適合做 mobile agent 研究、行動自動化、GUI policy optimization 的團隊，也適合想比較 annotation-free adaptation 與傳統人工標註流程差異的人。

類型定位：研究型框架，核心是 annotation-free adaptation
方法骨幹：MobileGym 負責探索與任務生成，HiFPO 負責回饋轉訓練訊號
已公開模型：GUI-Owl-1.5-8B、Qwen3-VL-8B 的 MobileForge 版本
結果重點：GUI-Owl-1.5-8B 在 AndroidWorld 達到 67.24% Pass@1、77.59% Pass@3；MobileWorld 為 41.03% SR
取捨：減少人工標註依賴，但需要較完整的互動環境與實驗流程支持

MobileForge 同時展示 in-domain AndroidWorld adaptation 與 out-of-domain MobileWorld GUI-only generalization，表示它不只是在單一資料分佈內調參。對想建立可遷移手機代理能力的團隊來說，這個項目提供的價值不只是模型 checkpoint，還包括一套如何把真實 App 操作痕跡轉成訓練循環的具體方法。

GitHub： https://github.com/kwai/MobileForge

項目主頁： https://mobile-forge.github.io/

Model： https://huggingface.co/collections/lgy0404/mobileforge-models

Categories: 開源, 阿里巴巴, Qwen, Agentic, 工具, 模型, 模型訓練, 清華大學, 框架, Dataset 數據集

Qwen-AgentWorld：用語言模型模擬七大代理環境的世界模型

2026 年 6 月 26 日

Qwen-AgentWorld 是阿里 Qwen 團隊開源的語言世界模型（Language World Model），屬於模型與訓練框架類項目，核心任務是透過長鏈思維推理模擬代理（agent）在七大領域的環境動態，並為代理強化學習提供可擴展、可控的模擬環境。

現有做法普遍把世界模型視為代理訓練完成後的「後加配件」（post-hoc add-on），僅在需要時才引入環境模擬能力，這種範式限制了模擬品質與遷移效果。Qwen-AgentWorld 的差異在於從 CPT 階段起就把環境建模作為訓練目標，透過 CPT 注入環境知識、SFT 啟動下一狀態預測推理、RL 以混合獎勵機制銳化模擬保真度，最終在超過 1000 萬條真實互動軌跡上完成訓練。

這個項目同時釋出 Qwen-AgentWorld-35B-A3B（MoE 架構，總參數 350 億、激活 30 億、256K 上下文）以及 AgentWorldBench 評測基準，後者涵蓋 Tool Decathlon、Terminal-Bench 1.0/2.0、OSWorld-Verified 等九個基準，從五個維度以真實標籤評分世界模型品質。團隊亦提出兩種互補應用範式：作為解耦的環境模擬器支援大規模代理 RL，或作為統一代理基礎模型，以世界模型預訓練作為下游代理任務的暖身步驟。

重點摘要：

七大統一領域：MCP、Search、Terminal、SWE、Android、Web、OS，首次由單一語言模型覆蓋。
原生世界模型：環境建模從 CPT 階段即為訓練目標，非後加適配。
可泛化模擬器：支援零樣本遷移到分布外環境（如 Claw Agent），並允許可控擾動與虛構世界構建。
代理基礎模型：單輪非代理軌跡上的 LWM RL 暖身，可遷移至多輪工具調用代理任務。
開源權重與基準：模型權重與 AgentWorldBench 均於 Hugging Face 與 ModelScope 釋出。

部署方面，模型可透過 Hugging Face 模型 ID 直接下載，或在無法存取 HF Hub 的環境下透過 ModelScope 配合 SGLang、vLLM 等框架載入。對於需要大量代理 RL 訓練數據的團隊，這個項目提供了一條以模擬取代部分真實環境互動的路徑，有助降低成本並提升可控性。

GitHub： https://github.com/QwenLM/Qwen-AgentWorld

Paper： https://arxiv.org/pdf/2606.24597

Categories: 開源, 阿里巴巴, Qwen, Agentic, MCP, 模型, 模型訓練, 深度學習, 世界模型, 框架

Google AI Studio’s Interactions API

2026 年 6 月 26 日

Gemini Interactions API 是實驗性 API，可讓開發人員使用 Gemini 模型建構生成式 AI 應用程式。Gemini 是 Google 最強大的模型，打從設計之初就具有多模態的特質。可歸納內容，完美解讀、操作及結合語言、圖片、音訊、影片和程式碼等不同類型的資訊。您可以使用 Gemini API 處理各種用途，例如：跨文字和圖片進行推論、生成內容、對話式代理程式、摘要和分類系統等。

這是一個供開發者使用的 API，屬於 Google AI Studio 的 Interactions API。它的主要用途，是用一個統一介面去操作 Gemini models 與 agents，方便把模型回應、工具呼叫和代理人流程放在同一套工作流內處理。

和一般逐步拼接多個端點的做法相比，較值得留意的是它主打「統一」：同時面向模型和 agents，減少來回切換不同介面的負擔。這對要做多步驟互動、工具協調、或需要把 AI 行為包成穩定流程的團隊會更實用。

統一處理 Gemini models 與 agents
適合原型、整合與工作流測試
方便把模型回應與工具呼叫串接
較適合開發者與 agent 應用場景

項目主頁： blog.google

Categories: Google, Gemini, OpenAI, Agentic, API, 軟件, 工具, AI productions, 模型, 編程

dots.tts：支持廣東話的連續式語音合成

2026 年 6 月 25 日

dots.tts 是一個文字轉語音（Text-to-Speech, TTS）模型，主要用來將輸入文字轉成自然語音，並兼顧聲線模仿同情緒表達。它採用全連續、端到端的自回歸（Autoregressive, AR）設計，整條流程都唔用離散 token，這點同不少傳統 TTS 做法有明顯分別。

項目提供本地模型目錄或 Hugging Face repo id 載入方式，亦有 CLI、Python API 同 Gradio 網頁示範可試。用 --prompt-audio 配合 --prompt-text 可以做延續式 cloning；只給 --prompt-audio 時則走 x-vector-only cloning；而 --language 可幫多語言或 code-switching 文字鎖定語言標籤。

这开源TTS 太狠了：3 秒复刻音色+情绪迁移，还能实时朗读！

Watch this video on YouTube

它的取向偏向高保真同穩定生成，而唔係只追求速度。官方數據顯示，dots.tts 在 Seed-TTS-Eval 取得較佳平均表現，zh / en / zh-hard 的 WER 分別係 0.94% / 1.30% / 6.60%，MiniMax multilingual benchmark 亦有 83.9 的平均 speaker similarity，反映它在聲音相似度同多語言能力上都有競爭力。

較適合做語音產品原型、配音流程、虛擬人聲、以及需要少量參考音去複製語氣嘅團隊。要留意參考音大約 10 秒較合適，而且 --prompt-text 必須同參考錄音內容一致，否則穩定性會下降。

2B 參數、全連續 AR TTS，核心目標係文字轉自然語音
支援 voice cloning、多語言同情感表達
提供 CLI、Python API、Web Demo，方便測試同部署
評測上在 Seed-TTS-Eval 同 MiniMax multilingual 都有強勢成績
相關模型包括 dots.tts-base、dots.tts-soar、dots.tts-mf

GitHub： https://github.com/rednote-hilab/dots.tts

模型： https://huggingface.co/collections/rednote-hilab/dotstts

Categories: 開源, 文字轉語音, API, Audio, Clone, Python, Python NLP, 模型, 語音

PhoneBuddy：訓練手機代理的雙路徑做法

2026 年 6 月 25 日

PhoneBuddy 是一個開放式 phone-use agent 訓練研究項目，也是面向手機操作代理的模型訓練配方。它主要解決的問題，是讓代理不只會看畫面點擊與輸入，還能同時從真實手機執行回饋與可重設、可驗證的模擬環境中持續改進。

現有 mobile agents 常被當成 GUI controller 來訓練或評測：看螢幕、點擊、輸入、滑動，再重複下一步。PhoneBuddy 指出，單靠真實 App reinforcement learning（RL）雖然更貼近真機，但成本高、難重設、驗證麻煩；只靠 PhoneWorld 風格的 mock-app RL 又較易擴展，卻未必完全反映真實手機情境，所以它採用 real-app RL 加 mock-app RL 的混合路線。

這個取向的重點，不是單純把資料加多，而是把兩種訊號分工：真實執行提供 realism，模擬環境提供 resettable 與 verifier-backed tasks。根據公開頁面，PhoneBuddy-4B 在 Real+Mock RL 後，AndroidWorld 成功率達 83.2%，比只做 real-app RL 平均高 5.0；不過 cross-app 任務只有 18.0，反映跨 App 長流程仍是明顯短板。

現階段較適合把它理解成研究原型加公開模型，而不是完整可即裝即用產品。公開資訊顯示已有 Hugging Face 模型，包括 PhoneBuddy-4B、PhoneBuddy-4B-RealApp 與 PhoneBuddy-0.8B；但 code release、evaluation documentation 仍在補，dataset 亦未公開，所以目前較合理的測試方式，是先比較不同 checkpoint 的能力定位，再配合 PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety 這條研究線一併理解。

核心差異：把 real-app RL 的真實性，與 mock-app RL 的可驗證擴展性結合
已公開模型：PhoneBuddy-4B、PhoneBuddy-4B-RealApp、PhoneBuddy-0.8B
公開成績：AndroidWorld 83.2%，平均比 real-app RL only 高 5.0
主要限制：cross-app 表現偏低，資料集未公開，程式與評測文件仍未齊備
較適合人群：研究 Computer-use agents（CUAs）／手機代理、做 agent training、benchmark 或安全與私隱分析的團隊

想了解「手機代理怎樣訓練得更像真機、又不至於每次都要真人手動重置環境」，PhoneBuddy 的判斷相當清晰：真實世界負責可信度，模擬世界負責規模。它未必已經提供完整部署流程，但作為 open phone-use agents 的訓練方向，取捨、限制和下一步研究空間都表達得很明確。

GitHub： https://github.com/PhoneBuddyAI/phonebuddy

項目主頁： https://phonebuddyai.github.io/

項目： https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B

Categories: 開源, Qwen, 香港, 香港中文大學, 騰訊, Gemini, OpenAI, Agentic, 安全, 模型, 模型訓練, 中國, Dataset 數據集

SkillHarness：幫 CUA 學得更安全

2026 年 6 月 25 日

Repository image for YurunChen/SkillHarness

這是一個研究原型，現時 GitHub 儲存庫主要提供 SkillHarness 論文 PDF。它要解決的是 Computer-Use Agents（CUAs）在動態電腦介面中學習與重用技能時，容易受 prompt injections、彈窗與環境變化影響，令已學到的技能變得危險或不穩定。

現有做法多數沿用「從成功軌跡抽取可重用技能」這個範式，常見表達形式包括函式或 API，但作者認為這類方法預設環境是 static and safe。SkillHarness 改用 safety-constrained interaction process 去看待技能的學習與使用，核心不是多學幾個技能，而是先判斷哪些技能在當下情境仍然安全。

論文提出兩個辨識度很高的設計：一是 skill boundary，用 multi-source supervision signals 從互動軌跡中找出 safe skills；二是 selective skill reuse，按當前情境拆解任務，只啟動部分技能，而不是整包照搬。這種取向的代價，是系統設計會比單純收集成功軌跡更複雜，但換來的是在動態環境下更穩定的行為。

現有儲存庫未附程式碼，所以暫時不能直接部署或重跑實驗；較合理的理解方式，是先把它當成一套 CUA 安全技能框架來讀。若之後作者釋出實作，最需要觀察的會是它怎樣接入代理的軌跡資料、怎樣建立 safety constraints，以及能否在 OSWorld 一類電腦操作基準以外維持效果。

類型屬於框架／研究論文項目，重點在安全技能學習，不是即裝即用工具
主要批評舊方法依賴 static and safe environment 假設，放到動態場景會學到不安全技能
論文聲稱 learned skills 的 unsafe rate 降低 57.1%，並提升動態環境下的 execution stability
較適合研究 Computer-Use Agents、代理安全、桌面自動化與長流程任務的團隊留意
相關脈絡模型與方法包括 Computer-Use Agents（CUAs）、Voyager、ASI，以及以函式／API 形式封裝技能的路線

GitHub： https://github.com/YurunChen/SkillHarness

Paper： https://arxiv.org/pdf/2606.20636

Categories: 開源, Agentic, API, 工具, 安全, 庫, 模型, 框架, Skill 技能

BioMatrix 把生物序列與 3D 結構放進同一模型

2026 年 6 月 25 日

BioMatrix 是一個多模態 foundation model，建立在單一 decoder-only 架構之上。它要解決的問題，是把 molecules、proteins、1D sequences、3D structures 與自然語言放進同一套生成流程，令模型不只可讀取不同資料，也可用同一個 next-token prediction 目標處理與輸出它們。

現有 biological foundation models 通常分成兩類：一類可在共享目標下融合多模態，但多數只集中單一 entity type；另一類雖然覆蓋 molecules 與 proteins，卻常常欠缺顯式 structural modeling，或者依賴 adapter-based designs、external encoders、projection adapters 與 modality-specific output heads。BioMatrix 的取向很鮮明：直接把 SMILES、SELFIES、分子 3D、蛋白質序列、蛋白質 3D 同自然語言映射到 shared discrete token space，將「可讀」與「可生成」統一。

技術上，這個項目最值得留意的是 unified tokenization scheme。分子 3D 用改良版 MolStructTok，蛋白質 3D 用 GCP-VQVAE，並以 description-based embedding initialization 把新增 token 先對齊到 pretrained Qwen3 embedding space，再做 continual pretraining；這種做法比起後加模態接頭更完整，但訓練成本亦明顯更高，官方資料提到曾用 64 張 NVIDIA H100 GPUs 配合 LLaMA-Factory 訓練。

從 GitHub 與 Hugging Face 現有資訊看，這個項目較適合當作模型下載與研究評測基線使用，目前可找到 BioMatrix-1.7B-Base、BioMatrix-4B-Base、1.7B-SFT、4B-SFT 等版本。若你想測試，較合理的理解方式是先用已發佈模型做推理或任務比較，再按需要研究其 tokenizer，例如 MolStructTok 與 GCP-VQVAE；完整重訓對一般團隊門檻很高。

模型定位：多模態 biological foundation model，不是單一分子模型或單一蛋白質模型
核心差異：把 sequences、structures、language 放入同一 shared discrete vocabulary，而非靠外掛式模態模組拼接
相關模型：Qwen3 1.7B、Qwen3 4B、BioMatrix-1.7B-Base、BioMatrix-4B-Base、BioMatrix-1.7B-SFT、BioMatrix-4B-SFT
數據與訓練：涵蓋 text、PubChem、MolTextNet、UniRef50、RCSB PDB、UniProt/Swiss-Prot、AFDB 及 cross-entity interleaved data
表現指標：論文稱 instruction tuning 後涵蓋 80 個 tasks、6 個類別，當中 77 個 tasks 達到 state-of-the-art 或具競爭力

這個項目最受惠的會是做 drug discovery、protein engineering、生物資訊研究，或者想把文字問答、分子表示與結構生成放進同一工作流的團隊。它的野心很大，優勢是統一表示與任務泛化，限制則是部署與訓練門檻高，而且論文聲稱的廣泛表現仍要看你手上的任務是否屬於那 80 個測試範圍。

GitHub： https://github.com/QizhiPei/BioMatrix

項目主頁： https://huggingface.co/collections/QizhiPei/biomatrix

Paper： https://arxiv.org/pdf/2606.22138

Categories: 開源, Qwen, 3D, Embedding, Medical醫學, 多模態模型, 模型, 模型訓練, 中國, 上海人工智慧實驗室

DataClaw0 想把雜亂多模態資料變成可訓練資產

2026 年 6 月 25 日

這是一個面向多模態資料整理的研究原型兼框架，核心是用 Agentic Data Tailoring 把原始串流資料重組成有結構、可驗證、可直接用於訓練的 supervision。它要解決的不是「再做一次標註」，而是長影片、GUI traces、embodied trajectories 與 editing sequences 太雜亂、資訊密度不均，令人和模型都難以有效吸收。

現有做法多數依賴 passive annotation paradigms，用 heuristic rules 或 general VLMs 被動加標籤；作者認為這類方式成本高、內容單調，亦抓不到原始資料入面的 procedural logic。DataClaw0 改用「Bottom-up Factual Anchors → Top-down Semantic Synthesis」兩段式流程，先抽取較確定的 factual anchors，再按意圖生成結構化語意，重點在於它不是只描述內容，而是按 downstream objective 重寫資料。

模型層面，項目提出 DataClaw-9B，並以 Supervised Fine-Tuning（SFT）加 rule-driven Group Relative Policy Optimization（GRPO）做對齊；部署上分成 unified Omni model 的 DataClaw-O，以及分領域 Experts 的 DataClaw-E。這種取向的取捨很明顯：Omni 較方便統一處理多域資料，Experts 則較可能在特定場景保留更細緻的領域表達。

現階段先看論文與案例再判斷是否值得追蹤，因為 code、model weights、dataset 和 DataClaw-val benchmark 仍未正式釋出。已公開資訊顯示，它的評測不只看生成是否通順，還會檢查 JSON validity，以及 schema-aware 的 Field、Semantic、Sequence 指標，並再用 video generation、real-world VQA、GUI navigation 的下游 post-training 效果驗證資料整理是否真的有用。

項目類型：研究原型／資料整理框架，重點是把原始多模態串流轉成意圖對齊的訓練資料
主要差異：不是被動標註，而是主動 refinement，並保留 schema-conformant、verifiable 輸出
相關模型：DataClaw-9B、DataClaw-O、DataClaw-E，訓練結合 SFT 與 rule-driven GRPO
適合情境：做多模態 post-training、GUI agents、VQA、影片或 embodied 資料整理的團隊

如果你關心的是建立資料引擎，而不只是找一個模型做推理，DataClaw0 比一般 VLM 標註流程更有方向性。限制也很直接：目前公開內容以論文與項目頁案例為主，能否重現效果、部署成本多高、不同領域泛化有多穩，仍要等正式釋出的資料與基準再作判斷。

GitHub： https://github.com/vancyland/DataClaw0

項目主頁： https://czjdsg.github.io/MakeAnyData/#cases

Paper： https://arxiv.org/pdf/2606.21337

Categories: 開源, Qwen, Gemini, Agentic, Video, 工具, IDE, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 框架, Dataset 數據集

Unlimited-OCR：長文件 OCR 新取向

2026 年 6 月 25 日

Unlimited-OCR 是一個 OCR 視覺文字辨識模型項目，也可視為一個針對長文件解析而改造的研究原型。它主要用來把圖片或 PDF 內的大量文字與版面內容一次過轉成可輸出的解析結果，重點是處理多頁文件時盡量減少記憶體負擔。

現有 end-to-end OCR 做法以 DeepSeek-OCR 為代表，會用 large language model（LLM）作 decoder，優點是能借助語言先驗提升辨識效果，但輸出一長，KV cache 會一路累積，令顯存需求上升、生成愈來愈慢。Unlimited-OCR 的做法是保留高壓縮 encoder，再把 decoder 的 attention 層改成 Reference Sliding Window Attention（R-SWA），讓每個 token 持續關注 reference tokens 與有限長度的前文，目標是把 KV cache 維持在常數規模。

這個取向最值得留意的地方，不是單純追求單頁最高精度，而是把「one-shot long-horizon parsing」放在核心位置。跟一般 full attention 比，它犧牲的是傳統全域注意力形式，換來多頁文件在 32K 長度下仍可做單次 forward pass；跟 vanilla SWA 比，它又保留 visual tokens 作為穩定參照，避免狀態傳遞後愈來愈模糊。

部署路線相當明確：項目提供 Hugging Face Transformers 推理方式，測試環境寫明需 NVIDIA GPU，並以 Python 3.12.3、CUDA 12.9 為基礎；單張圖片可在 gundam 與 base 兩種設定中選擇，多頁與 PDF 則使用 base 配置。想先了解效果，也可直接看 Hugging Face Spaces demo 或 ModelScope 版本，再決定是否自行落地。

類型定位：OCR 模型／研究原型，解決長文件、多頁解析時記憶體與速度惡化問題
核心差異：以 Reference Sliding Window Attention（R-SWA）取代 decoder 全部 attention layers
適合情境：長 PDF、批量文件數碼化、需要版面解析與長輸出的團隊
相關模型：DeepSeek-OCR、Unlimited-OCR；文中亦提到 R-SWA 可延伸到 ASR、translation
限制判斷：目前公開資訊主力放在推理與方法設計，具體評測數字仍要回看 arXiv 論文原文才適合作更細比較

對需要處理保單、報表、掃描檔、書籍或多頁行政文件的團隊，這個項目的吸引力會比一般單頁 OCR 更高。若你的工作重點是短文字截圖、手機快拍辨識，Unlimited-OCR 的優勢未必完全發揮，但對長輸出穩定性與部署在 GPU 環境的可行性，它展示了一條很清楚的改良路線。

GitHub： https://github.com/baidu/Unlimited-OCR

Paper： https://arxiv.org/pdf/2606.23050

Categories: 開源, NVIDIA, DeepSeek, Image, Python, Python NLP, 模型, 視覺模型, Meta, 百度

UniverSat：一個模型食晒多種衛星影像

2026 年 6 月 25 日

UniverSat 是一個面向 Earth Observation 的 ViT-style backbone 研究原型。它的主要用途，是用單一模型處理不同感測器、不同解析度、不同光譜通道與不同時間長度的遙測影像，減少每種資料都要分開建模的麻煩。

現有做法多數沿用 ViTs 的 fixed input format，先把資料重採樣、挑選通道，或者替每個 sensor 準備獨立 encoder；作者認為這種範式會犧牲原始資訊，也令跨資料來源整合變得繁複。UniverSat 改用 Universal Patch Encoder (UPE)，把任意 spatial、spectral、temporal 形狀的 patch 映射到共享 embedding space，核心取向是 一組權重處理多種輸入。

這個項目現階段更像可直接試驗的研究模型，而不是包辦整條流程的完整產品。公開資訊顯示可經 torch.hub 載入 pretrained weights，也有 demo notebook；理解方式不難，把它視為可插入 EO pipeline 的 backbone，輸入可用你手上的 sensors 組成 dict，再讀出 dense embeddings 供下游分類、分割或檢索任務使用。

它最值得留意的差異，在於不依賴 input resampling、channel selection、per-sensor encoder，並聲稱對未見過的 sensors 也能泛化。代價是這類通用 backbone 通常更依賴訓練資料覆蓋範圍；目前已知訓練橫跨 7 個 datasets、13 個 sensors，涵蓋 optical、radar、hyperspectral、elevation，空間解析度由厘米級到數百米，光譜由 1 band 到 396 channels，時間上亦可由單次觀測到 150+ revisits。

項目類型：地球觀測用的模型 backbone／研究原型，不是單純資料集或標註工具
解決問題：把多來源遙測資料放進同一模型，減少逐一調校感測器流程
部署理解：可用 pretrained weights 作推論與特徵抽取，較適合接到既有 PyTorch 流程
受益情境：研究團隊、遙測分析、跨感測器項目，尤其適合資料格式混雜的工作
相關模型與技術詞：Vision Transformers (ViTs)、Universal Patch Encoder (UPE)、PyTorch、Lightning、Hydra

以研究角度看，UniverSat 的價值不只在「多模態」，而是重新挑戰 Earth Observation 一直遷就模型輸入格式的習慣。若你正面對多個衛星或航測來源，又不想為每種資料各自維護一套 encoder，這個項目很值得跟進；不過基準細節與不同任務上的強弱，仍要回到論文與 benchmark 結果再細看。

GitHub： https://github.com/gastruc/UniverSat

項目主頁： https://gastruc.github.io/universat

項目： https://huggingface.co/g-astruc/UniverSat

Categories: 開源, 工具, Embedding, Python, 模型, 視覺模型, Dataset 數據集

Page 9 of 29

« Previous 1 … 7 8 9 10 11 … 29 Next »