騰訊 – InferNews

用行為地圖看懂 Agent Harness

2026 年 7 月 17 日

想理解 coding agent 點樣真正執行、點樣做安全檢查，或者想改成自己團隊用得上的流程，卡位通常唔在於缺少文件，而在於行為分散喺大量程式碼之中。Harness Handbook 就是針對 agent harness 的整理方法，把「某個行為點樣發生」變成可導航、可核對、可修改的路徑。

它處理的是行為同實作之間斷開的問題。像「刪除檔案前會否先詢問」這類問題，往往涉及多個 implementation sites，不是搜 delete、permission、confirm 就能直接還原全貌。Harness Handbook 以 behavior-level manual 方式重組這些零散位置，讓人可以由問題出發，一步步找到對應的 behavior units、相關程式碼證據，以及可能受影響的修改位置。

把分散程式碼整理成可閱讀的 behavior map
每個行為步驟都連到可驗證的 code evidence
支援理解、審核與修改共用同一套入口
著重 human in the loop，方便持續檢查系統變化

這種做法同一般 code index 或關鍵字搜尋的差異，在於它不是單純列出檔案，而是直接對應「系統會點做」。對開發者、維護大型 agent 項目的人，或者要審視安全邏輯的團隊，都會比較實用；連 coding agents 也可借這份 Handbook 更準確找到相關程式碼。

資料顯示，項目還提供 Handbook Studio，將這套 behavior map 變成可操作的入口。現階段重點不在推出另一個模型，而是為複雜 agent harness 建立一層可解釋、可審核的結構，令系統隨版本演進時，仍然保留清晰的行為脈絡。

項目主頁

Categories: 開源, 騰訊, Agentic, Vibe Coding, 編程, 框架

騰訊 Hy3 295B 參數 MoE 開源新模型

2026 年 7 月 7 日

Hy3 是由騰訊混元（Tencent Hy）團隊開發的大型語言模型，屬於 Mixture-of-Experts（MoE）混合專家架構，總參數量達 295B，每次推理僅啟用 21B 活躍參數，並額外配備 3.8B 嘅 Multi-Token Prediction（MTP）層參數。此模型基於 Hy3 Preview 進行後訓練擴展，從 50 多個產品團隊收集意見後，以更高品質數據及更大規模強化學習（RL）完成優化。頁面未明確標示 Hy3 係基於邊個外部基礎模型（base model）進行微調，但模型採用原生 MoE 設計，整體架構並非由其他既有模型衍生。

Hy3 共有 80 層非 MTP 主體層加 1 層 MTP 層，採用 GQA 注意力機制（64 個查詢頭、8 個 KV 頭，head dim 128），隱藏維度為 4096，中間層維度 13312，上下文長度支援 256K token，詞表大小為 120832。MoE 部分配置 192 個專家，每次推理啟用 top-8 專家，目前僅提供 BF16 精度版本。

Hy3 官方推薦使用 vLLM 及 SGLang 兩種高效推論框架，頁面亦提供針對兩者嘅部署指南及 finetuning 流程。由於模型體積龐大，即使只有 21B 活躍參數，完整 BF16 權重對消費級 GPU 而言仍然極具挑戰性，需要多張高階加速器才能承載。

Tencent Hy3 (Fully Tested) + Fully Free API: BEATS GLM-5.2?

Watch this video on YouTube

值得留意嘅係，Hy3 配備 MTP 層參數，可配合 speculative decoding 等加速技術提升 token 生成效率，呢類進階功能適合追求低延遲嘅應用場景。

模型類型：295B 參數 MoE 語言模型，每次啟用 21B 參數
上下文長度：256K token，詞表 120832
精度支援：目前僅提供 BF16 版本，未見 GGUF 或 AWQ 等量化檔案
部署框架：官方推薦 vLLM 與 SGLang
核心強項：Agent 能力、推理表現，以及 MTP speculative decoding 加速潛力

項目主頁

Categories: 開源, 騰訊, 模型

ViQ 想把影像變成更懂語意的離散碼

2026 年 6 月 27 日

ViQ 是一個視覺量化表示研究框架，也是把影像轉成離散 codes 的模型方法。它要解決的問題，是讓圖片像文字 token 一樣可交給多模態大模型處理，同時盡量不要在量化過程丟失太多語意與畫面細節。

現有做法常見兩條路：一類偏重重建，還原畫面能力較好，但語意資訊不足；另一類依賴 contrastive vision-language learning 的連續特徵，語意較強，卻不容易直接變成高品質離散表示。ViQ 的切入點是先做 Text-Aligned Pre-training，再做量化學習，把「先對齊語言語意、後逐步離散化」拆成清楚兩段。

它的核心設計有幾個辨識度很高的部件：以 pretrained language model 監督視覺編碼器、用 resized positional embedding 與 native patchify 支援 any-resolution input、再用 Proximal Representation Learning 配合 L∞-norm 約束，把特徵逐步推近量化錨點，最後交給 position-aware、head-wise FSQ（Finite Scalar Quantization）處理。論文亦提到基座可接 SigLIP2 vision tower、Qwen2.5 backbone，並透過 LoRA 等輕量組件訓練量化部分，而不是全面微調整個系統。

支援任意解析度輸入，不用被固定尺寸綁死
目標不是只重建圖片，而是兼顧語意理解與細節
多模態訓練可直接吃離散視覺 codes，論文稱效率可提升約 20% 至 70%
已公開訓練與推論程式，並提供 HuggingFace 權重

從部署與測試角度看，這個 GitHub 儲存庫較適合當研究實作與模型驗證項目來理解：可先用已公開權重跑 inference，觀察影像如何被編成離散 codes，再進一步重現單階段訓練示例，之後才嘗試論文中的兩階段 recipe。較受惠的會是做 MLLM、視覺 tokenization、影像重建或訓練加速的團隊；限制則是概念與訓練流程都不算輕，重點較偏研究價值，未必是即裝即用的通用工具。

GitHub： https://github.com/yuxumin/ViQ

Paper： https://arxiv.org/pdf/2606.27313

Categories: 開源, Qwen, 騰訊, Embedding, 多模態模型, 模型, 模型訓練, 視覺模型, 框架, 清華大學

WATER：WordArt 場景文字識別新突破

2026 年 6 月 26 日

這是一個由復旦大學（上海多模態具身 AI 重點實驗室）與騰訊 WeChat Vision 聯合發佈的研究項目（屬於數據集＋模型基準組合），同時收錄於 ECCV 2026。針對 WordArt-oriented scene TExt Recognition（WATER）這項任務，原有 STR 數據集與方法普遍圍繞「規則場景文字」與「固定模板輸入」建構，難以應對 WordArt 高度自訂的字體、紋理與版面，因此表現受限。WATER 從兩端突破：數據方面構建 2M 規模合成數據集 WATER-S，模型方面提出支援任意形狀輸入的 STR 基線 WATERec。

WATER-S 數據集設計包含兩個互補子集：WATER-T（1M）由 SynthWordArt 渲染引擎透過 11,250 款藝術字體生成，提供高可控的精準合成樣本；WATER-Z（1M）則結合 Qwen3-VL 提示詞挖掘與 Z-Image 影像合成，覆蓋更真實且多元的場景。再搭配 WATER-R（3.2M，整理自 Union14M-L、WordArt、WAS-R 並去重）作為真實訓練集，整體數據規模較既有藝術文字數據提升數百倍。

WATERec 模型架構採用類似 NaViT 的編碼器搭配 RoPE，支援任意形狀輸入，再以自回歸解碼器處理複雜版面，從結構上打破固定模板 STR 的瓶頸。在 WordArt-Bench 上以 90.40% 準確率成為首個突破 90% 的結果，大幅超越 HunyuanOCR（81.54%）及其他通用或 OCR 專用視覺語言模型。

使用方法需配合外部資源：WATERec 訓練與推理程式碼位於 OpenOCR-WATERec 倉庫；模型權重、數據集（包含 WordArt-Bench）、273K 條 WATER-Z 提示詞模板與 112K 款藝術字體皆託管於 HuggingFace。複製本倉庫後，可透過 SynthWordArt/ 目錄取得 WATER-T 渲染流程，prompts/ 目錄提供 caption_mining.py 與 fewshot_expansion.py 兩階段提示詞挖掘，Z-Image/gen_zimage.py 支援多 GPU 並行生成，eval_vlm/ 則整合 Qwen3-VL-8B、InternVL3.5-8B、GOT-OCR2.0、DeepSeek-OCR-2、PaddleOCR-VL、PP-OCRv5、HunyuanOCR、Nemotron-VL-8B 等基線評測腳本。

重點摘要：
– 復旦大學與騰訊 WeChat Vision 團隊合作，獲 ECCV 2026 收錄
– WATER-S 含 WATER-T（字體渲染）與 WATER-Z（VLM + 影像合成）兩條合成路徑
– WATERec 以任意形狀編碼器 + 自回歸解碼器突破固定模板限制
– WordArt-Bench 90.40% 為首次突破九成，超越 HunyuanOCR 等專用 VLM
– 所有模型、數據、字體與提示詞均開源於 HuggingFace

從評估對照來看，不論是通用 VLM、OCR 專用 VLM 或一般 OCR 工具，在 WordArt-Bench 上皆明顯落後於 WATERec，反映藝術文字仍是當前多模態模型的弱項。對從事海報辨識、品牌素材處理、廣告設計自動化，以及需要處理高度風格化文字的團隊而言，這套數據＋模型組合是目前少數針對該場景強化的開源方案。

GitHub： https://github.com/YesianRohn/WATER

模型： https://huggingface.co/Yesianrohn/WATERec-Models

Categories: 開源, 騰訊, DeepSeek, Image, 多模態模型, 模型, 深度學習, 視覺模型, 中國, 北京大學, Dataset 數據集

PhoneBuddy：訓練手機代理的雙路徑做法

2026 年 6 月 25 日

PhoneBuddy 是一個開放式 phone-use agent 訓練研究項目，也是面向手機操作代理的模型訓練配方。它主要解決的問題，是讓代理不只會看畫面點擊與輸入，還能同時從真實手機執行回饋與可重設、可驗證的模擬環境中持續改進。

現有 mobile agents 常被當成 GUI controller 來訓練或評測：看螢幕、點擊、輸入、滑動，再重複下一步。PhoneBuddy 指出，單靠真實 App reinforcement learning（RL）雖然更貼近真機，但成本高、難重設、驗證麻煩；只靠 PhoneWorld 風格的 mock-app RL 又較易擴展，卻未必完全反映真實手機情境，所以它採用 real-app RL 加 mock-app RL 的混合路線。

這個取向的重點，不是單純把資料加多，而是把兩種訊號分工：真實執行提供 realism，模擬環境提供 resettable 與 verifier-backed tasks。根據公開頁面，PhoneBuddy-4B 在 Real+Mock RL 後，AndroidWorld 成功率達 83.2%，比只做 real-app RL 平均高 5.0；不過 cross-app 任務只有 18.0，反映跨 App 長流程仍是明顯短板。

現階段較適合把它理解成研究原型加公開模型，而不是完整可即裝即用產品。公開資訊顯示已有 Hugging Face 模型，包括 PhoneBuddy-4B、PhoneBuddy-4B-RealApp 與 PhoneBuddy-0.8B；但 code release、evaluation documentation 仍在補，dataset 亦未公開，所以目前較合理的測試方式，是先比較不同 checkpoint 的能力定位，再配合 PhoneWorld、PhoneHarness、PhonePrivacy、PhoneSafety 這條研究線一併理解。

核心差異：把 real-app RL 的真實性，與 mock-app RL 的可驗證擴展性結合
已公開模型：PhoneBuddy-4B、PhoneBuddy-4B-RealApp、PhoneBuddy-0.8B
公開成績：AndroidWorld 83.2%，平均比 real-app RL only 高 5.0
主要限制：cross-app 表現偏低，資料集未公開，程式與評測文件仍未齊備
較適合人群：研究 Computer-use agents（CUAs）／手機代理、做 agent training、benchmark 或安全與私隱分析的團隊

想了解「手機代理怎樣訓練得更像真機、又不至於每次都要真人手動重置環境」，PhoneBuddy 的判斷相當清晰：真實世界負責可信度，模擬世界負責規模。它未必已經提供完整部署流程，但作為 open phone-use agents 的訓練方向，取捨、限制和下一步研究空間都表達得很明確。

GitHub： https://github.com/PhoneBuddyAI/phonebuddy

項目主頁： https://phonebuddyai.github.io/

項目： https://huggingface.co/PhoneBuddyAI/PhoneBuddy-4B

Categories: 開源, Qwen, 香港, 香港中文大學, 騰訊, Gemini, OpenAI, Agentic, 安全, 模型, 模型訓練, 中國, Dataset 數據集

ActWorld 讓世界模型學懂互動

2026 年 6 月 18 日

ActWorld 是一個 Interactive World Model，目標是把「可四處觀看的世界」推進到「可以即時操作的世界」。以往不少世界模型主要支援移動、轉向、環視等導航動作，對場景中的物件互動支援有限；這個項目則加入中途操作物件的能力，例如拾取、搬運、放置，令同一次 rollout 不只是在場景中行走。

這個項目想處理兩個核心問題：一是缺少高質素的人與物件互動數據，二是模型容易忘記早前發生、但會影響之後物件狀態的關鍵畫面。為此，團隊建立了 100K interaction video dataset，並以 chain-of-thought reasoning 產生 per-chunk captions；同時提出 hierarchical action-aware memory 和 persistent memory bank，讓模型按互動重要性保留歷史資訊，減少 action-forgetting。

使用時，讀者可先從項目頁面的 Paper、Code、Video 和 Comparisons 了解能力範圍。從內容描述判斷，ActWorld 適合研究 Interactive World Model、Computer-use agents（CUAs）相關模擬環境、機械人互動、或需要長時序場景生成與控制的團隊參考。

在單一模型內同時處理 long-horizon navigation 與 object interaction
透過 100K interaction video dataset 補足互動數據不足
用 hierarchical action-aware memory 保留較重要的互動歷史
以 persistent memory bank 追蹤事件更新與物件身份

按頁面說明，實驗結果顯示它在不犧牲 viewpoint control 的情況下，interaction fidelity 明顯優於只做導航的 baseline。現階段公開資訊以研究展示為主，若想深入理解效果，最應留意 Comparisons 及論文中的評測設定與限制。

項目： https://interactwm.github.io/ActWorld/

Categories: 開源, 騰訊, Agentic, Video, AI productions, 多模態模型, 模型, 世界模型, Dataset 數據集

RhymeFlow：加快影片生成的新路線

2026 年 6 月 16 日

Repository image for Simon-Dcs/RhymeFlow

現時不少影片生成加速方法，主要仍沿用標準 diffusion pipeline：每一幀都要在所有 diffusion timesteps 完整做一次 dense denoising，再配合 sparse attention 或 KV-caching 減少單步計算。RhymeFlow 指出，這種固定範式忽略了相鄰影格內容與動作高度相關，令自然影片裡大量中間步驟其實屬於重複運算。

這是一個免訓練的影片生成加速框架，核心目標是替 DiT（Diffusion Transformers）影片模型減少推理延遲與運算成本。它將不同影格的 denoising trajectory 拆開處理：先找出主導語意變化的 keyframes，讓 keyframes 保持逐步去噪，非 keyframes 則逐步跳過部分步驟，再用 latent trajectory projection 補回時間一致性。

這個做法的創新，不在於單純把 attention 再稀疏化，而是直接挑戰「所有影格都要同步、密集去噪」的舊假設。論文描述，RhymeFlow 在現有 DiT-based video generation models 上，能同時取得更高 inference speed 與更好 visual quality；不過 GitHub 目前公開重點放在 Wan 2.1 adaptation，HunyuanVideo adaptation 仍在準備中。

如果你想試，較合理的切入點是把它當成 Wan 2.1 的加速實驗框架，比較 dense、svg、sap、rhyme、rhyme_sap 幾種方法輸出時間與畫面差異。環境要求偏高，文件列出 CUDA 12.4 / 12.8 與 PyTorch 2.5.1 / 2.6.0，亦牽涉 FlashInfer、flash-attn 和自訂 kernels，較適合已有 GPU 與 PyTorch 經驗的人。

項目類型：training-free 影片生成加速框架，處理 DiT 影片模型推理太慢的問題
方法重點：keyframes 做 dense denoising，非 keyframes 跳步處理，再用 latent trajectory projection 維持時序一致
可比較方法：dense、svg、sap、rhyme、rhyme_sap
相關模型：Wan 2.1 已有 adaptation，HunyuanVideo adaptation 尚未完整釋出
適合場景：研究影片生成推理優化、比較不同加速策略、測試速度與畫質取捨

整體來看，RhymeFlow 的價值很明確：它不是改模型權重，也不是重新訓練，而是重排 denoising flow scheduling，從流程層面節省計算。對研究者與進階開發者而言，這類思路比單純堆硬件更有參考價值；對一般創作者來說，現階段門檻仍在部署與 GPU 環境。

GitHub： https://github.com/Simon-Dcs/RhymeFlow

Paper： https://arxiv.org/pdf/2606.06309

Categories: 開源, 騰訊, NVIDIA, Video, Content Creator, AI productions, Python, 模型訓練, 深度學習, 視頻模型, 框架, 清華大學

Stream3D-VLM 把串流影片變成 3D

2026 年 6 月 9 日

Stream3D-VLM 是一個 online 3D vision-language model，重點是直接從串流影片做即時空間理解，而不是等整段影片或整個場景收集完才分析。對想研究機械人、空間問答，或 3D 場景互動的人來說，這個項目處理的是「模型可否一邊看、一邊建立場景概念，再即時回答問題」這件事。

使用這個項目時，核心資源包括已公開的 Stream3D-VLM-4B 模型、Stream3D-1M Dataset，以及 Stream3D-Bench。資料方面未有直接釋出原始媒體，但有提供標註、GLB 與 RRD 等重建結果；GLB 可放入一般 3D viewer 逐步查看點雲，RRD 則可配合相機姿態與點雲記錄觀察完整重建流程。

Stream3D-VLM 加入 incremental geometry priors，令模型隨時間吸收對齊的 3D 幾何線索。項目亦提出 Visual-Spatial Feature Integration（VSFI）模組，以及 Geometry-Adaptive Voxel Compression（GAVC）模組，前者負責把幾何資訊逐步注入視覺串流，後者用 3D 結構去壓縮 visual tokens，減少長序列推理負擔。

團隊亦建立了可擴展的資料生成流程，整理超過 1M online spatio-temporal 3D QA pairs，並設計涵蓋 29 項任務的基準。項目聲稱在 online 與 offline 的 3D spatial understanding、reasoning、grounding 任務上，表現優於部分 proprietary 與 open-source models；不過文章未在這份資訊中列出完整數字，閱讀結果時仍要配合論文與實驗頁面一起看。

解決痛點：傳統 3D Large Multimodal Models 多數依賴離線處理，這個項目改為面向 streaming video。
主要方法：結合 autoregressive streaming control、VSFI 與 GAVC。
資料與基準：提供 Stream3D-1M Dataset 標註及 Stream3D-Bench，涵蓋 29 項任務。
可視化資源：支援 GLB 與 RRD，方便檢查增量重建與相機軌跡。
相關模型：已公開 Stream3D-VLM-4B，可作為了解整體能力的主要入口。

整體來看，Stream3D-VLM 最適合用來觀察 3D 多模態模型如何由「看完整段再答」走向「邊看邊答」。它未必是一般開發者即裝即用的輕量工具，但對研究串流場景理解、3D 問答、空間推理流程的人，這個項目有相當清晰的方向與實驗野心。

GitHub： https://github.com/hanxunyu/Stream3D-VLM

項目： https://stream3d-vlm.github.io/

Categories: 香港科技大學, 騰訊, NVIDIA, 多模態模型, 模型, 視覺模型, Robotic

GEM 把深度圖生成帶入訓練流程

2026 年 5 月 29 日

GEM（Generative-supervised Embodied vision-language Model）是一個面向具身智能的 Vision-Language Models（VLMs）項目，重點不是只靠文字與圖片對答，而是讓模型同時學會場景的空間結構。它加入了深度圖生成這個輔助目標，希望補足一般文字驅動預訓練較少接觸的物理與幾何訊息，令模型不只「看得明」，也更接近「知道怎樣在空間中行動」。

這個設計想解決的問題很清楚：很多模型在語意理解、問答和描述表現不錯，但一牽涉到距離、遮擋、方向、可操作位置，或者下一步應怎樣做，能力就未必跟得上。GEM的做法，是在預訓練階段直接把 depth map generation 放進去，令模型在學文字生成時，也學場景深度與結構。論文亦提到其方法結合 hybrid autoregressive-diffusion architecture，並以 progressive training strategy 先穩定生成模組，再聯合訓練。

GEM 比較適合研究與實驗用途。倉庫已提供 GEM-2B checkpoint、GEM-250K 資料樣本，以及 VLM training / inference 代碼；要動手測試，主要是先準備 Python 3.10+ 環境與 torch、transformers、deepspeed、flash-attn 等依賴，再把資料路徑、depth image 路徑、MODEL_PATH 和 OUTPUT_DIR 設定好。由於資料位置需要手動修改到程式檔案內，整個流程不像一般即開即用工具，比較像給熟悉模型訓練流程的人做重現、微調或延伸開發。

項目的亮點不止於模型結構，還包括資料方向。README 提到釋出的是 GEM-250K 樣本，而論文內容則描述了更大規模的 GEM-4M，涵蓋 grounding、reasoning、planning 以及 depth supervision。這表示團隊的重點不只是堆大模型參數，而是把具身任務常見的空間理解、時序規劃和物理推理，放進同一套訓練資料與目標內，這對 Embodied VLMs 走向 Vision-Language-Action Models（VLA）相當關鍵。

核心方法是在 VLM 預訓練中加入 depth map generation，強化 physical grounding 與 spatial reasoning
已公開的相關資源包括 GEM-2B、GEM-250K，以及訓練與推論代碼
延伸版本 GEM-VLA 面向 Vision-Language-Action Models（VLA）與機械人操作
依賴包含 torch>=2.6.0、transformers>=4.57.0、deepspeed、flash-attn、accelerate、peft、triton、torchcodec
現階段較適合研究人員、ML 工程師，或想重現論文結果的團隊

性能方面，GEM 在多個 embodied benchmarks 上有強勁表現，而論文內容則進一步指出 GEM 與 GEM-VLA 在 diverse embodied benchmarks、LIBERO 模擬環境，以及 real-world robot tasks 取得 state-of-the-art results。從公開資訊可見，它比較的是空間推理、grounding 與任務執行能力，而不只是通用聊天或圖文問答分數。不過，倉庫頁面未完整列出所有可重現的評測表格與設定細節，使用時仍應以論文和後續釋出的完整資料為準。

整體來看，GEM最適合關注機械人、多模態學習、Embodied Intelligence 的讀者留意。若你正在找的是一個現成聊天助手，這個項目未必對口；但若你想了解下一代模型怎樣由「看圖答題」走向「理解空間並支援動作決策」，GEM提供了一條很具代表性的路線。相關模型與基礎包括 GEM、GEM-2B、待釋出的 GEM-8B、延伸版本 GEM-VLA，以及其代碼所建基的 Qwen3-VL、Sana、RDT2。

GitHub： https://github.com/zhaorw02/GEM

Paper： https://arxiv.org/pdf/2605.28548

Categories: 騰訊, Agentic, 模型, 視覺模型, 清華大學

SGT 點樣拉近多模態理解與生成

2026 年 5 月 22 日

Understanding capability gains across proxy task levels

SGT 是一個研究味較重的項目，核心想法是用「圖像分割」作為生成式微調的代理任務，讓同一個多模態模型不只看得明，亦畫得更準。它針對的痛點很清楚：不少統一多模態模型會把理解與生成分開優化，結果兩邊能力未必真正協同。

這個項目的亮點，在於它沒有再把重心放在像素紋理，而是改用較高層次的語意結構作監督。簡單講，模型不是只學顏色和邊緣，而是學物件區域與空間關係，這對圖片理解，以及按位置生成內容，都更有幫助。

從 README 提供的結果來看，SGT 曾在 BAGEL（7B+7B）和 OmniGen2（3B+4B）上驗證，顯示它不是綁死單一架構的做法。研究亦比較了 edge、depth、segmentation 三類代理任務，結論偏向一致：segmentation 在理解能力提升上表現最好，而生成的空間準確度亦有改善；至於數學或圖表推理，就未見明顯幫助。

想了解這個項目，可先看論文與項目頁，再留意其公開資料集 SAM-SGT，重點不是立即部署，而是理解這套訓練思路如何套入現有多模態模型。對研究人員、模型訓練工程師，或關心視覺理解與生成整合的人，這個方向特別值得留意。

以圖像分割作生成式微調代理，連接理解與生成
已在 BAGEL 與 OmniGen2 驗證，具一定架構通用性
比起 edge、depth，segmentation 更能提升視覺理解表現
生成結果的空間對位更穩，尤其適合位置敏感提示
分割資料越多，表現有持續上升趨勢

整體來說，SGT 吸引之處不在花巧功能，而在提出一條頗務實的訓練路線：用高層語意監督，補回多模態模型常見的理解與生成落差。若你關注 UMM 後訓練方法，這個項目很值得放入觀察名單。

GitHub： https://github.com/song2yu/SGT

Paper： https://arxiv.org/pdf/2605.18714

Categories: 開源, 騰訊

Page 1 of 2

1 2 Next »