視覺模型 – Page 5

Qwen-RobotManip 如何把機械臂訓練推向通用化

2026 年 6 月 30 日

這是一個機械人操作模型，名為 Qwen-RobotManip，屬於建基於 Qwen-VL 的 Vision-Language-Action foundation model。它主要處理機械臂操作資料分散、昂貴而且難以統一訓練的問題，目標是讓模型在未見過的任務、場景與機械平台上仍能保持可用表現。

它的核心做法，是把操作學習中的表徵、動作與行為三個層面放進同一套 alignment framework。研究團隊同時建立 human-to-robot synthesis pipeline，將第一身手部示範影片轉成 15 個平台可用的 robot trajectories，再配合多來源資料整理流程，整合真實機械人、合成資料與人類示範影片，形成約 38,100 小時 pretraining corpus。

和常見只集中單一機械平台、單一資料來源，或偏重分佈內表現的做法相比，Qwen-RobotManip 更著重 genuine generalization。評估上亦沒有停留在一般 benchmark，而是加入多個 OOD 設定，包括 RoboCasa365、LIBERO-Plus、EBench、RoboTwin-Clean2Rand、RoboTwin-IF 與 RoboTwin-XE，用來檢查指令跟隨、擾動穩健性、錯誤恢復，以及 cross-embodiment knowledge transfer。

重點可整理為：
– 建基於 Qwen-VL，面向 robotic manipulation 的通用基礎模型
– 以 unified alignment framework 整合 heterogeneous manipulation data
– 使用 human-to-robot synthesis pipeline，覆蓋 15 個機械平台
– 只依靠 open-source robotic manipulation datasets 與 human demonstration videos，未提及私有資料收集
– 在多個 OOD 評測中優於過往 state-of-the-art models，包括 π0.5，並在 RoboChallenge 排名第一

這個項目較適合關注 robotic manipulation、VLA、跨機械平台遷移與機械人資料擴展流程的人閱讀。現有資料顯示，它不單是再加大訓練規模，而是先解決資料對齊問題，令擴充規模之後的訓練信號不會互相衝突，這也是它能在真實機械平台驗證泛化能力的關鍵。

項目主頁 · Paper

Categories: 開源, Qwen, 多模態模型, 模型, 模型訓練, 視覺模型, Robotic, 框架, VLA

微軟用殘差強化學習補強機械人 VLA

2026 年 6 月 30 日

這是 Microsoft Research 的 Object-Centric Residual RL 方法。它的用途是為 Vision-Language-Action（VLA） 模型加入一層修正策略，減少機械人在真實操控中因細小誤差累積而失手的情況。

核心做法是把一個已凍結的 base VLA 保留不變，再額外疊加一個輕量 residual policy。這個 residual policy 完全在模擬環境訓練，輸入不是原始影像，而是 object-centric state、proprioception，以及 base VLA action，藉此避開常見的 visual sim-to-real gap，令策略可直接 zero-shot 轉移到真實機械人。

這個方法處理的是 imitation learning 常見的脆弱性：示範資料未覆蓋到的狀態一旦出現，誤差會一路放大。與直接微調 VLA、或在真實世界再做 reinforcement learning 相比，這個方法的差異在於只學「修正量」，而且訓練放在模擬中完成，成本與風險都較低。

保留 frozen base VLA，不用重訓整個模型
residual policy 以物件中心狀態為主，減少依賴影像對齊
目標是 zero-shot sim-to-real enhancement
適合需要精準抓取、放置或接觸操作的機械人工作流

這類方法較適合關注 VLA、Robotic 與 sim-to-real transfer 的研究者和開發者。現有資料清楚交代方法方向與問題設定，但未提供完整安裝流程或操作步驟；評估部分可確認作者以真實機械人成功率改善作為重點，更多數值細節仍需參考原始論文。

項目主頁 · Paper

Categories: 微軟, Agentic, Image, AI productions, 多模態模型, 安全, 編程, 視覺模型, Robotic, 框架, VLA

用 vision-language-action 把人類操作轉移到機械人的雙手

2026 年 6 月 30 日

人類操作數據廉價、豐富且多樣化，使其成為擴展機器人學習規範最有前景的資源之一。然而，將人類技能遷移到機器人仍然困難重重：以往的大多數工作都將人類視為另一種雙手6自由度（6DoF）的具身模型，這存在兩個問題：手部姿態估計存在噪聲，並且人類手指的接觸模式與並聯機械臂的接觸模式存在根本差異，導致手腕旋轉與機械臂操作在語義上不一致。我們認為，從人類資料中學習包含旋轉的動作訊號並非最優方案，因此提出了一種橋接動作表示：在初始頭部-攝影機座標系內的相對手腕平移，這是一個人類和機器人共享的動作空間。

如何把人類操作資料轉移到使用 parallel grippers 的雙手機械人，重點方法是用「relative wrist translation within the initial head-camera frame」作為 bridging action representation。

作者認為把人類直接當成另一種 bi-manual 6DoF embodiment 並不理想，因為手部姿態估計本身有噪聲，而且人手手指接觸模式與 parallel gripper 有本質差異。與其硬學包含旋轉的動作訊號，這項工作改為只保留更容易跨人類與機械人共享的平移資訊，減少 embodiment mismatch。

作者建立了一個 π0-like vision-language-action model，配合 interleaved action tokens 與 attention masking，處理不同 embodiment 可能缺少某些動作成分的問題。這種設計的意義，在於模型不需要假設人與機械人擁有完全相同的控制維度，較適合跨載體技能遷移。

以 wrist translation 取代完整 6DoF human actions，降低人手到夾爪的表示落差
採用 vision-language-action 架構，並加入 interleaved action tokens 與 attention masking
在 novel bi-manual manipulation tasks 上，較 noisy 6DoF human actions 有更有效的知識轉移
效果會隨 human data 數量增加而提升，說明方法具備一定擴展性

這項內容較接近方法論與表示學習分析，而不是部署指南。頁面沒有列出推論框架、硬體需求、v2 檔案更新、chat template 或 MTP draft speculation 等資訊；能確定的是，它針對 Robotic 技能轉移提出一種更貼近夾爪機械人控制需求的動作抽象，適合關注 imitation learning、cross-embodiment transfer 與雙手操作研究的人閱讀。

項目主頁 · Paper

Categories: 香港大學, 字節跳動, 多模態模型, 視覺模型, Robotic, Skill 技能

ProMSA 把 KB-VQA 變成會搜尋的代理

2026 年 6 月 30 日

這是一個針對 Knowledge-Based Visual Question Answering（KB-VQA）的研究原型兼訓練項目。它要處理的問題，是模型不只要看懂圖片內容，還要連接外部知識來源例如 Wikipedia，先找對實體，再用足夠證據回答問題。

現有做法多數採用固定的 retrieve-then-generate 流程：先選好 retriever、設好 static top-k，再做一次檢索後直接生成答案。作者認為這種範式遇到 long-tail entities 很脆弱，第一步找錯就難以修正，也不擅長組出 multi-hop 證據鏈；所以 ProMSA 改成 progressive multimodal search agent，讓同一個 MLLM 逐輪決定用 image search、text search，還是 stop。

這個項目的取向很明確：它不是單純把檢索接到模型前面，而是把搜尋本身變成推理流程一部分。配合 de-duplication exclusion list、tool-call budget 同 reward penalty，它會避免重覆撈同一批內容，亦會在證據足夠時停手，減少無效工具呼叫；訓練上再用 TN-GSPO，而不是只靠 GRPO 或 vanilla GSPO，目標是令長度與工具步數不同的軌跡都能較穩定更新。

支援 image search、text search、stop 三種動作
針對錯誤首次檢索加入 failure recovery 與 multi-hop 搜尋
採用 veRL 工具介面，包含 multi-turn rollout、reward 與 loss
policy backbone 包括 Qwen/Qwen2.5-VL-7B-Instruct、Qwen/Qwen3-VL-2B-Instruct、Qwen/Qwen3-VL-8B-Instruct

網頁已交代 Installation、Data & Model Preparation、Service Architecture、Training 同 Evaluation，表示它不只是概念展示，而是有完整實驗流程的研究項目；不過部署時應預期需要 Python 3.10+、veRL、外部搜尋服務同相應資料準備。結果描述提到在 E-VQA 與 InfoSeek 對強 RAG 和 agent baselines 有一致提升，但目前提供的是研究報告式結論，較適合做 KB-VQA、multimodal agent、RAG policy 訓練的團隊參考，而不是即裝即用的通用產品。

項目主頁 · GitHub · Paper

Categories: Qwen, Agentic, Python, RAG, 模型訓練, 視覺模型, 中國, 清華大學

LISA：讓 ControlNet 訓練快 2.78 倍的正則化方法

2026 年 6 月 28 日

LISA（Likelihood Score Alignment）是一種訓練正則化方法，專門用於加速視覺條件可控生成模型（例如 ControlNet）的訓練過程，同時提升最終生成結果在感知品質與條件遵循度上的表現。

現有做法普遍採用「雙分支範式」（dual-branch paradigm）：訓練一個側網絡（side network）來編碼視覺條件，再將其中間層特徵融合到凍結的預訓練主網絡中。這個範式雖然效果顯著，但側分支的角色定位與訓練效率長期未被深入研究。LISA 從基於分數的生成建模（score-based generative modeling）角度重新審視這個範式：主網絡負責提供先驗的無條件分數（unconditional score），側網絡則透過隱式方式貢獻似然分數（likelihood score）。

LISA 的核心做法是從側網絡的指定層提取特徵，透過一個輕量級解碼器（decoder）將其投影到分數潛在空間（score latent space），然後計算解碼器輸出與近似似然分數目標之間的距離，作為額外的正則化損失（regularization loss）。這個設計讓側網絡的特徵在條件建模中更加解耦（disentangled），且推理階段無需任何額外計算。

根據論文實驗結果，LISA 在多種圖像與影片任務、不同網絡架構（UNet/DiT）以及擴散與流匹配模型上均表現穩定，能夠實現超過 2.78 倍的訓練收斂加速（例如在 ControlNet 上），同時帶來可忽略的額外訓練成本與零推理成本。

這項技術特別適合需要快速迭代 ControlNet 或類似條件控制模型的團隊，例如從事姿態引導圖像生成、組合條件生成或可控影片生成的研究人員與開發者。

重點摘要：

方法類型：訓練正則化技術，適用於雙分支視覺條件可控生成框架
核心創新：將側網絡特徵對齊近似似然分數目標，取代純粹依賴擴散損失的訓練方式
訓練效率：在 ControlNet 等場景實現超過 2.78 倍的收斂加速
推理成本：零額外推理開銷，解碼器僅在訓練階段使用
適用範圍：圖像與影片生成任務，兼容 UNet 與 DiT 架構，支援擴散與流匹配模型

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 華為, IDE, 模型, 模型訓練, 深度學習, 視覺模型, 框架

ViQ 想把影像變成更懂語意的離散碼

2026 年 6 月 27 日

ViQ 是一個視覺量化表示研究框架，也是把影像轉成離散 codes 的模型方法。它要解決的問題，是讓圖片像文字 token 一樣可交給多模態大模型處理，同時盡量不要在量化過程丟失太多語意與畫面細節。

現有做法常見兩條路：一類偏重重建，還原畫面能力較好，但語意資訊不足；另一類依賴 contrastive vision-language learning 的連續特徵，語意較強，卻不容易直接變成高品質離散表示。ViQ 的切入點是先做 Text-Aligned Pre-training，再做量化學習，把「先對齊語言語意、後逐步離散化」拆成清楚兩段。

它的核心設計有幾個辨識度很高的部件：以 pretrained language model 監督視覺編碼器、用 resized positional embedding 與 native patchify 支援 any-resolution input、再用 Proximal Representation Learning 配合 L∞-norm 約束，把特徵逐步推近量化錨點，最後交給 position-aware、head-wise FSQ（Finite Scalar Quantization）處理。論文亦提到基座可接 SigLIP2 vision tower、Qwen2.5 backbone，並透過 LoRA 等輕量組件訓練量化部分，而不是全面微調整個系統。

支援任意解析度輸入，不用被固定尺寸綁死
目標不是只重建圖片，而是兼顧語意理解與細節
多模態訓練可直接吃離散視覺 codes，論文稱效率可提升約 20% 至 70%
已公開訓練與推論程式，並提供 HuggingFace 權重

從部署與測試角度看，這個 GitHub 儲存庫較適合當研究實作與模型驗證項目來理解：可先用已公開權重跑 inference，觀察影像如何被編成離散 codes，再進一步重現單階段訓練示例，之後才嘗試論文中的兩階段 recipe。較受惠的會是做 MLLM、視覺 tokenization、影像重建或訓練加速的團隊；限制則是概念與訓練流程都不算輕，重點較偏研究價值，未必是即裝即用的通用工具。

GitHub： https://github.com/yuxumin/ViQ

Paper： https://arxiv.org/pdf/2606.27313

Categories: 開源, Qwen, 騰訊, Embedding, 多模態模型, 模型, 模型訓練, 視覺模型, 清華大學, 框架

ShutterMuse：拍照當下即時引導構圖與姿勢的多模態模型

2026 年 6 月 27 日

ShutterMuse 是一個統一的多模態大型語言模型（MLLM），專門用於拍照瞬間的攝影引導，解決「按下快門前該怎麼構圖、被攝者該擺什麼姿勢」這個長期被忽略的問題。傳統做法多以「事後美學裁剪」為主，只評估模型能否從既有照片中挑出最佳裁切區域，卻沒有涵蓋拍攝當下的構圖決策，更完全不處理被攝者的姿勢推薦；通用型 MLLM 雖然能給出構圖建議，卻難以精準定位需要調整的區域，而專門的美學裁剪模型雖然定位能力強，卻只能處理裁切這一項任務，兩者皆無法提供結構化、可即時執行的姿勢指引。ShutterMuse 透過同時輸出「保留／微調／重拍」三類構圖決策，搭配 COCO-17 關鍵點與可見度資訊的姿勢骨架，把拍攝引導整合成單一模型。

CaptureGuide-Bench 與 CaptureGuide-Dataset 是這個項目的兩大支柱：前者涵蓋構圖決策／微調與姿勢推薦兩類互補任務，後者包含約 13 萬筆樣本，附帶文字推理與結構化視覺標註，供監督式微調與強化學習微調使用。從評測結果來看，ShutterMuse 在攝影師端引導的 IoU 達到 74.30、BDE 降至 0.054、MLLM-Score 為 0.64，皆優於 Gemini-3.0-Pro、GPT-5.5 與 Venus 等對照組；在被攝者端姿勢推薦方面，平均分數與互動性指標亦具競爭力，且推論時間與 token 消耗明顯低於 Nano-Banana-Pro 與 GPT-Image-2。

這個項目由復旦大學與 StepFun 共同開發，模型權重、評測腳本與範例已於 Hugging Face 與 GitHub 同步釋出。原始資料提供了模型下載連結與項目頁面的示範影片，部署細節需參考項目頁面或模型卡片的後續說明。

重點摘要

統一處理構圖決策（保留／微調／重拍）與姿勢推薦兩類拍攝引導任務
隨附 CaptureGuide-Dataset（13 萬樣本）與 CaptureGuide-Bench 兩項資源
在 CaptureGuide-Bench 多項指標上超越 Gemini-3.0-Pro、GPT-5.5 與 Venus
姿勢推薦推論成本低於 Nano-Banana-Pro 與 GPT-Image-2
適合攝影教學、智慧相機助理、AR 拍攝引導等需要即時回饋的場景

對攝影 App 開發者、相機廠商研究團隊，或任何想把「構圖教練」與「姿勢教練」整合進拍攝流程的產品而言，ShutterMuse 提供了一個可直接微調與評測的起點；至於一般使用者，則可先透過 Hugging Face 上的模型權重與項目頁面示範影片了解其能力，再依官方後續釋出的腳本進行本地部署。

GitHub： https://github.com/lijayuTnT/ShutterMuse

項目主頁： https://lijayutnt.github.io/ShutterMuse/

模型： https://huggingface.co/ShutterMuse/ShutterMuse

Categories: 開源, OpenAI, Image, 工具, 影像處理, 模型, 教學, 視覺模型, Dataset 數據集

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

DomainShuttle 開源：把主角穿梭到任何風格的影片

2026 年 6 月 26 日

DomainShuttle 是一個以 Wan2.2-T2V-A14B 為基底的 subject-driven text-to-video（主體驅動文字轉影片）框架，目標是讓用戶提供一張參考圖後，能在不同視覺風格與場景中維持同一角色的身份一致性。過去的 subject-driven 方法多在 in-domain（與訓練資料同域）下能保留主體細節，但一旦跨域到風格差異大的場景，主體往往走樣或失去身份特徵；DomainShuttle 把參考特徵與影片特徵解耦，並引入 domain attribute 建模與 intrinsic subject representation，試圖兼顧 in-domain fidelity 與 cross-domain editability。

開發團隊來自香港科技大學 C4G 實驗室，作者群包括 Nan Chen、Yiyang Cai、Rongchang Xie、Junwen Pan、Cheng Chen、Weinan Jia、Zhuowei Chen、Wen Zhou（項目負責人）、Zhenbang Sun 以及通訊作者 Wenhan Luo。等貢獻作者共同發表技術報告，並同時釋出 14B 規模的非官方權重與推理代碼。

先以 conda 建立 Python 3.10 環境並安裝 PyTorch 2.5.1（CUDA 12.4），接著執行 build_env_conda.sh。模型準備分兩步：先用 huggingface-cli 下載 Wan-AI 的 Wan2.2-T2V-A14B 作為基底模型，再下載 CNcreator0331/DomainShuttle_weight，最後將 VAE、configuration.json 等檔案移入指定的 ./models/Diffusion_Transformers/Wan2.2-DomainShuttle-A14B/ 目錄。原始資料未提供完整推論指令片段，相關細節需參考技術報告與項目頁面的後續說明。

從示範結果看，DomainShuttle 能在寫實人物、動漫風、Ghibli 風、3D 動畫風等不同域之間切換，同時保留臉部與服飾特徵，跨域 personalisation 效果明顯。適合短片創作、角色 IP 化、廣告分鏡與動畫預覽等需要「同一角色穿梭多場景」的團隊。需注意目前釋出的是非官方實作，且依賴 14B 規模的基座模型，部署對顯存要求較高。

重點摘要：

類型：subject-driven text-to-video 框架，建基於 Wan2.2-T2V-A14B
開發團隊：香港科技大學 C4G 實驗室，Wen Luo 為通訊作者
核心設計：解耦參考與影片特徵、加入 domain attribute 與 intrinsic subject representation
與同類差異：強調 cross-domain editability，補足過往方法跨域走樣的缺陷
資源：已釋出 14B 權重、技術報告與推理代碼，需 CUDA 12.4 環境

GitHub： https://github.com/HKUST-C4G/DomainShuttle

項目主頁： https://cn-makers.github.io/DomainShuttle/

模型： https://huggingface.co/CNcreator0331/DomainShuttle_weight

Categories: 開源, 香港, 香港科技大學, NVIDIA, Stable Diffusion, Video, Content Creator, 3D, IDE, Python, Python NLP, 動畫, 模型, 視覺模型, 視頻模型, 框架

WATER：WordArt 場景文字識別新突破

2026 年 6 月 26 日

這是一個由復旦大學（上海多模態具身 AI 重點實驗室）與騰訊 WeChat Vision 聯合發佈的研究項目（屬於數據集＋模型基準組合），同時收錄於 ECCV 2026。針對 WordArt-oriented scene TExt Recognition（WATER）這項任務，原有 STR 數據集與方法普遍圍繞「規則場景文字」與「固定模板輸入」建構，難以應對 WordArt 高度自訂的字體、紋理與版面，因此表現受限。WATER 從兩端突破：數據方面構建 2M 規模合成數據集 WATER-S，模型方面提出支援任意形狀輸入的 STR 基線 WATERec。

WATER-S 數據集設計包含兩個互補子集：WATER-T（1M）由 SynthWordArt 渲染引擎透過 11,250 款藝術字體生成，提供高可控的精準合成樣本；WATER-Z（1M）則結合 Qwen3-VL 提示詞挖掘與 Z-Image 影像合成，覆蓋更真實且多元的場景。再搭配 WATER-R（3.2M，整理自 Union14M-L、WordArt、WAS-R 並去重）作為真實訓練集，整體數據規模較既有藝術文字數據提升數百倍。

WATERec 模型架構採用類似 NaViT 的編碼器搭配 RoPE，支援任意形狀輸入，再以自回歸解碼器處理複雜版面，從結構上打破固定模板 STR 的瓶頸。在 WordArt-Bench 上以 90.40% 準確率成為首個突破 90% 的結果，大幅超越 HunyuanOCR（81.54%）及其他通用或 OCR 專用視覺語言模型。

使用方法需配合外部資源：WATERec 訓練與推理程式碼位於 OpenOCR-WATERec 倉庫；模型權重、數據集（包含 WordArt-Bench）、273K 條 WATER-Z 提示詞模板與 112K 款藝術字體皆託管於 HuggingFace。複製本倉庫後，可透過 SynthWordArt/ 目錄取得 WATER-T 渲染流程，prompts/ 目錄提供 caption_mining.py 與 fewshot_expansion.py 兩階段提示詞挖掘，Z-Image/gen_zimage.py 支援多 GPU 並行生成，eval_vlm/ 則整合 Qwen3-VL-8B、InternVL3.5-8B、GOT-OCR2.0、DeepSeek-OCR-2、PaddleOCR-VL、PP-OCRv5、HunyuanOCR、Nemotron-VL-8B 等基線評測腳本。

重點摘要：
– 復旦大學與騰訊 WeChat Vision 團隊合作，獲 ECCV 2026 收錄
– WATER-S 含 WATER-T（字體渲染）與 WATER-Z（VLM + 影像合成）兩條合成路徑
– WATERec 以任意形狀編碼器 + 自回歸解碼器突破固定模板限制
– WordArt-Bench 90.40% 為首次突破九成，超越 HunyuanOCR 等專用 VLM
– 所有模型、數據、字體與提示詞均開源於 HuggingFace

從評估對照來看，不論是通用 VLM、OCR 專用 VLM 或一般 OCR 工具，在 WordArt-Bench 上皆明顯落後於 WATERec，反映藝術文字仍是當前多模態模型的弱項。對從事海報辨識、品牌素材處理、廣告設計自動化，以及需要處理高度風格化文字的團隊而言，這套數據＋模型組合是目前少數針對該場景強化的開源方案。

GitHub： https://github.com/YesianRohn/WATER

模型： https://huggingface.co/Yesianrohn/WATERec-Models

Categories: 開源, 騰訊, DeepSeek, Image, 多模態模型, 模型, 深度學習, 視覺模型, 中國, 北京大學, Dataset 數據集

Page 5 of 16

« Previous 1 … 3 4 5 6 7 … 16 Next »