視覺模型 – Page 2

JoyAI-Image 想做懂空間的影像模型

2026 年 7 月 27 日

Repository image for jd-opensource/JoyAI-Image

改圖最怕模型聽得明文字，卻改壞原本場景結構；生圖亦常見字排得唔準、物件關係走位。JoyAI-Image就係朝住呢個痛點落手，定位屬於多模態基礎模型，把影像理解、text-to-image 生成同指令式編輯放入同一個模型家族，重點處理空間理解不足帶來的失真與失控。

唔係把理解模型同生成模型鬆散拼埋，而係用 8B Multimodal Large Language Model (MLLM) 配 16B Multimodal Diffusion Transformer (MMDiT)，強調理解、生成、編輯之間的閉環協作。換句話說，模型唔只讀圖後再畫圖，仲會利用視角變換等生成結果反過來補強空間推理，呢點令它在 grounded generation、關係定位同可控編輯上有更鮮明方向。

現有公開內容顯示，部署路線算完整，已提供 Hugging Face 權重、Diffusers 版本、ComfyUI 原生支援，同埋可直接參考的 workflow；另外亦有 Spatial Edit 同 General Edit 示範空間。對內容製作、電商視覺、設計流程或者研究多模態編輯的人，較值得留意的是它不只處理單次修圖，仲想處理長文字排版、版面忠實度、多視角生成，以及「指定物件移去指定位置」呢類容易出錯的操作。

JoyAI Image Edit Plus in ComfyUI - How Does it Compare?

Watch this video on YouTube

把理解、生成、編輯整合到同一條多模態流程
核心賣點係較強的 spatial intelligence，而不只是畫面更靚
已有 Diffusers 與 ComfyUI 兩條使用路線，測試門檻較研究原型低
延伸到 OpenSpatial data engine 同 OpenSpatial-3M dataset，反映它連資料與訓練配方都一併公開

效能方面，儲存庫描述集中在能力展示與訓練設計，現階段較適合把它理解成一個方向清晰、工具鏈逐步成熟的開源影像模型項目。最吸引之處唔係單一指標，而係它把空間理解當成生成與編輯的核心能力，對需要更穩定版面、關係同位置控制的工作流，確實比單講畫質更實用。

GitHub · 模型

Categories: 開源, Qwen, ComfyUI, Image, txt2img, 多模態模型, 模型, 視覺模型, Dataset 數據集

ProVisE 用像素答案重做空間評測

2026 年 7 月 26 日

當一條空間題目本來應該用圈選、標記路徑或者遮罩去表達，硬要模型交出座標、選項字母或文字描述，結果往往唔係能力差，而係答題介面同模型表達方式錯位。ProVisE屬於評測框架，處理的正是呢個落差：它唔改原本 benchmark 任務本身，只改回應介面，讓圖像生成模型用像素空間交答案，再轉回 benchmark 可計分的結構化輸出。

現有 spatial benchmarks 多數沿用 text-only interface，假設所有模型都應該以 coordinates、option labels 或 textual descriptions 回答。作者認為這種固定範式會壓縮 regions、paths、affordances 呢類本身偏視覺的判斷，因此提出 Protocolized Visual Evaluation：先由 task-aware router 指派 visual protocol，再用固定 guidance prompt 同 parser 約束輸出，最後仍然交回 original benchmark metric 評分。Text-output VLMs 就維持原本答題空間，兩類模型可以在同一套任務語義下比較。

ZJU-OmniAI/ProVisE 在於把「模型唔識答」同「評測方法逼錯答案格式」分開處理。配套的 SpatialGen-Bench 收錄 470 個 curated samples，涵蓋 14 個 subtasks，同時分成 perception、understanding、reasoning、interaction 四個 capability levels；研究結論亦相當直接，image-generation models 在可把判斷外化成像素標記的任務上有競爭力，但 text-output VLMs 在另外一些題型仍然較穩定，兩者並非誰全面取代誰。

保留原有 benchmark metric，只替換答案介面，方便同既有結果對照
用 visual protocol 限制生成內容，減少任意畫圖帶來的解析歧義
SpatialGen-Bench 把空間能力拆成 14 個 subtasks，唔再只看單一總分
適合研究 VLM、image-generation models、agent 空間理解能力的團隊採用

安裝門檻看來不高，程式環境以 Python 3.10+ 為主，並已公開 code、project page 與 Hugging Face 上的 SpatialGen-Bench。現階段它更像研究與評測項目，不是即插即用產品；重點也不在部署成服務，而是在你想驗證模型空間認知時，能否用更貼近模型輸出形式的方式做比較。對做多模態模型、視覺評測或 Agentic 系統的人來說，ProVisE提供了一個相當清晰的檢查角度。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

VCSD 點樣逼可以 Vision-Language Models 真係睇圖

2026 年 7 月 26 日

不少 Vision-Language Models 會表面上處理圖片，實際卻沿住語言慣性作答。VCSD 屬於模型訓練方法，針對嘅正正係呢種「答案似乎合理，但未必真係由圖像帶動」嘅問題：它讓同一個 EMA teacher 分別看原圖同內容被抹走嘅 control input，再用兩者對每個 response token 嘅分佈差異，提煉出更依賴視覺內容嘅學習目標。

現有 on-policy self-distillation（OPSD）多數靠 privileged answers 或 visual evidence 製造 teacher 比 student 更強嘅訊號，VCSD反過來把 image-content removal 變成非對稱來源。做法唔係直接獎勵某幾個字，而係用原圖分佈 p_hi 同控制輸入分佈 p_ctrl 嘅 log-probability 差，配合 α 調整對比強度，再用 β-plausibility mask 限制只喺 teacher 原本已視為可信嘅 token 集合內重新分配機率；README 亦講明 β 設成 0.0 會令訓練崩潰，代表呢個護欄唔係裝飾，而係方法成立嘅關鍵。

項目目前仍然係 work in progress，代碼、設定同文件都可能再改。倉庫已放出訓練資料格式線索，例如 train.parquet 需要 prompt 同 image 欄位，train_answer.parquet、val_answer.parquet 用作 answer-conditioned validation；訓練則建基於繼承自 verl 嘅 GRPO/PPO 流程，VCSD 相關改動集中喺 verl/trainer/ppo/vcsd.py、verl/workers/actor/dp_actor.py 同 actor 設定檔，表示它比較似可插入現有 RL 訓練管線嘅附加目標，而唔係一套獨立框架。

核心取向係用 visual contrast 代替 privileged answers 或 visual evidence
學生模型學習嘅係 full-vocab KL 目標，唔係逐 token 手動加權
control input 可設成 black、degrade 或 noimg，用來測試答案有幾多真係靠圖像
已公開結果顯示，VCSD 在 ViRL39K 上對 Qwen3-VL 與 Qwen3.5 系列均比 matched OPSD 更好

從已公開數字看，Qwen3-VL 在七個 benchmark aggregate 上由 2B 的 62.27 升到 67.04、4B 由 71.30 升到 73.16、8B 由 72.51 升到 76.26，方向相當清楚：它想改善嘅唔係推理時計算量，而係訓練期間點樣把「圖片真正提供咗乜嘢」變成更乾淨嘅監督訊號。對已經有 Vision-Language Models RL 訓練流程、又想減少外部 teacher 與額外標註依賴嘅研究團隊，呢個項目值得跟進；不過現階段仍要接受文件未齊、介面可能變動，以及結果主要來自論文與項目頁面披露。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Image, 多模態模型, 視覺模型, Robotic, VLA, Dataset 數據集, 框架

SeededGrasp 用自然語言指揮機械人精準抓取雜亂物件

2026 年 7 月 26 日

SeededGrasp: Language-Guided Grasping in Complex Scenes with Multiple Embodiments teaser figure

當桌面堆滿不同物件，機械人要聽得明「拎紅色杯旁邊嗰支筆」這類指令，難處不只在辨認物件，仲要同時算準 3D 空間位置同抓取角度。SeededGrasp 針對的正是這類語言引導抓取場景，重點不是端到端硬推整個動作，而是先找對目標，再生成穩定抓取姿態。

它的做法相當清晰：先用預訓練 Vision-Language Model（VLM）把文字指令轉成影像中的 2D 種子點，再投影到 3D 點雲，交給輕量的 flow-matching grasp model 產生 6DOF 抓取姿態。這種拆分方式把高層語意判斷同低層幾何執行分開，減少重新訓練整個系統的成本，也較容易支援多種 embodiment。

相比直接由 VLM 預測抓取，SeededGrasp 保留語言理解的直觀操作，同時補回空間推理不足；相比把 VLM 同抓取模型一併訓練，它對語言標註資料與算力的需求更克制。團隊亦公開多 embodiment 桌面抓取數據集，包含超過 2.56M 個 cluttered scenes 抓取姿態，涵蓋 Franka Panda、Allegro Hand 同 Robotiq 3-Finger。

用簡單文字指令指定目標，適合雜亂桌面抓取情境
以 2D 種子點連接 VLM 與 3D 抓取生成，降低端到端訓練負擔
支援多種 embodiment，不限單一夾爪或手型
公開 2.56M grasp dataset，補足多 embodiment 訓練資源
模擬成功率達 72%，真實環境抓取實驗達 78%

對機械人操作、語言介面同 grasp planning 有興趣的讀者，會較容易感受到這個項目的價值：它沒有把所有問題塞進同一個大模型，而是用較節制的架構處理語意與幾何之間的落差。現階段重點仍在桌面雜亂場景抓取，但它已經展示出多 embodiment 擴展同資料效率上的實用方向。

項目主頁 · Paper

Categories: Google, 3D, 多模態模型, 模型訓練, 視覺模型, Robotic, Dataset 數據集, 框架

Krea 2 Outpaint：外擴 LoRA 補畫面

2026 年 7 月 19 日

畫面外擴最怕兩件事：原圖內容被改壞，或者延伸後透視、光線同結構接唔上。呢個項目明確建立在 Krea/Krea-2-Turbo 之上，並以 Krea 2 Raw 作訓練目標，形式係一個 rank-32 的 LoRA，用嚟做 image-to-image outpainting，重點唔係單純參考原圖，而係連原圖要放喺新畫布邊個區域都一併編碼。

它的做法是把來源 latent tokens 加上來自目標 bounding box 的 rotary coordinates，令 denoiser 能理解「已知畫面屬於整張新圖的哪個位置」。所以它比一般 image-reference adapter 更適合做左貼右擴、上貼下擴，甚至置中後向兩邊延伸，對透視、光照、紋理連續性的控制更直接。

檔案資訊相當清楚，但重點不在量化版本。頁面列出 krea2_outpaint_rank32.safetensors、pipeline.py、outpaint.py、example.py，另有授權與雜湊檔；同時明確說明 Hugging Face 自動產生的 Diffusers snippet 及一般 LoRA importer 不相容，要用隨附腳本與自訂 pipeline。這代表它不是即插即用型 LoRA，而係帶有功能性介面的適配器。

基礎模型已指明為 Krea/Krea-2-Turbo，並針對 distilled 8-step inference 設計。
核心差異在 registered reference_placements，可指定原圖在目標畫布的位置。
已測試寫實、水彩、stylized 3D 等場景，涵蓋橫向、縱向與置中延伸。
頁面沒有提供 GGUF、mmproj、llama.cpp、Ollama、LM Studio 或量化等資訊。

使用取向上，它更像為 Krea 2 編輯流程補上一個 UI 版的外擴能力，而唔係通用本地推理模型。由於依賴 diffusers 與自訂程式碼，適合已經在 Python 圖像流程中工作、需要穩定控制構圖位置的人。

項目主頁 · 模型

Categories: 開源, Image, Ollama, 影像模型, 影像處理, 視覺模型

VIABench 視覺模型如何協助失明應用

2026 年 7 月 17 日

講到視覺模型，很多測試仍然停留在「見到乜、答到乜」；VIABench 把焦點轉去更貼身的助盲情境，直接檢查多模態大型語言模型可否在日常片段中作出提醒、回答環境問題，甚至按目標提供引導。它屬於Dataset 數據集兼評測基準，處理的是視障協助場景長期缺乏貼地測試標準這個問題。

VIABench 不再只量度被動理解，而是把影片 Multimodal Large Language Models 與真實任務綁在一起。資料來自盲人錄製或分享的第一身影片，包含 761 段影片、46.9 小時內容，以及 14,526 筆人工整理標註，圍繞 Proactive Reminder、Visual Question Answering、Vision-Guided Interaction 三類任務，測試模型會否在合適時間講合適內容。

和常見視覺問答基準相比，VIABench 的分野在於它重視「協助能力」多過一般描述能力。這意味模型不單要看懂畫面，還要判斷何時提醒、如何回應環境細節，以及怎樣支援使用者完成目標；取捨是任務更接近真實世界，但評測難度也更高，單靠表面語意對齊未必夠。

核心價值在於測試影片 MLLMs 能否提供可行協助，而非只做畫面解說
任務覆蓋主動提醒、視覺問答、互動引導三種助盲場景
數據來自真實第一身影片，場景代表性比通用影片基準更強

較適合關注無障礙 AI、assistive technology、video MLLMs 評測的研究團隊，也適合想比較不同模型在真實互動場景表現的人。現有資料已足夠理解它作為基準的定位；使用前較合理的做法，是先查閱論文與 Hugging Face 資料集頁面，再確認支援哪些相關模型與評測設定。

GitHub

Categories: 開源, Video, 多模態模型, 視覺模型, Dataset 數據集, 南京大學

VideoChat3 一個睇得耐又睇得準的影片模型

2026 年 7 月 17 日

影片理解最麻煩的地方，往往唔係「識唔識睇」，而係要一邊保留動作細節，一邊捱得住長時間片段。VideoChat3 就係朝住呢個矛盾落手：它屬於多模態模型（Multimodal Large Language Model, MLLM），目標係用同一個 4B 模型處理細微動作、長片推理、temporal grounding 同 live streaming 回應。

同類項目好多時只會專注其中一段工作流，例如短片動作辨識，或者長片問答。VideoChat3 的取向係做 generalist video understanding，代價就唔係追求單一場景最極致的規格，而係用 I3D-ViT 同 Adaptive Frame Resolution 平衡 token 成本、時序證據同延遲，令模型唔需要全程用高成本方式讀完整段影片。

重點唔只係睇單格畫面，而係保留跨時間的證據
I3D-ViT 提供 16× spatiotemporal compression，主打效率
Adaptive Frame Resolution 會按需要提高畫面解析度，較適合 streaming 場景
已公開 model weights 同完整訓練數據，但 training code 仍未釋出

部署同測試的理解方式幾直接：現階段較接近研究釋出與模型體驗，適合先經 Hugging Face 取用 models & data，再按示範場景驗證長片問答、時間定位同串流回應表現。README 已列明完整訓練資料包括 Academic2M、LV116K、OL617K，對研究團隊、做 video agent、或者要建構影片檢索與監察流程的團隊最有參考價值。

公開資訊亦交代咗幾個關鍵數字：4B parameters、3M curated instruction samples、2,048 frames 下約 20.4s latency。呢啲數據未必代表所有環境都會有同樣效果，但至少講清楚它想證明的方向：唔靠超大模型，都可以把影片中的時間線索、事件關聯同即時反應放入同一套架構。相關模型與模組則以 VideoChat3、I3D-ViT、Adaptive Frame Resolution 為核心，整體更似一個面向研究與進階應用的開源影片理解項目。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, 3D, 多模態模型, 模型, 視覺模型, 南京大學, 框架

KeyFrame-Compass：關鍵幀尺度評測

2026 年 7 月 17 日

KeyFrame-Compass benchmark domains and examples

KeyFrame-Compass 是一個用來評測 keyframe-conditioned video generation 的基準項目，重點在於檢查模型能否同時跟住文字提示同一組按順序排列的 keyframes 生成影片。對做影片生成的人來說，這類測試最有價值的地方，是它不只看成片好不好看，還會追問畫面有沒有真係按要求出現、順序有沒有走樣。

這個項目把評測拆成兩層：一層看 keyframe execution，包括關鍵畫面存在、視覺還原、時間順序、定位、持續性同回應唯一性；另一層看 overall video quality，會用 evidence-grounded MLLM（Multimodal Large Language Model, MLLM）判斷，加上專門的感知模型去量度視覺質素、時間連貫性、指令遵從同音訊表現。這種分法比單純比對整體分數更清楚，因為它能分辨出模型係「畫得靚」定「跟得準」。

官方提供 386 個案例，涵蓋三個應用領域，亦分有 multi-shot 同 one-take 片段，配合四種 keyframe 密度。安裝上需要 Linux、Conda 或 Mamba、NVIDIA GPU，同埋可用的 VLM API；倉庫亦提供 envs、assets 同 all 三種設定模式，方便只建環境、只拉資產，或者一次過做完整驗證。

把影片生成的「跟畫面」同「成片質感」分開量度，結果較容易解讀
支援不同 keyframe 密度，較適合比較模型對控制力的穩定度
適合做影片生成模型、研究原型或產品 demo 的質量驗證
需要 GPU 同外部 VLM API，部署門檻唔算低
相關模型類別可歸到 Video、視覺模型、多模態模型、模型、工具

GitHub

Categories: 開源, Gemini, NVIDIA, API, Video, 工具, Linux, 多模態模型, 模型, 視覺模型, 視頻模型

EgoSteer：用第一身影片教機械人靈巧操作

2026 年 7 月 15 日

面對不同物件與操作要求，機械人毋須為每項任務切換獨立模型。EgoSteer 結合第一身視角影片（Egocentric Videos）與自由形式語言指令，處理可控制的靈巧操作（Steerable Dexterous Manipulation）。

系統的核心取向，是讓使用者以日常語句改變機械人的操作方式，而不只觸發預先固定的動作。這種設計適合需要頻繁轉換物件、步驟或操作目標的機械人工作流程。

單一模型支援超過 40 項真實機械人任務
接受自由形式語言指令
從第一身視角影片學習操作資訊
重點在於按指令引導靈巧動作，而非只重播示範

相較每項任務各自訓練模型的常見做法，EgoSteer 着重跨任務共用能力，可減少模型切換帶來的流程負擔。現有資料未交代成功率、延遲、硬件配置及訓練數據規模，因此暫時未能判斷它在未見物件或全新環境中的穩定程度。

研究機械人模仿學習、人機協作或以語言控制操作流程的讀者，會較容易理解它的價值；其後仍需完整技術資料，才能評估部署成本與泛化能力。

項目主頁 · GitHub · 模型

Categories: 模型, 視覺模型, Robotic, Dataset 數據集

ABot-N1 點樣令導航模型更穩更易懂

2026 年 7 月 14 日

做室內外導航時，最麻煩往往不是單純避障，而是模型要同時理解語言、辨認目標，再即時走出合理路線。ABot-N1屬於 VLA（Vision-Language-Action）navigation model，焦點放在處理黑盒式策略常見的座標漂移、長尾語意理解不足，以及決策過程難以解釋的問題。

它的做法不是把所有事塞進同一個控制器，而是用 slow-fast 架構把認知與控制分開。較慢的 vision-language reasoner 會讀取歷史畫面與任務提示，產生明確的 Chain-of-Thought reasoning，並輸出 pixel goals 作為通用的影像空間錨點；較快的 action expert 再結合文字線索與 pixel guidance，持續生成 waypoint，將高層意圖接到低層移動控制。

這種設計的好處，在於同一套框架可以覆蓋多種導航任務，而不只是單一路徑跟隨。現有資料提到它支援 point-goal、POI-goal、object-goal、instruction-following 同 person-following，當中 POI-goal 需要由戶外走到實際入口，特別能反映語意理解與跨場景移動是否連得上。

把 cognition 與 control 非同步拆分，減少黑盒式端到端策略的不透明問題
用 dual visual-language signals 連接推理與動作，核心輸出包括 Target Pixel 與 Affordance Pixel
涵蓋 point-goal、POI-goal、object-goal、instruction-following、person-following 等任務
成績上錄得新 state-of-the-art，POI arrival 提升 35.0% 至 77.3%
複雜室內與室外場景分別達到 95.4% 與 92.9% SR，亦同步開源新 benchmark

整體來看，ABot-N1最值得留意的不是單一指標，而是它試圖把「看得懂、講得清、走得穩」放進同一個導航模型。對做 embodied AI、robotics 或通用導航工作流的人來說，這個項目提供了一條比純黑盒控制更可分析、也更容易擴展到不同任務的路線。

項目主頁

Categories: 開源, 阿里巴巴, Image, 3D, 多模態模型, 模型, 模型訓練, 視覺模型, Robotic, Dataset 數據集, VLA

Page 2 of 16

« Previous 1 2 3 4 … 16 Next »