Image

Qwen Image 3 Studio 一站式玩轉文字、影像與工具

2026 年 7 月 27 日

想喺同一個介面完成對話、睇圖、生成影像、處理文件，同時再配合網頁搜尋同工具調用，Qwen Studio 走的是整合式 AI 工作台路線。對一般用家而言，重點唔係逐個模型切換，而係可以較順手地喺同一流程內完成理解、生成同操作。

現有資料顯示，Qwen Studio 涵蓋 chatbot、image and video understanding、image generation、document processing、web search integration、tool utilization 同 artifacts。這種組合對內容整理、資料查找、讀圖問答，以至需要一邊對話一邊調用工具的工作流較有吸引力，因為中間少咗介面切換同上下文斷裂。

把聊天、讀圖、影片理解同生成能力集中喺同一入口
支援 document processing，適合處理文件內容同資料整理
結合 web search integration，可補充即時或外部資訊
包含 tool utilization 同 artifacts，方便延伸到更完整操作流程

目前公開內容偏向功能層面的簡介，未見更詳細的模型結構、效能指標或評測結果，所以較適合先將它理解為 Qwen 生態入面的一個綜合使用介面，而唔係單一模型發表。對想快速試用多模態模型、工具調用同線上服務整合的人，呢類入口通常更容易上手。

項目主頁

Categories: 阿里巴巴, Qwen, Video, Image, 影像模型

JoyAI-Image 想做懂空間的影像模型

2026 年 7 月 27 日

Repository image for jd-opensource/JoyAI-Image

改圖最怕模型聽得明文字，卻改壞原本場景結構；生圖亦常見字排得唔準、物件關係走位。JoyAI-Image就係朝住呢個痛點落手，定位屬於多模態基礎模型，把影像理解、text-to-image 生成同指令式編輯放入同一個模型家族，重點處理空間理解不足帶來的失真與失控。

唔係把理解模型同生成模型鬆散拼埋，而係用 8B Multimodal Large Language Model (MLLM) 配 16B Multimodal Diffusion Transformer (MMDiT)，強調理解、生成、編輯之間的閉環協作。換句話說，模型唔只讀圖後再畫圖，仲會利用視角變換等生成結果反過來補強空間推理，呢點令它在 grounded generation、關係定位同可控編輯上有更鮮明方向。

現有公開內容顯示，部署路線算完整，已提供 Hugging Face 權重、Diffusers 版本、ComfyUI 原生支援，同埋可直接參考的 workflow；另外亦有 Spatial Edit 同 General Edit 示範空間。對內容製作、電商視覺、設計流程或者研究多模態編輯的人，較值得留意的是它不只處理單次修圖，仲想處理長文字排版、版面忠實度、多視角生成，以及「指定物件移去指定位置」呢類容易出錯的操作。

JoyAI Image Edit Plus in ComfyUI - How Does it Compare?

Watch this video on YouTube

把理解、生成、編輯整合到同一條多模態流程
核心賣點係較強的 spatial intelligence，而不只是畫面更靚
已有 Diffusers 與 ComfyUI 兩條使用路線，測試門檻較研究原型低
延伸到 OpenSpatial data engine 同 OpenSpatial-3M dataset，反映它連資料與訓練配方都一併公開

效能方面，儲存庫描述集中在能力展示與訓練設計，現階段較適合把它理解成一個方向清晰、工具鏈逐步成熟的開源影像模型項目。最吸引之處唔係單一指標，而係它把空間理解當成生成與編輯的核心能力，對需要更穩定版面、關係同位置控制的工作流，確實比單講畫質更實用。

GitHub · 模型

Categories: 開源, Qwen, ComfyUI, Image, txt2img, 多模態模型, 模型, 視覺模型, Dataset 數據集

Sana 把高解像生成壓到快 100 倍

2026 年 7 月 26 日

高解像圖片同影片生成最常見的卡位，不是效果做不到，而是算力、延遲同部署成本太難接受。NVlabs/Sana 屬於生成模型代碼庫，集中處理這個矛盾：在維持高解析輸出的前提下，把訓練與推理做得更省、更快，並且一路延伸到圖片、影片、世界模型等多條分支。

這個項目唔係單一模型，而是一個家族。SANA 主打最高到 4K 的 text-to-image，README 直接給出「比 Flux-12B 細 20 倍、快 100 倍」的定位；SANA-1.5 進一步處理訓練期與推理期的 compute scaling；SANA-Sprint 則把重點放在 one/few-step 生成，官方數字提到 H100 上 1024px 圖片可做到 0.1 秒級。取向很清楚：不是一味追最大模型，而是用效率換取更可部署的生成流程。

影片部分同樣值得留意。SANA-Video 與 SANA-Video 2.0 把焦點放在 720p 長序列生成，做法上用 hybrid linear attention 配合 Attention Residuals，目的是減少 full-softmax attention 的成本，同時盡量保住畫質與長序列表達能力。公開資料提到 SANA-Video 2.0 在單張 H100 上，720p/5 秒影片可做到 13.06 秒，VBench 總分 84.30，也強調比 Wan 2.2 14B 有大幅速度優勢，但這類數字仍要連同硬件、步數與設定一齊理解。

同一庫內含 SANA、SANA-1.5、SANA-Sprint、SANA-Video、SANA-WM、SANA-Streaming、Sol-RL
提供完整 training 與 inference pipeline，唔止展示模型效果
可透過官方 demo、Hugging Face、ComfyUI 整合去理解生成表現與部署方向
重點不是極限參數量，而是高解像生成的速度、成本同可擴展性

部署與測試路線相對清晰：已有官方文件、網頁 demo、Hugging Face 集合，亦見到 ComfyUI、SGLang、Replicate 等接點，代表它較適合研究團隊、影像工作流開發者，以及想把高解像生成放進產品流程的人。 SANA-WM 的 2.6B controllable world model、6-DoF camera control，同 Sol-RL 的加速收斂能力，則顯示這個項目不只做靜態出圖，而是朝更完整的生成系統推進。

項目主頁 · GitHub

Categories: 開源, NVIDIA, ComfyUI, Stable Diffusion, Video, Image, AI productions, txt2img, 模型訓練, 世界模型

ProVisE 用像素答案重做空間評測

2026 年 7 月 26 日

當一條空間題目本來應該用圈選、標記路徑或者遮罩去表達，硬要模型交出座標、選項字母或文字描述，結果往往唔係能力差，而係答題介面同模型表達方式錯位。ProVisE屬於評測框架，處理的正是呢個落差：它唔改原本 benchmark 任務本身，只改回應介面，讓圖像生成模型用像素空間交答案，再轉回 benchmark 可計分的結構化輸出。

現有 spatial benchmarks 多數沿用 text-only interface，假設所有模型都應該以 coordinates、option labels 或 textual descriptions 回答。作者認為這種固定範式會壓縮 regions、paths、affordances 呢類本身偏視覺的判斷，因此提出 Protocolized Visual Evaluation：先由 task-aware router 指派 visual protocol，再用固定 guidance prompt 同 parser 約束輸出，最後仍然交回 original benchmark metric 評分。Text-output VLMs 就維持原本答題空間，兩類模型可以在同一套任務語義下比較。

ZJU-OmniAI/ProVisE 在於把「模型唔識答」同「評測方法逼錯答案格式」分開處理。配套的 SpatialGen-Bench 收錄 470 個 curated samples，涵蓋 14 個 subtasks，同時分成 perception、understanding、reasoning、interaction 四個 capability levels；研究結論亦相當直接，image-generation models 在可把判斷外化成像素標記的任務上有競爭力，但 text-output VLMs 在另外一些題型仍然較穩定，兩者並非誰全面取代誰。

保留原有 benchmark metric，只替換答案介面，方便同既有結果對照
用 visual protocol 限制生成內容，減少任意畫圖帶來的解析歧義
SpatialGen-Bench 把空間能力拆成 14 個 subtasks，唔再只看單一總分
適合研究 VLM、image-generation models、agent 空間理解能力的團隊採用

安裝門檻看來不高，程式環境以 Python 3.10+ 為主，並已公開 code、project page 與 Hugging Face 上的 SpatialGen-Bench。現階段它更像研究與評測項目，不是即插即用產品；重點也不在部署成服務，而是在你想驗證模型空間認知時，能否用更貼近模型輸出形式的方式做比較。對做多模態模型、視覺評測或 Agentic 系統的人來說，ProVisE提供了一個相當清晰的檢查角度。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

VCSD 點樣逼可以 Vision-Language Models 真係睇圖

2026 年 7 月 26 日

不少 Vision-Language Models 會表面上處理圖片，實際卻沿住語言慣性作答。VCSD 屬於模型訓練方法，針對嘅正正係呢種「答案似乎合理，但未必真係由圖像帶動」嘅問題：它讓同一個 EMA teacher 分別看原圖同內容被抹走嘅 control input，再用兩者對每個 response token 嘅分佈差異，提煉出更依賴視覺內容嘅學習目標。

現有 on-policy self-distillation（OPSD）多數靠 privileged answers 或 visual evidence 製造 teacher 比 student 更強嘅訊號，VCSD反過來把 image-content removal 變成非對稱來源。做法唔係直接獎勵某幾個字，而係用原圖分佈 p_hi 同控制輸入分佈 p_ctrl 嘅 log-probability 差，配合 α 調整對比強度，再用 β-plausibility mask 限制只喺 teacher 原本已視為可信嘅 token 集合內重新分配機率；README 亦講明 β 設成 0.0 會令訓練崩潰，代表呢個護欄唔係裝飾，而係方法成立嘅關鍵。

項目目前仍然係 work in progress，代碼、設定同文件都可能再改。倉庫已放出訓練資料格式線索，例如 train.parquet 需要 prompt 同 image 欄位，train_answer.parquet、val_answer.parquet 用作 answer-conditioned validation；訓練則建基於繼承自 verl 嘅 GRPO/PPO 流程，VCSD 相關改動集中喺 verl/trainer/ppo/vcsd.py、verl/workers/actor/dp_actor.py 同 actor 設定檔，表示它比較似可插入現有 RL 訓練管線嘅附加目標，而唔係一套獨立框架。

核心取向係用 visual contrast 代替 privileged answers 或 visual evidence
學生模型學習嘅係 full-vocab KL 目標，唔係逐 token 手動加權
control input 可設成 black、degrade 或 noimg，用來測試答案有幾多真係靠圖像
已公開結果顯示，VCSD 在 ViRL39K 上對 Qwen3-VL 與 Qwen3.5 系列均比 matched OPSD 更好

從已公開數字看，Qwen3-VL 在七個 benchmark aggregate 上由 2B 的 62.27 升到 67.04、4B 由 71.30 升到 73.16、8B 由 72.51 升到 76.26，方向相當清楚：它想改善嘅唔係推理時計算量，而係訓練期間點樣把「圖片真正提供咗乜嘢」變成更乾淨嘅監督訊號。對已經有 Vision-Language Models RL 訓練流程、又想減少外部 teacher 與額外標註依賴嘅研究團隊，呢個項目值得跟進；不過現階段仍要接受文件未齊、介面可能變動，以及結果主要來自論文與項目頁面披露。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Image, 多模態模型, 視覺模型, Robotic, VLA, Dataset 數據集, 框架

TableVerse 想補上機械臂數據缺口

2026 年 7 月 26 日

機械臂要學會喺凌亂桌面執放物件，卡位通常唔在控制器，而在訓練資料太乾淨、太想像化。TableVerse 屬於Dataset 數據集加上資料生成流程，重點不是再用文字幻想場景，而是用 Real2Sim 從網上真實圖片重建可放進模擬器的桌面配置，直接處理泛化操作最缺的場景真實感。

現有做法常見兩條路：text-to-layout hallucination，或者較簡化的 procedural generation。作者批評前者容易做出物理上唔合理的擺位，後者又捉唔到人類日常環境常見的密集雜物；因此 TableVerse 改成 deterministic reconstruction，從非結構化的 in-the-wild image data 還原具備 metric scales、authentic topologies 同 verified mechanical stability 的場景，取向明顯偏向可落地訓練，而唔係只追求合成速度。

項目現時最重要的成果是 TableVerse-100K，公開了 100,000 個 physically consistent 的桌面環境，並配對 interactive manipulation trajectories。網站資料顯示，它還接上自動化 task-conditioned trajectory generation，先由 MLLM 根據場景視角提出 object-to-target 配對，再生成 collision-free pick-and-place demonstrations，令數據不只得靜態場景，亦包含可直接餵給操作策略學習的示範。

以真實圖片重建桌面，而非只靠生成式佈局
提供 100K 場景與 pick-and-place 軌跡，規模夠大
強調物理一致性、機械穩定性與模擬可用性
適合做 generalizable manipulation 與桌面操作研究

部署角度上，這個 GitHub 儲存庫目前更接近論文與資料入口，主要連到 arXiv、HuggingFace dataset 同項目網站，未見完整訓練或評測程式公開。換句話說，研究團隊現階段較可能把它理解為高品質資料來源與方法參考，而不是即裝即跑的機械臂框架；對做 robotic manipulation、模擬訓練數據建構，或者研究 Real2Sim 流程的人，參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Image, 多模態模型, Robotic, Dataset 數據集

GraphVid 把圖生影片拆解成圖節點關係圖

2026 年 7 月 26 日

PLAN-Lab（伊利諾伊大學厄巴納-香檳分校）開源的 GraphVid 採用 Diffusers 框架，用 Stable Diffusion 類的 Diffusion Pipeline 配 bfloat16 精度載入，適用於 CUDA 與 Apple MPS 裝置。這個名稱裡的「Graph」不是社群網絡圖，而是把影片拆成多個關鍵畫面節點，再用一張小型關係檔 graph.pth（約 118 MB）描述節點之間如何銜接——模型先理解這些畫面該怎樣排序與過渡，再交由 transformer、VAE 等模組逐段生成。

頁面沒有公開 base model 來源，也沒有說明訓練資料或評測指標，因此難以判斷它的整體品質，只能從架構面推測它把控制粒度從「逐幀文字描述」轉移到「節點拓樸」。使用 DiffusionPipeline.from_pretrained 配合 torch_dtype=torch.bfloat16，屬於現今影片擴散模型常見的省記憶體做法。

從模型卡提供的程式碼範例可見，GraphVid 直接接受文字 prompt 即可生成畫面，毋須手動編排節點，這層抽象對一般使用者比較友善；進階用家則可透過 graph.pth 微調節點關係，控制運鏡節奏。整個 gvc_ckpt_folder 容量約 64.3 GB，包含 scheduler、text_encoder、tokenizer、transformer、VAE 等標準組件，搭配 Hugging Face 提供的 Colab / Kaggle 範例即可快速試跑。

關係圖驅動：以 graph.pth 定義畫面節點與時序關係，再交由擴散模型生成影片。
Diffusers 相容：透過 DiffusionPipeline 載入，支援 bfloat16 與 CUDA / MPS。
Apache-2.0 授權：可自由下載研究與再分發，但頁面未提供量化版本。
硬體需求高：完整 checkpoint 約 64.3 GB，建議使用高階 GPU。
缺乏評測數據：原始頁面沒有提供基準分數或與其他影片模型的直接比較，採用前宜自行測試。

若以本地消費級 GPU 試跑，建議先把 torch_dtype 設為 bfloat16，並留意 VRAM 是否足以容納 transformer 與 VAE 的權重；想進一步壓縮，可留意社群後續是否釋出量化或 LoRA 版本。

項目主頁

Categories: 開源, Google, NVIDIA, Stable Diffusion, Image, Python, 教學, 蘋果, 框架

TrajLoc 把路線描述對準衛星圖

2026 年 7 月 26 日

A trajectory can be queried as dense video or as abstract language — both retrieve the same satellite tile.

只靠一張街景相去配對衛星圖，遇到轉彎、路口相似、視角受限時好容易失手；TrajLoc改為追蹤整段移動路線，將街景影片、自然語言路線描述，或者兩者結合後對應到帶地理標記的衛星瓦片。它屬於跨視角 geo-localization 模型連同 benchmark 項目，處理的是「把連續路徑準確放回地圖」這個問題。

現有 cross-view 資料多數停留在 single-image、video-only 或 text-only 範式，作者認為這樣會拆散同一條路線入面本來互相補強的時序線索與語意線索，因此一併推出 SeqGeo-VL。呢個 benchmark 收錄 38,863 組對齊的 video-text-satellite triplets，並有 91.8% human verification pass rate，重點不是再加大資料量，而是把 sequential 同 linguistic 兩種證據放入同一任務。

TrajLoc沒有另起一套龐大時序架構，而是由 pretrained CLIP ViT-L/14 延伸成 video、text 同 satellite encoders，再用 co-training curriculum 將三種查詢模式放入同一個表示空間。作者另外加入 TrajMod，將路線幾何資訊 tau={(Δx_i, Δy_i, θ_i)} 轉成 FiLM 的 scale/shift 參數，直接調節 query embedding；做法比單靠提示詞更明確，亦保留 frozen encoders 的可重用性。

支援 video、plain language、video+text 三種查詢方式
SeqGeo-VL 是首個同時包含 sequential 與 linguistic cross-view benchmark
TrajMod 只用 waypoint offsets 與 headings，不靠 map 或 POI metadata
項目提供 agent-ready tool interface、persistent Python API 同 JSON CLI

從示範與說明看，TrajLoc的定位很清楚：它不是通用多模態聊天模型，而是給 spatial reasoning、戶外機械人、導航研究同 multimodal agents 調用的專門工具。225 ms 的示例檢索速度對互動式流程有吸引力，但目前公開資訊主要集中在 benchmark 與檢索能力，部署前仍要留意資料覆蓋範圍、地區泛化，以及自己的工作流是否真有影片或路線文本可供查詢。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Agentic, API, Video, Image, AI productions, Embedding, Python, 多模態模型, 模型訓練, Dataset 數據集

Trace 用可驗證資料重做視覺推理訓練

2026 年 7 月 26 日

很多視覺推理資料集都只交付圖片同答案，模型答啱咗，未必代表推理過程真係站得住腳。Trace把重點放在可驗證 post-training：它屬於一個資料集兼生成環境，針對的問題是怎樣穩定產生 grounded visual-reasoning 任務，並且讓答案、標註與驗證流程互相對得上。

它採用一條很清晰的生成路線：domain → scene grammar → task program。現有做法常見是先有人手整理題目，或者由圖像與文字鬆散配對，再用最終答案做監督；Trace則用 deterministic seed 先建立 semantic scene state，再由 task program 從同一個狀態推導 typed answer、verifier state，最後才渲染圖片與提示。這種 shared-state 設計的分別，在於題目不是「生成完再補標註」，而是從源頭就把圖像、問題、答案同 execution trace 綁定。

對研究團隊來說，這個取向很有吸引力，因為它同時照顧訓練、檢查同重播。每個例子除了 image、prompt、typed answer，還有 image-space annotation、verifier metadata 同 execution trace；對想做 RLVR、後訓練驗證，或者想分析模型到底錯在觀察、計算還是規則理解的人，資料密度比一般 benchmark 高得多。

收錄 11 個 visual domains、277 個 scene grammars、1,000 個任務
已公開 66,000 個 generated examples，亦提供 Hugging Face dataset 與模型檢查點
驗證不只看最終答案，還保留 verifier state 與 replayable execution trace
以 Qwen2.5-VL-3B、Qwen2.5-VL-7B 做 post-training，兩個尺度都有明顯提升

數字上，它在 2,000 個未見過、但由同一批 task programs 生成的新例子上，將 Qwen2.5-VL-3B 由 24.45 提升到 41.05，Qwen2.5-VL-7B 由 34.25 提升到 51.55。這些結果首先說明 Trace對同分佈泛化有幫助；首頁亦提到用 64,000 個 Trace instances 訓練後，對 24 個外部 benchmarks 的 macro-average 也有改善，但摘要資訊未列完整分項，解讀時仍要看原始報告。

Trace最適合被理解為一個用來建構可核對視覺推理訓練資料的基礎項目，而不只是另一個出題庫。它的取捨也很明確：換來高度可驗證與可重播，代價是任務分佈由 scene grammar 同 task program 明確界定，較適合研究訓練方法、評測設計同模型行為分析，未必等同自然世界的開放式視覺理解。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, DeepSeek, Image, 多模態模型, 模型訓練, Dataset 數據集

Krea 2 Outpaint：外擴 LoRA 補畫面

2026 年 7 月 19 日

畫面外擴最怕兩件事：原圖內容被改壞，或者延伸後透視、光線同結構接唔上。呢個項目明確建立在 Krea/Krea-2-Turbo 之上，並以 Krea 2 Raw 作訓練目標，形式係一個 rank-32 的 LoRA，用嚟做 image-to-image outpainting，重點唔係單純參考原圖，而係連原圖要放喺新畫布邊個區域都一併編碼。

它的做法是把來源 latent tokens 加上來自目標 bounding box 的 rotary coordinates，令 denoiser 能理解「已知畫面屬於整張新圖的哪個位置」。所以它比一般 image-reference adapter 更適合做左貼右擴、上貼下擴，甚至置中後向兩邊延伸，對透視、光照、紋理連續性的控制更直接。

檔案資訊相當清楚，但重點不在量化版本。頁面列出 krea2_outpaint_rank32.safetensors、pipeline.py、outpaint.py、example.py，另有授權與雜湊檔；同時明確說明 Hugging Face 自動產生的 Diffusers snippet 及一般 LoRA importer 不相容，要用隨附腳本與自訂 pipeline。這代表它不是即插即用型 LoRA，而係帶有功能性介面的適配器。

基礎模型已指明為 Krea/Krea-2-Turbo，並針對 distilled 8-step inference 設計。
核心差異在 registered reference_placements，可指定原圖在目標畫布的位置。
已測試寫實、水彩、stylized 3D 等場景，涵蓋橫向、縱向與置中延伸。
頁面沒有提供 GGUF、mmproj、llama.cpp、Ollama、LM Studio 或量化等資訊。

使用取向上，它更像為 Krea 2 編輯流程補上一個 UI 版的外擴能力，而唔係通用本地推理模型。由於依賴 diffusers 與自訂程式碼，適合已經在 Python 圖像流程中工作、需要穩定控制構圖位置的人。

項目主頁 · 模型

Categories: 開源, Image, Ollama, 影像模型, 影像處理, 視覺模型

Page 2 of 10

« Previous 1 2 3 4 … 10 Next »