多模態模型

Google 開源 GNM Head：更完整的人頭 3D 模型

2026 年 7 月 28 日

只做臉部外殼，很多時已經唔夠用；去到動畫、重建同生成式影像控制，眼球、口腔同頭部姿態一旦分離得唔好，效果就會即刻穿崩。google/GNM 目前先開放的 GNM Head，屬於3D parametric statistical human model 項目，焦點是用更完整的人頭幾何表示，處理傳統 3D Morphable Models (3DMMs) 對內部 anatomy 覆蓋不足的問題。

這個項目的取向很鮮明：不只是追求一個可調參的人臉網格，而是把 head、face、neck、eyeballs、teeth、tongue 放進同一個生成式人體測量框架。作者在技術報告指出，現有公開模型多數只覆蓋外部幾何，亦容易受限於低保真掃描資料；GNM 則結合高解析 3D scans 與 anatomy-specific artist-made samples，並加入 ocular 同 intra-oral specialized sub-models，目的就是改善幾何品質同可控性之間的取捨。

現有儲存庫較像一個生態系入口，而唔係即開即用的單一應用程式。README 清楚列出 GNM Head 已提供 NumPy、JAX、PyTorch、TensorFlow 多後端支援，亦有 Linux、macOS、Windows 的 CI；但目前公開資訊以模型與技術報告為主，未見到很完整的產品化操作流程說明，所以較適合研究、角色生成、數碼人、3D 視覺或生成式影像控制團隊按其子目錄文件逐步接入。

補足傳統 3DMM 常見缺口：不只外形，連眼球、牙齒、舌頭都可控
GNM Head 強調 identity、expressions、head pose 的 disentangled control
同時支援 NumPy、JAX、PyTorch、TensorFlow，方便接去不同研究流程
技術報告聲稱在 fitting target 3D face scans 達到 SotA 表現，但具體指標仍要回看原報告

它最吸引人的地方，在於把「可生成、可擬合、可作條件控制」三條路線拉到同一個模型家族內。現階段公開內容仍以 GNM Ecosystem 的起步版本為主，想拿來做完整 production pipeline，仍要自己判斷與現有重建、動畫或生成系統的整合成本；但作為高保真人頭 3DMM 的新基礎，這個項目的研究價值同延展空間都相當高。

GitHub · Paper

Categories: 開源, Google, TensorFlow, 3D, Linux, Mac, Python, 多模態模型, 模型, 語音, Dataset 數據集

FilmOps 將電影語言拆成可分析標籤

2026 年 7 月 28 日

一段影片好不好，不一定只靠整體觀感判斷；鏡頭遠近、構圖、機位、色調同運鏡，往往先係影響觀感的核心。FilmOps 正正瞄準呢個缺口：它不是一般影片生成模型，而是一套開源 operator suite，用來把影片畫面映射成結構化的 cinematographic labels，處理的是電影語言難以被細緻分析與量化的問題。

現有影片 benchmark 多數集中在 general perceptual quality、text alignment 或 temporal smoothness，對專業 cinematographic language 仍然偏粗略；general-purpose MLLMs 又難以穩定辨認 film-specific attributes，而 aesthetic predictors 這類領域模型面對 cinematic content 亦有明顯 domain gap。FilmOps 的取向很清楚：不用單一大模型包辦所有判斷，而是把六個維度拆開，按任務特性分配不同 backbone，令 shot scale、composition、camera angle、color & tone、character layout 同 camera movement 可以分別處理。

它的價值在於更像一套分析管線，而不是只給你一個總分。項目覆蓋 55 個以上子類別，分類定義對齊 Film Art、ASC Manual、Cinematography: Theory and Practice，亦經過 practitioner 驗證；加上 modular architecture，可以獨立用單一 operator，或者走 unified pipeline。對要做影片生成評測、鏡頭標註、資料整理，甚至研究 FilmBench 呢類 cinematic benchmark 的團隊，這種拆解方式會比泛用多模態評分更有解釋力。

屬於開源工具／模型組合，重點是把影片拆成電影語言標籤，而不是直接生成影片
六個 operator 採用 task-specific backbone，包含 DINO ViT-B/14、BEiT Base、ResNet-18、InternVL3-14B
支援 live-action、3D animation、2D animation 同 stylized content，強調 cross-genre consistency
已交代基本部署條件，包括 Python、PyTorch、CUDA 與 ffmpeg，也提供 unified pipeline 與 checkpoints 準備方向

現有資料只明確指出它在所有維度都勝過 general-purpose MLLMs，但細節主要放在論文。配套的 FilmBench 亦用同一套 Cinematic Language 思路建立 benchmark，並聲稱 evaluator 在模型排名上與人工評分高度一致，說明 FilmOps 並非只為展示而做，而是服務整個影片評測流程。不過它始終偏向分析與標註基建，想直接拿來做完整產品，仍要自行處理 checkpoints 下載、推理資源，並接受部分 operator 對 CUDA 與較重模型的依賴。

GitHub · Paper

Categories: 開源, 阿里巴巴, Gemini, NVIDIA, 3D, AI productions, Python, 動畫, 多模態模型, 語音, Dataset 數據集

DriveDNA 將駕駛風格拆清楚

2026 年 7 月 28 日

不少駕駛模型聲稱識別「駕駛風格」，但一換車款、路線或交通情境，學到的可能只是車主習慣路段與車輛特性。DriveDNA屬於多模態自然駕駛數據集與 benchmark，核心不是再加一批行車資料，而是把「邊個人在開車」與「開緊咩車、行緊邊條路」分開檢驗，直接處理個人化駕駛建模最常見的捷徑問題。

現有公開資源不是樣本太細、就是把車輛與路線幾乎固定，於是高分未必代表模型捉到穩定的個人風格。作者的做法更像重新定義評測：資料來自 465 位司機、115 款車、4,121 段駕駛，保留 CAN telemetry 與前向道路影片，並移除 automation-engaged frames，只留下 human-controlled driving，再配合 frozen evaluation protocol 與 leakage probes，要求研究者同時報告效用與洩漏風險。

它的價值在於評測不只看 re-identification 準唔準，還加入 personalized behavior prediction，以及在條件匹配下比較風格是否仍然存在。論文亦講得很直白：高 re-ID 可能只是 route leakage，能認出司機，不等於對未來行為預測更有幫助；相比只追單一識別分數，DriveDNA更重視模型有沒有學到可遷移、可解釋的駕駛表徵。

規模夠大：465 位司機、975 小時 human-controlled driving、4,121 段駕駛
模態完整：10 Hz CAN telemetry 配合同步前向道路影片
評測設計針對混淆來源，明確檢查 vehicle、route、condition leakage
倉庫已附 code 與 harness，但提供的是 benchmark 與研究流程，不是即插即用產品

私隱與資料治理亦寫得仔細：司機身份用 salted hashes，移除 VIN、裝置識別碼與 GPS，沒有車廂影片與音訊，受控影片版本會模糊人臉與車牌，並禁止 re-identification 與保險、就業、執法評分用途。較適合自動駕駛、駕駛行為建模、VLA 與多模態學習團隊拿來做表徵比較與洩漏檢查；現有資訊可確認倉庫附有 code & harness，但未見完整產品化安裝流程，重點仍是研究 benchmark 與可重現評測。

GitHub · Paper

Categories: 開源, 多模態模型, Dataset 數據集, VLA

JoyAI-Image 想做懂空間的影像模型

2026 年 7 月 27 日

Repository image for jd-opensource/JoyAI-Image

改圖最怕模型聽得明文字，卻改壞原本場景結構；生圖亦常見字排得唔準、物件關係走位。JoyAI-Image就係朝住呢個痛點落手，定位屬於多模態基礎模型，把影像理解、text-to-image 生成同指令式編輯放入同一個模型家族，重點處理空間理解不足帶來的失真與失控。

唔係把理解模型同生成模型鬆散拼埋，而係用 8B Multimodal Large Language Model (MLLM) 配 16B Multimodal Diffusion Transformer (MMDiT)，強調理解、生成、編輯之間的閉環協作。換句話說，模型唔只讀圖後再畫圖，仲會利用視角變換等生成結果反過來補強空間推理，呢點令它在 grounded generation、關係定位同可控編輯上有更鮮明方向。

現有公開內容顯示，部署路線算完整，已提供 Hugging Face 權重、Diffusers 版本、ComfyUI 原生支援，同埋可直接參考的 workflow；另外亦有 Spatial Edit 同 General Edit 示範空間。對內容製作、電商視覺、設計流程或者研究多模態編輯的人，較值得留意的是它不只處理單次修圖，仲想處理長文字排版、版面忠實度、多視角生成，以及「指定物件移去指定位置」呢類容易出錯的操作。

JoyAI Image Edit Plus in ComfyUI - How Does it Compare?

Watch this video on YouTube

把理解、生成、編輯整合到同一條多模態流程
核心賣點係較強的 spatial intelligence，而不只是畫面更靚
已有 Diffusers 與 ComfyUI 兩條使用路線，測試門檻較研究原型低
延伸到 OpenSpatial data engine 同 OpenSpatial-3M dataset，反映它連資料與訓練配方都一併公開

效能方面，儲存庫描述集中在能力展示與訓練設計，現階段較適合把它理解成一個方向清晰、工具鏈逐步成熟的開源影像模型項目。最吸引之處唔係單一指標，而係它把空間理解當成生成與編輯的核心能力，對需要更穩定版面、關係同位置控制的工作流，確實比單講畫質更實用。

GitHub · 模型

Categories: 開源, Qwen, ComfyUI, Image, txt2img, 多模態模型, 模型, 視覺模型, Dataset 數據集

FinanceComplexQA 點評：金融長文件問答基準

2026 年 7 月 26 日

金融問答最容易失真的位置，不是模型識唔識術語，而是它會否真正在整份參考文件入面推理、比對同計數。FinanceComplexQA屬於數據集／Benchmark，焦點不是背答案，而是檢驗 LLMs 和 agents 能否根據完整 reference documents 回答複雜金融問題。

它修正了只靠 parametric knowledge 或抽取單一段落的評測範式。作者把重點放在 document-grounded complex financial QA，要求答案同問題及原始文件一致，並涵蓋 multi-hop reasoning、numerical calculation、comparison、implicit inference、planning、summarization 同 evidence-grounded verification，對 RAG、Agentic workflow 同長文本閱讀能力都有參考價值。

資料結構本身亦有取捨。FinComplexQA-Pro 收錄 2,026 組獨立 QA，按語言、金融場景與任務分類組織；同一題會以 scene_categories 與 task_categories 兩種視角出現，所以總記錄視圖有 4,052 筆。另有 overall 提供 agent_answer、agent_thinking 及 LLM-as-a-judge 分數，但這些分數只適合做診斷訊號，不能當 ground truth。

支援中文與英文，但兩個子集覆蓋的文件領域不同，schema 亦不完全一致
較適合逐個子目錄讀取 JSONL，而不是一開始合併全部資料
可用 exact match、數值容差、F1、semantic similarity 等方法比對輸出
附有 Reference_documents，方便追查 PDF 與 LaTeX 原文證據

部署和測試的理解方式相當直接：資料主要在 Hugging Face 發佈，研究團隊可先挑單一語言、單一 task category 載入，再把模型輸出對照 gold answer 或文件證據做評估。它較受惠於做金融 RAG、長文件 QA、Agent 評測或雙語研究的團隊；要留意的是金融事實具時效性，而且項目已明確標示僅供研究與評估，不應延伸成投資、會計、法律或財務建議。

項目主頁 · GitHub · Paper

Categories: 開源, 微軟, DeepSeek, Agentic, RAG, 多模態模型, 中國, Dataset 數據集

ProVisE 用像素答案重做空間評測

2026 年 7 月 26 日

當一條空間題目本來應該用圈選、標記路徑或者遮罩去表達，硬要模型交出座標、選項字母或文字描述，結果往往唔係能力差，而係答題介面同模型表達方式錯位。ProVisE屬於評測框架，處理的正是呢個落差：它唔改原本 benchmark 任務本身，只改回應介面，讓圖像生成模型用像素空間交答案，再轉回 benchmark 可計分的結構化輸出。

現有 spatial benchmarks 多數沿用 text-only interface，假設所有模型都應該以 coordinates、option labels 或 textual descriptions 回答。作者認為這種固定範式會壓縮 regions、paths、affordances 呢類本身偏視覺的判斷，因此提出 Protocolized Visual Evaluation：先由 task-aware router 指派 visual protocol，再用固定 guidance prompt 同 parser 約束輸出，最後仍然交回 original benchmark metric 評分。Text-output VLMs 就維持原本答題空間，兩類模型可以在同一套任務語義下比較。

ZJU-OmniAI/ProVisE 在於把「模型唔識答」同「評測方法逼錯答案格式」分開處理。配套的 SpatialGen-Bench 收錄 470 個 curated samples，涵蓋 14 個 subtasks，同時分成 perception、understanding、reasoning、interaction 四個 capability levels；研究結論亦相當直接，image-generation models 在可把判斷外化成像素標記的任務上有競爭力，但 text-output VLMs 在另外一些題型仍然較穩定，兩者並非誰全面取代誰。

保留原有 benchmark metric，只替換答案介面，方便同既有結果對照
用 visual protocol 限制生成內容，減少任意畫圖帶來的解析歧義
SpatialGen-Bench 把空間能力拆成 14 個 subtasks，唔再只看單一總分
適合研究 VLM、image-generation models、agent 空間理解能力的團隊採用

安裝門檻看來不高，程式環境以 Python 3.10+ 為主，並已公開 code、project page 與 Hugging Face 上的 SpatialGen-Bench。現階段它更像研究與評測項目，不是即插即用產品；重點也不在部署成服務，而是在你想驗證模型空間認知時，能否用更貼近模型輸出形式的方式做比較。對做多模態模型、視覺評測或 Agentic 系統的人來說，ProVisE提供了一個相當清晰的檢查角度。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

VCSD 點樣逼可以 Vision-Language Models 真係睇圖

2026 年 7 月 26 日

不少 Vision-Language Models 會表面上處理圖片，實際卻沿住語言慣性作答。VCSD 屬於模型訓練方法，針對嘅正正係呢種「答案似乎合理，但未必真係由圖像帶動」嘅問題：它讓同一個 EMA teacher 分別看原圖同內容被抹走嘅 control input，再用兩者對每個 response token 嘅分佈差異，提煉出更依賴視覺內容嘅學習目標。

現有 on-policy self-distillation（OPSD）多數靠 privileged answers 或 visual evidence 製造 teacher 比 student 更強嘅訊號，VCSD反過來把 image-content removal 變成非對稱來源。做法唔係直接獎勵某幾個字，而係用原圖分佈 p_hi 同控制輸入分佈 p_ctrl 嘅 log-probability 差，配合 α 調整對比強度，再用 β-plausibility mask 限制只喺 teacher 原本已視為可信嘅 token 集合內重新分配機率；README 亦講明 β 設成 0.0 會令訓練崩潰，代表呢個護欄唔係裝飾，而係方法成立嘅關鍵。

項目目前仍然係 work in progress，代碼、設定同文件都可能再改。倉庫已放出訓練資料格式線索，例如 train.parquet 需要 prompt 同 image 欄位，train_answer.parquet、val_answer.parquet 用作 answer-conditioned validation；訓練則建基於繼承自 verl 嘅 GRPO/PPO 流程，VCSD 相關改動集中喺 verl/trainer/ppo/vcsd.py、verl/workers/actor/dp_actor.py 同 actor 設定檔，表示它比較似可插入現有 RL 訓練管線嘅附加目標，而唔係一套獨立框架。

核心取向係用 visual contrast 代替 privileged answers 或 visual evidence
學生模型學習嘅係 full-vocab KL 目標，唔係逐 token 手動加權
control input 可設成 black、degrade 或 noimg，用來測試答案有幾多真係靠圖像
已公開結果顯示，VCSD 在 ViRL39K 上對 Qwen3-VL 與 Qwen3.5 系列均比 matched OPSD 更好

從已公開數字看，Qwen3-VL 在七個 benchmark aggregate 上由 2B 的 62.27 升到 67.04、4B 由 71.30 升到 73.16、8B 由 72.51 升到 76.26，方向相當清楚：它想改善嘅唔係推理時計算量，而係訓練期間點樣把「圖片真正提供咗乜嘢」變成更乾淨嘅監督訊號。對已經有 Vision-Language Models RL 訓練流程、又想減少外部 teacher 與額外標註依賴嘅研究團隊，呢個項目值得跟進；不過現階段仍要接受文件未齊、介面可能變動，以及結果主要來自論文與項目頁面披露。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Image, 多模態模型, 視覺模型, Robotic, VLA, Dataset 數據集, 框架

TableVerse 想補上機械臂數據缺口

2026 年 7 月 26 日

機械臂要學會喺凌亂桌面執放物件，卡位通常唔在控制器，而在訓練資料太乾淨、太想像化。TableVerse 屬於Dataset 數據集加上資料生成流程，重點不是再用文字幻想場景，而是用 Real2Sim 從網上真實圖片重建可放進模擬器的桌面配置，直接處理泛化操作最缺的場景真實感。

現有做法常見兩條路：text-to-layout hallucination，或者較簡化的 procedural generation。作者批評前者容易做出物理上唔合理的擺位，後者又捉唔到人類日常環境常見的密集雜物；因此 TableVerse 改成 deterministic reconstruction，從非結構化的 in-the-wild image data 還原具備 metric scales、authentic topologies 同 verified mechanical stability 的場景，取向明顯偏向可落地訓練，而唔係只追求合成速度。

項目現時最重要的成果是 TableVerse-100K，公開了 100,000 個 physically consistent 的桌面環境，並配對 interactive manipulation trajectories。網站資料顯示，它還接上自動化 task-conditioned trajectory generation，先由 MLLM 根據場景視角提出 object-to-target 配對，再生成 collision-free pick-and-place demonstrations，令數據不只得靜態場景，亦包含可直接餵給操作策略學習的示範。

以真實圖片重建桌面，而非只靠生成式佈局
提供 100K 場景與 pick-and-place 軌跡，規模夠大
強調物理一致性、機械穩定性與模擬可用性
適合做 generalizable manipulation 與桌面操作研究

部署角度上，這個 GitHub 儲存庫目前更接近論文與資料入口，主要連到 arXiv、HuggingFace dataset 同項目網站，未見完整訓練或評測程式公開。換句話說，研究團隊現階段較可能把它理解為高品質資料來源與方法參考，而不是即裝即跑的機械臂框架；對做 robotic manipulation、模擬訓練數據建構，或者研究 Real2Sim 流程的人，參考價值很高。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Image, 多模態模型, Robotic, Dataset 數據集

TrajLoc 把路線描述對準衛星圖

2026 年 7 月 26 日

A trajectory can be queried as dense video or as abstract language — both retrieve the same satellite tile.

只靠一張街景相去配對衛星圖，遇到轉彎、路口相似、視角受限時好容易失手；TrajLoc改為追蹤整段移動路線，將街景影片、自然語言路線描述，或者兩者結合後對應到帶地理標記的衛星瓦片。它屬於跨視角 geo-localization 模型連同 benchmark 項目，處理的是「把連續路徑準確放回地圖」這個問題。

現有 cross-view 資料多數停留在 single-image、video-only 或 text-only 範式，作者認為這樣會拆散同一條路線入面本來互相補強的時序線索與語意線索，因此一併推出 SeqGeo-VL。呢個 benchmark 收錄 38,863 組對齊的 video-text-satellite triplets，並有 91.8% human verification pass rate，重點不是再加大資料量，而是把 sequential 同 linguistic 兩種證據放入同一任務。

TrajLoc沒有另起一套龐大時序架構，而是由 pretrained CLIP ViT-L/14 延伸成 video、text 同 satellite encoders，再用 co-training curriculum 將三種查詢模式放入同一個表示空間。作者另外加入 TrajMod，將路線幾何資訊 tau={(Δx_i, Δy_i, θ_i)} 轉成 FiLM 的 scale/shift 參數，直接調節 query embedding；做法比單靠提示詞更明確，亦保留 frozen encoders 的可重用性。

支援 video、plain language、video+text 三種查詢方式
SeqGeo-VL 是首個同時包含 sequential 與 linguistic cross-view benchmark
TrajMod 只用 waypoint offsets 與 headings，不靠 map 或 POI metadata
項目提供 agent-ready tool interface、persistent Python API 同 JSON CLI

從示範與說明看，TrajLoc的定位很清楚：它不是通用多模態聊天模型，而是給 spatial reasoning、戶外機械人、導航研究同 multimodal agents 調用的專門工具。225 ms 的示例檢索速度對互動式流程有吸引力，但目前公開資訊主要集中在 benchmark 與檢索能力，部署前仍要留意資料覆蓋範圍、地區泛化，以及自己的工作流是否真有影片或路線文本可供查詢。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Agentic, API, Video, Image, AI productions, Embedding, Python, 多模態模型, 模型訓練, Dataset 數據集

SeededGrasp 用自然語言指揮機械人精準抓取雜亂物件

2026 年 7 月 26 日

SeededGrasp: Language-Guided Grasping in Complex Scenes with Multiple Embodiments teaser figure

當桌面堆滿不同物件，機械人要聽得明「拎紅色杯旁邊嗰支筆」這類指令，難處不只在辨認物件，仲要同時算準 3D 空間位置同抓取角度。SeededGrasp 針對的正是這類語言引導抓取場景，重點不是端到端硬推整個動作，而是先找對目標，再生成穩定抓取姿態。

它的做法相當清晰：先用預訓練 Vision-Language Model（VLM）把文字指令轉成影像中的 2D 種子點，再投影到 3D 點雲，交給輕量的 flow-matching grasp model 產生 6DOF 抓取姿態。這種拆分方式把高層語意判斷同低層幾何執行分開，減少重新訓練整個系統的成本，也較容易支援多種 embodiment。

相比直接由 VLM 預測抓取，SeededGrasp 保留語言理解的直觀操作，同時補回空間推理不足；相比把 VLM 同抓取模型一併訓練，它對語言標註資料與算力的需求更克制。團隊亦公開多 embodiment 桌面抓取數據集，包含超過 2.56M 個 cluttered scenes 抓取姿態，涵蓋 Franka Panda、Allegro Hand 同 Robotiq 3-Finger。

用簡單文字指令指定目標，適合雜亂桌面抓取情境
以 2D 種子點連接 VLM 與 3D 抓取生成，降低端到端訓練負擔
支援多種 embodiment，不限單一夾爪或手型
公開 2.56M grasp dataset，補足多 embodiment 訓練資源
模擬成功率達 72%，真實環境抓取實驗達 78%

對機械人操作、語言介面同 grasp planning 有興趣的讀者，會較容易感受到這個項目的價值：它沒有把所有問題塞進同一個大模型，而是用較節制的架構處理語意與幾何之間的落差。現階段重點仍在桌面雜亂場景抓取，但它已經展示出多 embodiment 擴展同資料效率上的實用方向。

項目主頁 · Paper

Categories: Google, 3D, 多模態模型, 模型訓練, 視覺模型, Robotic, 框架, Dataset 數據集

Page 2 of 15

« Previous 1 2 3 4 … 15 Next »