阿里巴巴 – Page 4

SPLASH 讓小型 MLLM 學會觸覺

2026 年 7 月 10 日

想將觸覺資料接入小型多模態模型，最麻煩的地方往往不是接唔接到，而是模型一邊學「摸到乜」，一邊把原本「睇到乜」的能力搞亂。SPLASH屬於模型訓練框架，針對的正是 MLLMs 在加入 tactile perception 後容易出現的 catastrophic forgetting，目標是在保住 vision-language 能力之下完成 visuo-tactile 對齊。

它的取向幾清楚：唔係全面重訓，也唔係隨便加一條 tactile branch 就算，而是先在 LLM backbone 入面找出較「沉睡」的參數空間，再把觸覺學習限制在呢部分。項目提到它用 weight 與 activation importance scoring 生成 dormant masks，之後做 mask-guided sparse training；好處是唔使大幅動到關鍵視覺語言參數，代價則是整個流程仍然偏研究型，部署前要先備好資料集、分割資料，同時需要 CUDA 12.0 以上與至少兩張 GPU 做分散式訓練。

現有版本主要有兩個模型變體：SPLASH-1B 以 InternVL2.5-1B 為 base MLLM，SPLASH-3B 則建基於 Qwen2.5-VL-3B，兩者都配合 ViT-Tiny + MLP adapter 作 tactile frontend。資料部分亦唔算輕量，除了 LLaVA-CC3M-Pretrain-595K 與 CC3M 用來生成 mask，仲要配合 Touch-Vision-Language-Dataset、TacQuad 等項目做訓練與 OOD 評估，所以它比較適合做多模態研究、機械感知、或想驗證觸覺—視覺聯合推理的團隊。

重點不在新增多少參數，而在把觸覺更新隔離到 dormant subspace
基底模型包括 InternVL2.5-1B 與 Qwen2.5-VL-3B
觸覺前端採用 ViT-Tiny + MLP adapter
評估覆蓋 SSVTP、TVL、TacQuad，並強調保留原有通用能力

以公開資訊判斷，SPLASH最值得留意的不是單一 benchmark 分數，而是它明確押注「non-destructive modality expansion」：讓模型多學一種感官，而唔需要用視覺能力做交換。對打算在緊湊參數預算下擴展 MLLMs 感知模態的研究項目而言，這個方向比單純追高表現更有參考價值。

項目主頁 · GitHub

Categories: 開源, Qwen, NVIDIA, 多模態模型, 模型訓練, Dataset 數據集

AgentCanvas：把 embodied agent 變成可編輯圖譜

2026 年 7 月 10 日

AgentCanvas editor: the MapGPT executor loads as a node-and-wire graph, then a live R2R episode runs end-to-end

卡位不在模型夠唔夠新，而在整個 embodied agent 系統太厚：simulator、perception、memory、planning 同 control 全都要接通。AgentCanvas 把這件事收斂成可執行的 typed graph 平台，用單一 JSON 保存一個 agent 結構，讓 VLN、EQA、VLA 一類工作不再每次都由 execution layer 重搭起步。

這個項目是把 embodied agent 改寫成可視化、可重播、可修改的圖譜程式。現有做法多數靠手寫 imperative code 逐層綁死 simulator、工具與 foundation models，作者認為這種範式難以比較、難以重現，也不利 architecture search；所以 AgentCanvas 先提供 substrate，再用 KDLoop 與 AAS 讓 coding agent 反覆改圖、驗證、再分析。

AgentCanvas 重點放在把 agent 結構標準化，而不是只交一份論文內部 executor。你可以在 editor 直接載入節點圖，跑真實 R2R episode，也可接 Habitat-Sim、MatterSim、SAPIEN/ManiSkill2、MuJoCo/robosuite 這些 simulator；新加入的 Source tab 還可就選定 node 回看 source slice，改完再 syntax-checked hot-reload，這對反覆試設計特別有用。

支援 hand-built graphs，也支援 AAS 自動搜尋 agent 架構
已接入 29 個 foundation models，包括 Qwen3-VL、InternVL3、Gemma 3、SmolVLM2、SigLIP2、OWLv2、Grounding DINO
可覆蓋 VLN、EQA、VLA 與鄰近 embodied 任務
研究預覽版已開源，環境基礎要求為 Python 3.10+

受益最明顯的，會是做 embodied AI 的研究團隊、要重現論文 executor 的學生，以及想比較不同 graph 設計而不是重寫整個系統的人。現階段它仍是 pre-1.0 research preview，性能數字應結合原論文結果閱讀；但單看定位，AgentCanvas 最有價值的地方，是把「難以維護的 agent 系統工程」變成「可被搜尋與修改的圖譜工作流」。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, Agentic, Python, Vibe Coding, 多模態模型, 編程, Anthropic, 框架, Dataset 數據集, VLA

SciReasoner 想把科學推理拉回結構本身

2026 年 7 月 10 日

只看文字去判斷蛋白質功能、分子反應性或材料性質，經常會漏掉真正關鍵的空間結構。SciReasoner屬於多模態 scientific foundation model，針對的正是這個落差：把 protein structures、3D molecules、crystals、sequences、formulas 同 text 轉成可對照的 structure-aware evidence tokens，再用來做 scientific QA、prediction、classification 同 generation/design。

與科學資料先「文字化」再交畀大型語言模型處理的做法不同。作者明確押注 native structural reasoning，保留 Foldseek 3Di、ConfSeq、SLICES 呢類結構編碼，令模型唔係淨係讀描述，而係可以沿住 residues、fragments、conformers 甚至晶體配位環境去推理；官網展示的 traces 亦反映出，項目希望連推理路徑都可以檢查，而唔只係輸出答案。

GitHub 上的 models 同 demo 仍標示為 coming soon。換句話說，眼前較合理的理解方式係先把它當成研究型項目：閱讀 benchmark、看案例 traces，判斷它是否適合生物資訊、化學資訊或材料 AI 團隊之後的評測與整合方向，而唔係即刻下載部署到生產流程。

在 86 個評測任務入面，67 個做到 state-of-the-art，對比 generalist LLM baselines 有 75 個任務表現最好
與已發表的 specialist 方法相比，在 33 組比較入面有 26 組持平或更好
範圍唔只化學，亦覆蓋 proteins、DNA/RNA、small molecules、3D molecular structures 同 inorganic crystals
traces 可檢查，雙盲專家評分中，與 DeepSeek-V4-Pro 相比有 98% 判斷屬 preferred 或 comparable

相關模型方面，SciReasoner以 Qwen3-14B 初始化，再對齊 domain-native structural vocabularies。對需要跨蛋白質、核酸、分子同材料做統一推理介面的團隊，呢個方向幾有吸引力；限制同樣明顯，因為公開模型與可直接測試的 demo 尚未提供，現階段更適合當成值得追蹤的研究項目，而唔係可即用工具。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港中文大學, DeepSeek, 3D, Medical醫學, 多模態模型, 模型, 中國, 南京大學, Dataset 數據集

LingBot-Video 想做懂物理的生成影片

2026 年 7 月 10 日

生成影片要做到「似真」，唔只係畫面靚，仲要交代到動作、物件同物理世界之間嘅關係。LingBot-Video屬於開源視頻模型，主打 embodied intelligence，想補足一般 T2V 只重視視覺效果、但對任務過程同物理合理性掌握較弱呢個缺口。

呢個項目的取向幾清楚：唔係單純追求更大參數，而係用 MoE（Mixture-of-Experts）架構去平衡容量同推理成本，官方說法指推理可快約 3 倍。訓練資料亦唔只靠網絡影片，仲加入超過 70,000 小時 embodied data，再配合 multi reward system，同時兼顧美感、physical rationality 同 task completion。

部署理解上，它已提供完整模型下載入口，同時覆蓋 Hugging Face、ModelScope 以及文件站；推理路線分成 diffusers 同 SGLang Diffusion，代表團隊唔只放權重，亦有考慮不同推理堆疊。README 亦列出 rewriter，當中包括以 Qwen3.6-27B 為基礎嘅版本，以及 Qwen3.6-27B LoRA adapter，表示提示詞改寫都係整個工作流一部分。

提供 LingBot-Video-Dense 同 LingBot-Video-MoE，前者較像基線路線，後者加入 Refiner
任務覆蓋 T2I、T2V、TI2V，唔只限純文字轉影片
以 embodied data 同多重獎勵機制強化動作合理性
有文件、模型頁同技術報告，較適合研究團隊同進階內容生成流程測試

受益最大嘅，會係想做機械人模擬、具身智能研究、動作導向影片生成，或者需要比較「任務是否完成」而唔只係「畫面是否好睇」嘅團隊。現有資訊未見到完整基準分數整理，所以性能判斷暫時仍要配合官方技術報告同實測；不過以開源定位、MoE 架構、Refiner 同 rewriter 一併公開嚟睇，LingBot-Video明顯係朝住較完整嘅研究與部署鏈路去設計。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Video, 多模態模型, 視覺模型, 視頻模型

vLLM 新後端跑出原生級速度

2026 年 7 月 10 日

卡位一直在於：想用 vLLM 的高吞吐推理能力，過去往往要為個別模型寫或等專用實作。呢篇內容講的是 Hugging Face 把 transformers 直接作為 vLLM 的 modeling backend，而且頁面沒有提供 base model 資訊，因為它不是單一模型頁，而是針對推理後端整合的技術更新。

重點價值很直接：模型作者只要已有 transformers 實作，就有機會不用再額外移植到 vLLM，也能拿到接近原生，甚至更快的推理表現。對 LLM 與 VLM 都有意義，因為 serving 設定基本不變，只是加入 --model-impl transformers 旗標。

文中展示了三組 Qwen3 測試：Qwen3-4B 單 GPU、Qwen3-32B 以 tensor parallelism 跑 2 GPU，以及 Qwen3-235B-A22B-FP8 Mixture-of-Experts 在同一個 8×H100 節點上以 data parallelism 加 expert parallelism 執行。結果指向同一件事：transformers backend 的 throughput 已經追平或超過 vLLM 手寫 native implementation。

transformers 已支援 450+ architectures，角色像參考級 modeling library
vLLM 繼續負責 continuous batching、custom attention kernels 等高效推理優化
啟用方式很簡單：升級 vllm，並在 serve 時加入 --model-impl transformers
可與 --tensor-parallel-size、--data-parallel-size、--enable-expert-parallel 一起使用

取捨亦要講清楚：頁面重點在 backend 整合與效能展示，不是 GGUF 發布頁，所以沒有提供 GGUF 格式、量化等級、mmproj、chat template、MTP draft speculation 或 LM Studio／Ollama／llama.cpp 檔案資訊。硬體需求方面，示例至少涵蓋單 GPU、2 GPU，同埋 8×H100 節點；不同模型是否都能複製同樣增益，仍要視架構與部署環境而定。

項目主頁 · GitHub

Categories: 開源, Qwen, Ollama, Python, 庫, 框架

Qwen-Image-Bench：難分高下的是細節

2026 年 7 月 9 日

Qwen-Image-Bench dimension framework and representative model outputs

只看一張圖夠唔夠靚，已經不足以判斷 text-to-image (T2I) 模型值唔值得放入創作流程。Qwen-Image-Bench 把焦點放到更貼近創作工作的檢查方式：它屬於評測工具包，同時連同 benchmark dataset 同 judge model，一併處理生成圖像模型難以客觀比較的問題。

這個項目的可取之處，在於它唔係只計語意對齊或整體畫質，而是用 fine-tuned 的 Q-Judger（Qwen3.6-27B）按 5 個階層維度評分，包括 Quality、Aesthetics、Alignment、Real-world Fidelity、Creative Generation，並細分到 56 個 facets。對做品牌視覺、遊戲美術、漫畫分鏡或者要處理文字渲染的人來說，呢種拆法比單一總分更有參考價值，因為你會直接見到模型係構圖、真實感、創意約束，定係文字生成出問題。

部署理解上，它唔係即開即用的網頁服務，而是偏研究與團隊驗證流程的 Python 工具。你要準備好虛擬環境、PyTorch，同埋包含 prompt、image_path、ID 的 CSV／JSON／JSONL 輸入，再透過 judge.py 跑 Qwen/Qwen-Image-Bench；另一條路線是直接用已公開的 benchmark responses 重現排行榜分數。底層推理沿用 ms-swift，跟釋出 benchmark 結果時的設定一致，這點有助減少評測流程前後不一。

支援替任何 T2I 模型打分，較適合做橫向比較
分數結構比一般 benchmark 細，方便定位失誤位置
可重現公開資料集結果，適合研究或團隊內部驗證
使用門檻偏技術向，需要本地推理環境與整理輸入格式

它的取向也很清楚：重點不是提供生成能力，而是提供一把較細緻的尺。代價是評測仍依賴 judge model，本身並不是人手審稿，也未必完全等同最終用戶審美；但對需要批量比較模型、整理回歸測試、追蹤版本變化的團隊，這種一致而可重跑的框架反而更實用。相關模型與資源包括 Q-Judger（Qwen3.6-27B）、Hugging Face 上的 Qwen/Qwen-Image-Bench，以及配套 benchmark dataset。

項目主頁 · GitHub

Categories: 開源, 阿里巴巴, Qwen, Image, 工具, Python, txt2img, Dataset 數據集

3D HAMSTER 把機械臂規劃帶進真 3D

2026 年 7 月 8 日

3D HAMSTER architecture: a depth-augmented VLM planner produces metric 3D waypoints that unproject into the point cloud

機械臂最怕規劃講得通，落到控制層卻對唔準空間位置。3D HAMSTER屬於 Vision-Language-Action 規劃模型／機械人研究項目，重點不是再產生螢幕上的 2D waypoint，而是根據單張 RGB 圖、metric depth map 同文字指令，直接輸出帶有深度的 3D end-effector trajectory，同時附上 gripper actions，格式亦整理成 JSON，方便接去後續控制流程。

它針對的矛盾很明確：不少 hierarchical Vision-Language-Action models 由高層 planner 先預測 2D 像素軌跡，再交給吃 point cloud 的低層 policy 執行。問題在於 2D waypoint 只會「借用」像素下方表面的深度，幾何上未必真是機械臂應走的位置。3D HAMSTER改成在 metric 3D 空間規劃，等高層輸出可以直接對接 point-cloud low-level policy，少了中間 2D 轉 3D 的失真。

模型骨幹用的是 Qwen3-VL-8B，再加上凍結的 LingBot-Depth geometry encoder，當中採用 DINOv2 ViT-L/14，並配合 dense depth-reconstruction objective 去強化深度感知。儲存庫目前提供的是 inference-only 版本，即是你可以安裝套件、下載 checkpoint 後直接跑推理或用 Gradio demo 測試；低層 point-cloud policy 屬於論文完整系統一部分，這個 GitHub 項目未有一併放出。

直接輸出 [u, v, depth] waypoint，深度單位是米，較易接入真實機械臂流程
走 RGB-D + language instruction 路線，不靠多視角觀察
checkpoint 已包含 geometry encoder 權重，載入時毋須再額外抓模型
項目偏向展示 planner 能力，不等於完整可部署的機械人控制堆疊

，它的定位很適合做研究驗證、機械操作規劃比較，或者拿來觀察 2D planner 與 3D planner 在幾何一致性上的差異。作者在項目頁面強調這種做法對語言、空間與視覺分佈轉移更穩健，但這個儲存庫未有完整公開訓練流程與低層控制模組，所以較適合把它理解為一個清楚展示方向的 3D-native planner，而不是即裝即用的全套機械人方案。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, 3D, 多模態模型, 視覺模型, Robotic, VLA, Dataset 數據集

MuseBench 用藝術理解考驗 MLLMs

2026 年 7 月 8 日

Repository image for musebench/musebench-code

見到畫面、聽到聲音，未必等於真係明白作品想點講。MuseBench 把焦點放到 artistic intent，專門測 multimodal large language models（MLLMs）能否由視聽證據推斷創作選擇背後的意思；它屬於 benchmark／數據集型項目，處理的是現有評測多數只停留在 perceptual recognition，未能反映藝術理解深度的問題。

現有做法常用一般視覺問答或影片理解題，模型只要辨認物件、情節或表面事件就有機會得分；作者認為這種 fixed paradigm 忽略 stylistic vocabulary、cultural priors 同 grounded audiovisual inference，所以改用 narrator-removed video clip，並配合可選 audio transcript，迫使模型直接由鏡頭、聲音、節奏與敘事線索作判斷。題目覆蓋 Cinematic Arts、Static Visual Arts、Stage Performing Arts 同 Game Arts，合共 4,016 條問答。

同類 benchmark 多數著重「睇到乜」，MuseBench 則更在意「點解要咁呈現」。它亦唔只用單一選擇題，仲有 single-select 同 multi-select 兩種格式，並加入 Chance-Adjusted Accuracy（CAA）處理選項數量不同帶來的偏差，令比較 28 個 MLLMs 時較公平。

涵蓋 4 個藝術領域、11 個細分類，題材比一般影片 QA 更闊
評測 28 個 MLLMs，包含 proprietary、open source 同 video-specific 路線
最佳模型準確率 48.29%，明顯低於 human expert 的 87.18%
已整合 VLMEvalKit，方便把新模型接入同一套流程測試

部署同測試理解上，這個 code repository 主要唔係提供訓練模型，而是把 MuseBench 接到 VLMEvalKit 的評測流程，較適合研究團隊、模型評估人員、做 video understanding 或多模態推理的項目直接比較新舊模型。已公開的結果提到 Claude-4.6-Opus、Qwen-3.5-Plus、Doubao-Seed、GPT-5.4、Gemini-3.1-Pro、Grok-4.1 等都測過，分數整體仍與專家有大段距離；換句話說，這個項目最有價值的地方，在於它清楚指出現時 MLLMs 在藝術判讀仍未算接近可靠。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, 香港, 香港大學, 字節跳動, Gemini, OpenAI, Video, Audio, 多模態模型, Anthropic, Dataset 數據集

PaperPilot：把文獻搜尋變成可修改流程

2026 年 7 月 8 日

做研究時，最麻煩往往唔係「搵唔到論文」，而係第一輪結果未必貼近你真正想追嘅方向。PaperPilot屬於開源框架，同時亦帶有已訓練代理模型，用 workflow induction 處理多輪學術文獻搜尋：它會圍繞 anchor paper 同查詢，先建立一個 typed DAG，再用澄清問題同後續回應去改動搜尋流程本身，而唔係只係喺原句後面再加條件。

呢個定位同一般固定 pipeline，或者只靠語言模型隱式推理嘅搜尋代理，好唔一樣。作者認為舊範式嘅問題，在於搜尋策略難以控制、難以檢查，亦唔容易根據人嘅偏好逐步修正；PaperPilot就把 keyword search、citation expansion、filtering、scoring、reranking、evidence extraction 組成可執行流程，每一步改動都可以保留，令結果更可追溯。

公開資料已經提供 live demo，亦有 FastAPI 後端、Streamlit 介面、evaluation scripts 同 tests，可理解成一套可部署、可觀察、可重跑嘅研究工具鏈。不過 initial release 未包含 web/ React front-end，同 training_infra/ 亦未完整開放；README 片段亦未見完整安裝流程，現階段較適合先用 demo、閱讀論文，再按儲存庫結構自行部署 backend 與本地介面。

多輪互動唔止改 query，仲會直接編輯 typed DAG workflow
約 50 個 typed operators，覆蓋檢索、集合操作、排序同證據抽取
每次執行會保存流程、逐輪修改、時間與成本，方便重現結果
PaperPilot-9B 以 workflow imitation 加 preference optimization 訓練而成
指標上較 base Qwen3.5-9B toolset agent 提升 Hit@5、MRR、nDCG@10，並把 workflow execution errors 由 9.5% 降到 0%

相關模型方面，核心比較對象係 base Qwen3.5-9B toolset agent，而實作後端就標明支援 OpenAI、Together、Anthropic 同 OpenAI-compatible endpoint。呢種設計對研究員、需要做系統性文獻整理嘅學生，或者想把檢索流程納入團隊知識管理嘅人都幾有價值；取捨在於它追求可控與可審核，流程會比單次對話搜尋更重，亦更依賴使用者願意逐輪提供清晰反饋。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Agentic, API, Dataset 數據集

SaMer 壓縮視覺檢索成本

2026 年 7 月 8 日

圖文檢索做得細緻，往往要保留大量 image-side tokens，但儲存與比對成本也會跟住升。SaMer屬於開源框架／研究原型，針對 ColPali-style multi-vector retrievers 的 token 壓縮問題而來，重點不是單純刪減，而是盡量保住之後查詢仍可能用得着的 object-level evidence。

現有壓縮做法多數偏向 pruning、pooling，或者只按 feature 合併，代價是物件與區域證據容易被混在一起，令 MaxSim late interaction 原本可選取的細節訊號流失。SaMer的取向明確：保留原本 MaxSim retrieval objective，不改 late-interaction 介面，只在 image side 做 object-aware merge，修正「壓縮後證據變鈍」這個問題。

它的方法有三個關鍵步驟：先用 feature similarity 加 spatial proximity 做 Feature-Spatial Merging，再在訓練階段利用 Flickr30k-Entities 的框標註加入 Object-Aware Assignment，避免不同實例被錯誤合併，最後採用 Projection-Only Adaptation，只訓練 shared projection layer，vision encoder 同 language backbone 都維持 frozen。到 inference 時就不再依賴 bbox，這點令部署比一些需要 detector 或額外 grounding loss 的做法簡潔。

以 ColPali-style multi-vector retrieval 為核心場景，重點是減 storage 與 scoring 成本
K=64 時可移除超過 93% image-side tokens，ColPali 儲存量下降 16.09×
在 Flickr30K 與 MSCOCO，README 與項目頁指出 R@1 有提升
相關模型權重包括 vidore/colpali-v1.3-hf，另有 Hugging Face 的 SaMer models 集合

測試與重現路線算清楚：資料要先準備 Flickr30k-Entities，之後訓練 adapter、建立 compressed retrieval cache，再做 inference。原始資料列出 Python 3.10+、CUDA-enabled PyTorch，以及單 GPU／多 GPU 腳本流程，但 evaluation 章節在提供內容中未完整展開，所以更細的 benchmark 設定與完整數字仍要以論文與項目頁為準。

這類做法最適合需要多向量圖文檢索、又在意記憶體與延遲的團隊，例如做 large-scale image retrieval、phrase-level grounding，或者要把 ColPali 類系統壓到較可部署規模的研究與工程項目。它的取捨亦很清晰：不是追求最少 token，而是用較低成本保留日後查詢仍有機會選中的視覺證據。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, NVIDIA, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

Page 4 of 12

« Previous 1 2 3 4 5 6 … 12 Next »