視覺模型 – Page 3

MedPMC 把醫學圖文資料做成可訓練基座

2026 年 7 月 14 日

Repository image for Yale-BIDS-Chen-Lab/MedPMC

做醫學多模態模型，最難往往不是再堆一個新架構，而是先整理到可用的圖文資料。MedPMC 屬於Dataset 數據集加模型訓練程式碼項目，核心價值是把 PubMed Central (PMC) 文獻中的醫學圖片與文字抽取、清理，再接上訓練與評估流程，處理的是醫學 vision-language 資源長期分散、難重現的問題。

目前最值得留意的是 MedPMC Dataset 首個版本，提供約 1,100 萬組 medical image-text pairs；同時亦有基於 MedPMC-11M 訓練的 MedPMC-CLIP。這種做法與不少只放模型權重、或只交出資料連結的項目不同，它把 dataset curation、preprocessing、model training、evaluation 放在同一個代碼庫，較適合研究團隊沿住同一條流程再做微調或重跑實驗。

部署與測試的理解方式很直接：資料集與模型都已放到 Hugging Face，現階段較像給研究者先下載資料、檢查抽樣品質、再接入自家訓練管線。README 未提供很完整的操作文件，dataset viewer 亦未必可直接預覽，所以短期內它比較偏向有 Python 與資料處理能力的團隊，而不是即開即用的線上服務。

約 1,100 萬組來自 PMC 的醫學圖文配對，是項目現時最重要資產
連同 MedPMC-CLIP 一併釋出，方便由資料走到模型驗證
重點不在花巧介面，而在可重現的資料整理與訓練流程
文件仍在補完中，benchmarks 與更多 training recipes 尚待發布

以現有資訊看，MedPMC 的強項是規模與研究流程整合，限制則是文件與基準結果仍未齊備，暫時較難單靠公開頁面判斷模型表現上限。對醫學 AI、視覺模型、RAG 前處理，或需要建立醫學圖文檢索基座的團隊來說，這個開源項目已有不錯參考價值；相關模型現時可確認的是 MedPMC-CLIP。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, Image, Medical醫學, Python, RAG, 多模態模型, 模型訓練, 視覺模型, Dataset 數據集

GenCeption 單一模型多種視覺任務

2026 年 7 月 14 日

做影像理解時，很多人最頭痛的不是單一任務做唔到，而是每做一種任務就要換一套模型。GenCeption 屬於通用視覺模型，目標是把深度估計、法線、相機姿態、分割、2D/3D 關鍵點甚至 4D grounding 放入同一個流程，並且用文字指令控制輸出。

它處理的核心問題，是電腦視覺長期依賴任務專用模型，工作流容易分散、訓練與部署成本亦高。GenCeption 的做法，是先用 video generative diffusion model 做預訓練，吸收空間與時間上的 world priors，以及原生的 vision-language alignment，再經過 multi-task post-training，把原本偏生成式、多步驟的骨幹，改造成單步 feed-forward 推理模型。

這種路線跟常見做法最大分別，在於它不是為每個任務各自砌一個模型，而是用單一、task-agnostic architecture 應付 dense 與 sparse vision tasks。資料上亦以 synthetic data 為主，重點放在學習效率、sim-to-real transfer，以及遇到 out-of-distribution 物件類別時的泛化能力。

支援多種視覺任務，包含 depth、surface normal、camera pose、segmentation、2D/3D keypoint prediction
透過文字指令切換任務，保持同一模型介面
把影片生成預訓練轉成 feed-forward 視覺推理，而不是停留在多步生成流程
官方描述指它在多個任務上可與專用 SOTA 模型競爭，對比對象包括 DepthAnything3、D4RT、VGGT-Ω、SAM3、Sapiens、DAVID

對研究多模態模型、通用機械視覺，或者想整合複數感知任務的人來說，GenCeption 值得留意。現時公開內容仍以研究展示為主，Code 亦標示為 TBA，所以較適合先理解方法方向與能力邊界，再觀察後續開源與可重現程度。

項目主頁

Categories: Google, Video, 3D, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型

Canvas360 把全景生成拉回可用水平

2026 年 7 月 10 日

最值得留意嘅地方，在於佢唔只想生成一張闊圖，而係想處理 360 度全景最常見嘅破綻：左右邊界接唔上、透視變形唔自然、補圖後空間結構散開。Canvas360 屬於影像生成框架，建基於 FLUX，處理嘅係 text-to-panorama image generation，同時延伸到 inpainting、outpainting、editing 同 style transfer 呢類全景工作流。

現有做法多數先把全景當成一般平面圖片生成，再靠後處理減少接縫；作者認為呢種範式忽略咗 panoramic projection 本身嘅幾何特性，所以容易喺邊界、深度關係同局部結構出現錯位。Canvas360 用 two-stage framework 重組呢件事：先做 geometry-aware pretraining，引入 parallel RGB-depth pretraining，再配合 continuous position encoding、circular latent padding 同 per-block feature synchronization，將 360 度連續性直接放入模型學習過程。

同類項目相比，Canvas360 嘅取向唔係單純追求更華麗嘅畫面，而係優先修正全景生成最影響可用性嘅一致性問題。項目亦補上 Canvas360Dataset，提供 1M paired panoramic samples，支援 style transfer、inpainting、outpainting 同 editing，反映作者唔止做單一模型改良，仲想連訓練資料結構一併補強。

核心定位係 FLUX-based framework，主打 text-to-panorama image generation 同全景補全
關鍵方法包括 geometry-aware pretraining、continuous position encoding、circular latent padding
已公開 inference code 同 training code，但 model weights 與 online demo 仍然未釋出
需要 base model black-forest-labs/FLUX.1-dev，並可配合自備 LoRA 跑生成或下游任務
相關比較對象包括 PanFusion、SMGD、PAR、WorldGen、HunyuanWorld、DiT360，以及 FLUX.1-Kontext-dev、FLUX.2-dev、Qwen-Image-Edit

測試同現階段較接近研究型項目而唔係即開即用服務。儲存庫已提供 inference.py 同 inference_downstream.py，代表你可以在本地環境配好 PyTorch、依賴套件、FLUX.1-dev 存取權同 LoRA 後，直接驗證文字生成全景，或者試全景補圖與延展；不過權重未公開，所以現時更適合研究團隊、全景影像工具開發者，或者想研究 360 度生成方法嘅人先行閱讀同跟進。現有介紹強調結果比多個舊方法更少接縫瑕疵、結構更清晰，但儲存庫內容未見完整量化指標表，判斷性能仍要等論文與權重進一步公開後先更穩陣。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, Stable Diffusion, Image, Python, 影像模型, 模型, 模型訓練, 視覺模型, 清華大學, 框架, Dataset 數據集

Video-Oasis 想重做影片理解評測

2026 年 7 月 10 日

高分未必代表模型真係睇得懂影片，呢個項目正正針對呢個落差。Video-Oasis 屬於資料集與評測項目，重點不是再加一份題庫，而是重新檢查現有 video benchmark 到底有幾多題目真的需要 visual grounding 與 temporal reasoning，避免模型只靠文字線索、單幀畫面或靜態背景就答中。

普遍做法是把不同影片問答 benchmark 直接合併比較，作者認為這種固定範式忽略了「是否真係需要影片」這個前提。Video-Oasis 先整理 14 個 benchmark、24,416 個 QA samples，再用共享的 visual 與 temporal criteria 審視題目，結果指出約 55% 樣本可被 non-video shortcuts 解開，之後再萃取出 11,033 個較具代表性的 Video-Native 挑戰。

它和同類 benchmark 最大分別，在於不是追求覆蓋更多題型，而是先清理評測污染。官方資料提到五類 video-native challenges 才是核心難點，而現時模型在這部分表現仍然偏弱，最佳模型 Gemini-2.5 Pro 只有 46.7%，接近 chance 25.63% 之上不遠，說明這套評測更能拉開「答得中」與「真理解」之間的差距。

涵蓋 14 個 benchmark，任務由 perception 延伸到 reasoning，片段長度由幾秒到數小時
以 shared visual and temporal criteria 重新審核題目，不是單純拼接舊 benchmark
約 55% QA samples 可用 non-video shortcuts 解答，真正 video-native 部分約佔 45%
評測流程建基於 lmms-eval，並支援透過 huggingface_hub 下載模型
README 已提供資料下載、影片修復與目錄整理方式，但完整程式碼仍標示為 coming soon

部署理解上，它較像一個研究型 benchmark workflow：你要先準備 Python 3.12、CUDA-compatible GPUs、torch、vllm 0.11.0 與 transformers 4.57.0，再下載各 benchmark 影片、用 ffmpeg 腳本修復損毀檔案，之後透過內建 lmms-eval 跑 vqa_total 或 v_oasis 任務。現階段較適合做模型評測、研究比較，或者幫團隊檢查自家 video model 是否只是在 benchmark 上「識考試」，未必適合作為即裝即用的應用工具。

項目預設支援可由 huggingface_hub 下載的模型，示例提到 Eagle2.5-8B；成績說明中則點名 Gemini-2.5 Pro 為目前最佳表現者。整體來看，Video-Oasis 最有價值的地方不是再造一個排行榜，而是把影片理解評測裡最容易被忽略的捷徑問題公開化，令後續模型比較更可信。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, NVIDIA, Video, AI productions, Python, 視覺模型, 視頻模型, Dataset 數據集

Vidu S1 把即時互動影片拉近一步

2026 年 7 月 10 日

比起先寫好提示詞再等片段輸出，Vidu S1更接近一種可對話的視頻模型：你一邊講，數碼角色一邊跟住反應，處理的是「影片生成能否即時被人打斷、改向、持續延長」這個卡位。項目把重心放在 voice-controlled digital characters，而不是一次過產出完整短片，定位很清楚是互動內容而非傳統文生影片。

現有做法多數仍是 prompt-driven、片段式生成，用戶先提交指令，再等待固定長度輸出；作者主張這種範式難以支援 live interaction。Vidu S1改用 real-time speech control 與 infinite-length real-time interactive generation，讓角色在生成途中持續接受 spoken instructions，方向上更接近直播角色、虛擬主播和即時陪伴互動，而不是 cinematic clip 製作。

支援以語音即時控制角色動作，重點在連續互動而非單次出片
可自訂角色形象與 voice tones，涵蓋真人、二次元、寵物等 avatar
官方資料提到 540p、最高 42 FPS，並可在 consumer GPUs 運行
除了網頁體驗，也提供 API 文件，較適合接入互動產品流程

現有公開資訊較偏向服務化體驗：可先在 Vidu Stream 網頁建立角色、選擇或 clone 聲線，再開啟麥克風與鏡頭進行 live call；團隊要接入自家產品，則更可能經 API 而非直接本地完整重建。GitHub 儲存庫目前公開了論文、說明文件與入口，但未見完整本地訓練或推理流程，較像展示能力與提供接入方式的研究／產品型開源項目。

取捨也很明顯：它強調流暢、低延遲、可長時間互動，代表優先次序未必是最高解析度或最複雜鏡頭語言。受益最大的會是做虛擬主播、互動陪伴、角色扮演、品牌數字人和即時內容演示的團隊；要做電影感分鏡、長敘事剪輯或高度後期控制，現階段未必是它最強的一面。相關模型則包括 Vidu S1 本身，以及同一服務脈絡下的 Vidu Stream 互動入口。

項目主頁 · GitHub · Paper

Categories: 開源, API, Clone, 多模態模型, 數字人, 視覺模型, 視頻模型, 語音, 清華大學, Dataset 數據集

OpenCoF 用影片學會推理

2026 年 7 月 10 日

文字 Chain-of-Thought (CoT) 之外，OpenCoF 把推理搬到影片時間軸上，主打 Chain-of-Frame (CoF) reasoning：模型不是靠外部工具拆步驟，而是在連續生成的畫面裡理解因果、規則同狀態變化。這屬於一個研究型框架，核心想處理的問題，是現有影片生成模型多數只見過一般影片資料，未必學到穩定的時序推理能力。

作者對既有做法的批評很明確：以往影片模型通常用通用影片語料訓練，缺少專門針對 CoF reasoning 的監督，因此即使畫面能動起來，都未必真係「識推」。OpenCoF 於是補上兩層東西：先有 OpenCoF-17K 這個包含 17,312 段影片、覆蓋 11 類任務的資料集，再用它把 Wan2.2-I2V-A14B 經 LoRA 微調成 Wan-CoF，之後再加上 Visual Reasoning Tokens (vt) 與 Textual Reasoning Tokens (tt) 兩種設計。

OpenCoF 先用資料監督驗證影片推理能否被教出來，再用 token 設計補強中間推理狀態，而不是一開始就堆很多複雜推理機制。公開資訊顯示，Wan-CoF 單靠資料監督，已經在 MME-CoF、Gen-ViRe、VIPER、RULER-Bench 四個外部 benchmark 全面勝過基線；Wan-CoF vt 與 Wan-CoF tt 則再向前一步，但兩者偏重不同，vt 較擅長低階視覺線索，tt 較著重高階語意先驗。

OpenCoF-17K 由四條資料整理流程建成，兼顧規則型任務、程序生成場景與真實影片多樣性
Wan-CoF 以 Wan2.2-I2V-A14B 為底，靠 LoRA 微調驗證資料本身已可提升推理表現
Wan-CoF vt / Wan-CoF tt 分別從視覺 latent 與文字條件序列加入 reasoning tokens，走兩條互補路線
評測覆蓋 MME-CoF、Gen-ViRe、VIPER、RULER-Bench，結果指向同一件事：時序監督對影片推理有明顯幫助

OpenCoF 適合研究團隊、做視覺推理評測的人，或者關注 Video reasoning 與 Video generation 交界的開發者參考：儲存庫已公開論文與方法框架，但 code、dataset 同 model checkpoints 仍在內部審核，暫時未能直接下載測試；現時較合理的理解方式，是先把 OpenCoF 視為一個針對 CoF reasoning 的資料與訓練範式，等正式釋出後再判斷重現成本與落地價值。

項目主頁 · GitHub · Paper

Categories: 開源, 香港中文大學, 字節跳動, Video, 多模態模型, 視覺模型, 視頻模型, 蘋果, Dataset 數據集

CrossViewTokenFusion：乳房 X 光雙視角分類新路線

2026 年 7 月 10 日

Repository image for PartAI-Projects/CrossViewTokenFusion

臨床判讀乳房 X 光唔會只望單一角度，但不少多視角方法仍然偏向把特徵提早合併，或者只做一次 cross-attention，結果容易把 view-specific 線索同共享資訊混埋。CrossViewTokenFusion 屬於醫學影像分類模型／研究原型，針對 dual-view mammography classification，重點係讓 CC 與 MLO 兩個視角以 token 為單位逐步交換資訊，而唔係一開始就粗略融合。

項目建基於 frozen MedSigLIP vision model，採用兩階段流程：先做 deep prompt learning 適配，再做 cross-view token-based fusion。作者批評既有 multi-view learning 常見的 feature-level aggregation 同 single-stage cross-attention 互動太淺，於是改用 dedicated fusion tokens 作為中介，透過 cross-attention 在多個 transformer 深度反覆傳遞雙向訊息，之後再把 fusion tokens 放回 token sequence 繼續細化。

部署要求先準備 VinDr-Mammo 或 CMMD（Chinese Mammography Database），再做 preprocessing、stage 1 訓練、stage 2 訓練，最後載入 checkpoint 測試。

它比較適合做醫學影像研究、醫療 AI 團隊驗證多視角融合設計，未見到直接面向臨床系統的封裝介面。

舊範式多數用 feature-level aggregation 或單層 fusion；這個項目改為 multi-depth token 互動
以 frozen vision transformer backbone 配合 prompt learning，取向係少改主幹、多做適配
公開資料集包括 VinDr-Mammo 同 CMMD，方便學術重現與橫向比較
VinDr-Mammo BI-RADS classification 達到 50.40% F1-score、0.8090 AUC
相比 dual-view fusion baseline，二分類設定下 AUC 提升 0.10

它的價值係重新定義雙視角點樣溝通：保留各自結構，再用 fusion tokens 逐層傳遞互補證據。

GitHub · Paper

Categories: 開源, Medical醫學, 多模態模型, 模型, 模型訓練, 視覺模型

LingBot-Video 想做懂物理的生成影片

2026 年 7 月 10 日

生成影片要做到「似真」，唔只係畫面靚，仲要交代到動作、物件同物理世界之間嘅關係。LingBot-Video屬於開源視頻模型，主打 embodied intelligence，想補足一般 T2V 只重視視覺效果、但對任務過程同物理合理性掌握較弱呢個缺口。

呢個項目的取向幾清楚：唔係單純追求更大參數，而係用 MoE（Mixture-of-Experts）架構去平衡容量同推理成本，官方說法指推理可快約 3 倍。訓練資料亦唔只靠網絡影片，仲加入超過 70,000 小時 embodied data，再配合 multi reward system，同時兼顧美感、physical rationality 同 task completion。

部署理解上，它已提供完整模型下載入口，同時覆蓋 Hugging Face、ModelScope 以及文件站；推理路線分成 diffusers 同 SGLang Diffusion，代表團隊唔只放權重，亦有考慮不同推理堆疊。README 亦列出 rewriter，當中包括以 Qwen3.6-27B 為基礎嘅版本，以及 Qwen3.6-27B LoRA adapter，表示提示詞改寫都係整個工作流一部分。

提供 LingBot-Video-Dense 同 LingBot-Video-MoE，前者較像基線路線，後者加入 Refiner
任務覆蓋 T2I、T2V、TI2V，唔只限純文字轉影片
以 embodied data 同多重獎勵機制強化動作合理性
有文件、模型頁同技術報告，較適合研究團隊同進階內容生成流程測試

受益最大嘅，會係想做機械人模擬、具身智能研究、動作導向影片生成，或者需要比較「任務是否完成」而唔只係「畫面是否好睇」嘅團隊。現有資訊未見到完整基準分數整理，所以性能判斷暫時仍要配合官方技術報告同實測；不過以開源定位、MoE 架構、Refiner 同 rewriter 一併公開嚟睇，LingBot-Video明顯係朝住較完整嘅研究與部署鏈路去設計。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Video, 多模態模型, 視覺模型, 視頻模型

Rank-Then-Act 點樣用影片學出獎勵

2026 年 7 月 9 日

做強化學習最麻煩的地方，往往不是訓練本身，而是根本冇一個好用的 reward function。Rank-Then-Act 針對的正正是這個缺口：它屬於一個以 Vision-Language Model (VLM) 為核心的強化學習框架，目標是在沒有環境獎勵的情況下，從示範影片推回任務進度，再把這種進度感變成 agent 可學習的 dense reward。

同類方法很多時會直接學一個 scalar reward，或者預測成功與否，但作者刻意避開這條路。RTA 先用 GRPO 微調 VLM，要求模型在打亂次序的畫面序列中估計 task-completion 百分比與排序，再用 VOC 這個 rank-correlation reward 去約束模型真的理解時間進展，而不是偷看絕對時間線索；之後在第二階段，系統不是直接輸出分數當 reward，而是用 Spearman rank correlation 比較預測進度排序與真實時間索引，得到一個 bounded、scale-invariant 的學習訊號。

這種取向的好處，是 reward 較不容易因尺度漂移而失真，亦較有機會跨任務重用同一個 progress scorer。現有資料指出，它在離散環境如 PyBoy 上的 Catrap、Kirby，以及連續控制環境如 MetaWorld、PointMaze 都有不錯表現，對 unseen tasks 亦有泛化能力；不過這仍然是研究型項目，重點在方法驗證，未算是即裝即用的成品工具。

重點不是直接預測分數，而是先學會判斷畫面進度排序
第一階段用 GRPO 訓練 VLM，第二階段用 PPO 訓練策略
reward 來自 VOC 與 Spearman rank correlation，訊號範圍固定在可控區間
已覆蓋 Game Boy 模擬器 PyBoy 與 MetaWorld 這類不同控制場景
需要 Python 3.10+、CUDA GPU，第二階段還要 xvfb、ROM 與 save state

理解和測試這個項目，最合理的方式不是把它當普通套件安裝，而是當成兩階段實驗流程來看：先在 stage1 用 gameplay videos 訓練 progress scorer，再到 stage2 把該模型凍結成 reward model，放進 PPO 訓練流程。儲存庫已把資料處理、Hydra 設定、多 GPU 配置、PyBoy 包裝器與 VOC 計算分開整理好，適合研究團隊、做 video-based RL 的人，或者想比較 ordinal reward 與 scalar reward 差異的讀者深入追蹤。

項目主頁 · GitHub · Paper

Categories: 開源, NVIDIA, Agentic, Video, Python, 多模態模型, 模型訓練, 視覺模型

3D HAMSTER 把機械臂規劃帶進真 3D

2026 年 7 月 8 日

3D HAMSTER architecture: a depth-augmented VLM planner produces metric 3D waypoints that unproject into the point cloud

機械臂最怕規劃講得通，落到控制層卻對唔準空間位置。3D HAMSTER屬於 Vision-Language-Action 規劃模型／機械人研究項目，重點不是再產生螢幕上的 2D waypoint，而是根據單張 RGB 圖、metric depth map 同文字指令，直接輸出帶有深度的 3D end-effector trajectory，同時附上 gripper actions，格式亦整理成 JSON，方便接去後續控制流程。

它針對的矛盾很明確：不少 hierarchical Vision-Language-Action models 由高層 planner 先預測 2D 像素軌跡，再交給吃 point cloud 的低層 policy 執行。問題在於 2D waypoint 只會「借用」像素下方表面的深度，幾何上未必真是機械臂應走的位置。3D HAMSTER改成在 metric 3D 空間規劃，等高層輸出可以直接對接 point-cloud low-level policy，少了中間 2D 轉 3D 的失真。

模型骨幹用的是 Qwen3-VL-8B，再加上凍結的 LingBot-Depth geometry encoder，當中採用 DINOv2 ViT-L/14，並配合 dense depth-reconstruction objective 去強化深度感知。儲存庫目前提供的是 inference-only 版本，即是你可以安裝套件、下載 checkpoint 後直接跑推理或用 Gradio demo 測試；低層 point-cloud policy 屬於論文完整系統一部分，這個 GitHub 項目未有一併放出。

直接輸出 [u, v, depth] waypoint，深度單位是米，較易接入真實機械臂流程
走 RGB-D + language instruction 路線，不靠多視角觀察
checkpoint 已包含 geometry encoder 權重，載入時毋須再額外抓模型
項目偏向展示 planner 能力，不等於完整可部署的機械人控制堆疊

，它的定位很適合做研究驗證、機械操作規劃比較，或者拿來觀察 2D planner 與 3D planner 在幾何一致性上的差異。作者在項目頁面強調這種做法對語言、空間與視覺分佈轉移更穩健，但這個儲存庫未有完整公開訓練流程與低層控制模組，所以較適合把它理解為一個清楚展示方向的 3D-native planner，而不是即裝即用的全套機械人方案。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, 3D, 多模態模型, 視覺模型, Robotic, VLA, Dataset 數據集

Page 3 of 16

« Previous 1 2 3 4 5 … 16 Next »