視覺模型 – Page 4

SIEVE 點樣揀出更值錢的機械人示範數據

2026 年 7 月 8 日

機械人示範資料最常見的問題，不是數量不夠，而是重複、嘈雜，甚至長段任務其實只是不斷重演相似動作。SIEVE 屬於一個面向 imitation learning 的資料篩選工具，同時帶有研究方法性質，重點不是逐條 trajectory 粗略評分，也不是只看 state-action，而是把長任務拆成可重用的 visuo-motor primitives 與 transition interfaces，再決定哪些 episode 更值得留下來訓練 VLA 模型。

它批評的舊範式相當明確：現有 data selection 方法多數只在 trajectory level 或 state-action level 做判斷，因而忽略長時序行為內部可重用的結構。SIEVE 的做法是先用 end-effector pose 與控制訊號做 segmentation，再抽取 V-JEPA 特徵、用 PCA 壓到預設 256 維、以 MiniBatchKMeans 找出 primitive pattern，之後按 cluster-sequence pattern 做兩階段 episode selection，最後可以匯出回 LeRobot 格式，方便直接接回原本訓練流程。

這種取向的好處，在於它不是單純挑「最好」或「最乾淨」的示範，而是優先保留結構覆蓋度與可重用性。論文提供的訊息亦相當直接：SIEVE 在多個 datasets、benchmarks 與 VLA models 上，都比競爭性的 baseline 更穩定，甚至在只用 50% demonstrations 和 50% training steps 的情況下，表現可以超過 full-data training。當然，這也代表它較適合已有一定規模示範資料、並且願意先跑一輪離線整理流程的團隊，而不是追求即插即用的小型腳本。

以 LeRobot v2 資料根目錄作輸入，支援單一或多個 dataset
流程由 segmentation、feature extraction、dimensionality reduction、clustering、selection 組成
特徵抽取依賴 V-JEPA，輸出中間結果到 Zarr，再匯出選中的 LeRobot episodes
核心差異是按 reusable structure 揀數據，不是只按整條 trajectory 或逐步 state-action 打分

部署理解上，這個項目更像一條可重複執行的離線資料處理 pipeline，而不是一個直接提供推理服務的套件。適合用來整理大型 robot demonstration corpus、為 VLA imitation learning 減少冗餘訓練樣本；相關模型與技術脈絡包括 Vision-Language-Action (VLA) models、V-JEPA，以及輸出端相容的 LeRobot。

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 中國, VLA, Dataset 數據集

SaMer 壓縮視覺檢索成本

2026 年 7 月 8 日

圖文檢索做得細緻，往往要保留大量 image-side tokens，但儲存與比對成本也會跟住升。SaMer屬於開源框架／研究原型，針對 ColPali-style multi-vector retrievers 的 token 壓縮問題而來，重點不是單純刪減，而是盡量保住之後查詢仍可能用得着的 object-level evidence。

現有壓縮做法多數偏向 pruning、pooling，或者只按 feature 合併，代價是物件與區域證據容易被混在一起，令 MaxSim late interaction 原本可選取的細節訊號流失。SaMer的取向明確：保留原本 MaxSim retrieval objective，不改 late-interaction 介面，只在 image side 做 object-aware merge，修正「壓縮後證據變鈍」這個問題。

它的方法有三個關鍵步驟：先用 feature similarity 加 spatial proximity 做 Feature-Spatial Merging，再在訓練階段利用 Flickr30k-Entities 的框標註加入 Object-Aware Assignment，避免不同實例被錯誤合併，最後採用 Projection-Only Adaptation，只訓練 shared projection layer，vision encoder 同 language backbone 都維持 frozen。到 inference 時就不再依賴 bbox，這點令部署比一些需要 detector 或額外 grounding loss 的做法簡潔。

以 ColPali-style multi-vector retrieval 為核心場景，重點是減 storage 與 scoring 成本
K=64 時可移除超過 93% image-side tokens，ColPali 儲存量下降 16.09×
在 Flickr30K 與 MSCOCO，README 與項目頁指出 R@1 有提升
相關模型權重包括 vidore/colpali-v1.3-hf，另有 Hugging Face 的 SaMer models 集合

測試與重現路線算清楚：資料要先準備 Flickr30k-Entities，之後訓練 adapter、建立 compressed retrieval cache，再做 inference。原始資料列出 Python 3.10+、CUDA-enabled PyTorch，以及單 GPU／多 GPU 腳本流程，但 evaluation 章節在提供內容中未完整展開，所以更細的 benchmark 設定與完整數字仍要以論文與項目頁為準。

這類做法最適合需要多向量圖文檢索、又在意記憶體與延遲的團隊，例如做 large-scale image retrieval、phrase-level grounding，或者要把 ColPali 類系統壓到較可部署規模的研究與工程項目。它的取捨亦很清晰：不是追求最少 token，而是用較低成本保留日後查詢仍有機會選中的視覺證據。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, NVIDIA, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

InternVLA-A1.5：機械人策略一體化新路線

2026 年 7 月 8 日

機械人操作最麻煩的地方，往往不是單純辨認畫面，而是要同時理解指令、估計接下來會發生什麼，再穩定地做出連續動作。InternVLA-A1.5屬於開源框架兼機械人政策模型，焦點放在把 vision-language understanding、latent visual foresight 與 action generation 合併，減少多模組串接帶來的延遲與協調成本。

它的取向很清楚：不少做法會把感知、未來預測、控制分開訓練或分開部署，InternVLA-A1.5則把 foresight 放進同一條政策路徑，在訓練期間借助凍結的 WAN2.2-5B video generation model 提供未來動態監督，但推理時丟棄 video branch，只保留動作預測。這個設計的好處是保住「先想一步」的能力，同時避免部署到真實機械人時推理太重。

模型骨幹建基於 Qwen3.5-2B VLM，透過 shared full-attention layers 接上一個輕量 unified action expert，並保留 modality-specific Gated DeltaNet processing；動作輸出則用 flow matching 預測 continuous action chunks。README 亦提到它可用於部署、數據收集和評估真實機器人上訓練有素的操作策略，但公開資訊較集中在模型與 benchmark，具體安裝流程與真機部署步驟未見完整展開。

舊路線常把理解、預測、控制拆開，這個項目改為單一 policy 統一處理
訓練用 WAN2.2-5B 學未來動態，推理時移除相關分支，換取較實際延遲
已在 LeRobot V2.1 dataset 微調，亦結合大規模機械人與多模態資料
基準成績突出：RoboTwin 2.0 為 93.2，LIBERO 為 98.9，LIBERO-Plus 為 84.8
可取得的相關模型包括 InternVLA-A1.5-base、InternVLA-A1.5-RoboTwin、InternVLA-A1.5-Libero

從定位來看，它較適合想把研究原型推近真機驗證的團隊，尤其是同時重視語言理解、視覺泛化與操作成功率的人。現階段最值得留意的，不只是分數高，而是它示範了一種更接近完整機械人工作流的整合方式；限制則是公開說明仍偏研究導向，真正落地前仍需自行補足部署細節與硬件整合資訊。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, Video, 多模態模型, 視覺模型, 視頻模型, Robotic, VLA, 上海人工智慧實驗室, Dataset 數據集

Google Flow Storyboard 教學

2026 年 7 月 7 日

Google Flow Storyboard: Full Video From Script (100% FREE)

Categories: Google, Video, 多模態模型, 影像處理, 教學, 視覺模型, 視頻模型

VLA-Corrector 補救機械人動作失誤

2026 年 7 月 7 日

VLA-Corrector 是一個面向 Vision-Language-Action（VLA）政策的輕量推理框架。它用來處理由 action chunking 帶來的開環盲點：環境已經變了，機械人卻仍照住排隊中的舊動作繼續做。

它的做法不是改寫整個 VLA 模型，而是把 backbone 凍結，再外掛一個 latent dynamics corrector。系統先用 Latent-space Vision Monitor（LVM）監察預測中的視覺特徵變化，當觀察到的畫面持續偏離預測，就會截斷過時動作，並透過 Online Gradient Guidance（OGG）重新規劃下一步。

這種取向與每一步都重算一次動作的 closed-loop 方法不同，重點是保留長 action horizon 的效率，同時在偏差累積時才介入。代價是它依賴 latent mismatch 偵測是否可靠，較像在效率與反應速度之間取平衡，而不是追求全程最敏捷控制。

項目定位：屬於機械人控制推理框架，針對 action-chunked VLA policies 的修正與重規劃。
部署理解：現有資訊顯示它應接在既有 VLA policy 後面運作，較像推理期增強模組，不是獨立基礎模型。
適合場景：接觸密集 manipulation、抽屜對位、抓放物件這類容易受干擾的任務較能受益。
核心組件：Latent-space Vision Monitor（LVM）負責偵測偏差，Online Gradient Guidance（OGG）負責觸發後的修正重規劃。

公開資料提到 real-robot demonstrations，例如抽屜對位與把積木放入不同碗中，並展示人在執行途中施加干擾後的恢復能力。不過 README 片段未列出完整數字指標、安裝步驟或支援哪些 VLA backbone，因此較合理的理解是：這是一個研究原型，已清楚展示方法與效果，但整合到不同機械人堆疊前，仍需自行確認相容性與評測流程。

項目主頁 · GitHub

Categories: 開源, 阿里巴巴, 多模態模型, 模型, 視覺模型, Robotic, VLA

LiveEdit：串流影片編輯走向即時化

2026 年 7 月 5 日

LiveEdit 是一個 diffusion-based streaming video editing 系統，屬於影片編輯模型與方法項目。它的核心任務是根據來源影片加上文字指令，逐段完成 causal chunk-by-chunk editing，並盡量保留背景與沒有修改的區域。

這個項目不是追求離線影片慢慢算到最靚，而是針對接近即時的串流編輯。它建基於 Wan2.1 和 Self-Forcing codebase，並用 three-stage distillation，把雙向編輯 teacher 的能力轉移到串流 student，再配合 AR-oriented Mask Cache 減少重複運算，換來較低延遲。

部署與測試資訊算是完整，提供 inference scripts、training code、checkpoint instructions，也講明建議在 Linux 配合 NVIDIA GPUs 執行；單 GPU 可做 inference，多 GPU torchrun 主要用於訓練。輸入方式是準備一個 JSON，填入 source video 路徑和 instruction，然後配合已釋出的權重與 Wan2.1 base model 進行推理。

有一個相當關鍵的參考值：項目頁列出 12.66 FPS，並表示透過 4-step distilled diffusion generation 達成 real-time streaming inference。這個成績對互動式影片編輯很重要，不過公開資訊未見更完整的硬件條件、顯存需求或不同解析度下的比較，因此判斷效能時仍要保留一點。

重點不是一般文字生片，而是保留原片內容的串流影片編輯
主要技術包括 three-stage distillation、Causal DiT、AR-oriented Mask Cache
已公開 inference 與 training 程式碼，也提供 Hugging Face checkpoint 指引
已知較適合 Linux、NVIDIA GPU 環境，研究團隊或影像生成工程師較易受益
相關模型與基礎包括 Wan2.1-T2V-1.3B、bidirectional editing teacher、streaming student

整體來看，LiveEdit 的價值在於把 streaming video editing 做得更接近可互動系統，而不只是展示級效果。它較適合研究即時影片編輯、互動內容製作、直播視覺處理或需要低延遲生成的團隊；一般用家若想直接在圖形介面一鍵開用，現有資料未提供管理後台整合、免手動設定流程，仍然比較像面向研究與開發者的項目。

項目主頁 · GitHub · 模型

Categories: 開源, 香港科技大學, NVIDIA, Video, Linux, 模型, 視覺模型, 視頻模型, 蘋果, 框架

TAP：先學動作，再學指令的 VLA 路線

2026 年 7 月 3 日

TAP(Task-Agnostic-Pretrain) 是一個 Vision-Language-Action（VLA）模型訓練框架，屬於研究原型兼訓練方法。它要處理的核心問題，是 VLA 長期依賴大量 expert demonstrations，導致機械操作能力難以用較低成本擴展。

現有做法多數直接把「how to move」與「what to do」一齊學，通常需要 observation、instruction、action 這類完整示範資料；作者認為這種固定範式混淆了 physical competence 與 semantic alignment 兩個目標，結果是語言標註被過度用喺本來可以自我監督學習的動作能力上。Task-Agnostic Pretraining（TAP）因此改成兩階段：先用無標註互動資料透過 self-supervised Inverse Dynamics 學 transferable motor priors，再用少量 expert demonstrations 做 task-specific alignment。

這種取向同標準 behavior cloning、以大量網路或專家軌跡堆出來的 VLA 路線唔同。TAP 的取捨很明確：它未必追求一次過把語義和動作全學齊，而是先把可遷移的「點樣郁」拆出來，換來更低標註成本，同時提高對背景、視角變化的穩定度；代價是整個方法仍然要靠第二階段示範去把語言指令對齊到具體任務。

項目已經交代了測試方式：這不是即裝即用應用程式，而是要跟住論文設定，載入 HuggingFace 提供的模型，重現兩階段訓練，再用 SIMPLER benchmark 與真實 WidowX-250s 場景驗證。數字上，TAP-20k 在 SIMPLER 的 Avg-All 為 33.32%，高過 Standard BC 的 23.15%；真實環境中只用 200 個 expert demos，面對 background texture shift 仍有 45% success，viewpoint variation 亦有 20%，而部分 baseline 會跌到 0%。

用 self-supervised Inverse Dynamics 先學動作先驗，減少對語言標註依賴
以約 30 小時 autonomous play 加少量 expert demonstrations，對比 1M+ expert trajectories 路線更慳資料
在 SIMPLER benchmark 勝過 Standard BC，接近或超過部分現有 VLA 模型
對 visual distractors、background texture shift、viewpoint variation 的抗干擾能力較強
相關模型包括 RT-1-X、OpenVLA、Nora、Octo，以及 README 提到的 TAP-20k

項目較適合做 Embodied AI、robot learning、VLA 訓練流程研究的團隊參考，尤其係想用學術規模算力驗證新訓練路線的人。它現階段更像一套值得跟進的方法論，而唔係面向一般用戶的完成品工具。

項目主頁 · GitHub · Paper

Categories: 開源, Clone, 多模態模型, 模型, 教學, 模型訓練, 視覺模型, Robotic, Dataset 數據集, VLA

discrete_diffusion_RRG：離散擴散模型點樣寫胸肺 X 光報告

2026 年 7 月 3 日

Repository image for mxvp/discrete_diffusion_RRG

這是一個醫學影像語言模型微調與評測項目，核心是把 image-conditioned discrete-diffusion language model 與 autoregressive baseline 放在同一家族骨幹下直接比較。它主要處理 chest X-ray VQA 與放射報告補全，目標不是單純生成文字，而是讓模型根據 X 光影像回答問題，或在已知部分句子的情況下補寫其餘內容。

項目的設計重點在於控制變因：DiffusionGemma 與 Gemma-4-26B 使用相近的 backbone family、vision tower、資料與 LoRA 配方，令比較更集中於生成方式本身。diffusion 路線把報告當成可逐步去噪的 decoder canvas，autoregressive 則沿用 next-token 順序生成；前者的優勢是可以做 any-order infill，用雙向脈絡補空位，後者則較接近現時多數 VLM 的常見做法。

部署與測試門檻不算低。模型權重透過 Hugging Face IDs 載入，設定檔要接駁本地 JSON 資料索引；倉庫也提供 synthetic: {n: 16} 這種小型 smoke test，適合先確認流程有沒有跑通。硬件要求比較明確，diffusion backbone 需要支援 bf16 的 GPU，而且記憶體大約要 80 GB，這已經把它定位成研究團隊或具備高階 GPU 環境的醫療 AI 項目。

效能表現有幾個值得留意的點。支援內容提到 Discrete Diffusion Language Models 在醫療 VQA 上可追平，甚至略勝同系 autoregression，解碼速度亦可達 3.5 至 4.4 倍；不過目前較完整的準確度重心仍放在 VQA，而報告生成部分主要展示互動式 infill 能力，未算是完整臨床報告生成系統。語義評分還可接 LLM judge，但這部分需要額外 API 金鑰，也表示結果解讀仍有一定研究性質。

類型上，它較接近研究原型加評測程式碼，不是即裝即用的臨床軟件。
主要資料來源包括 VQA-RAD、SLAKE、VQA-Med 與 MIMIC-CXR。
相關模型包括 DiffusionGemma-26B、Gemma-4-26B，並以 LoRA 方式微調。
any-order infill 是最有辨識度的能力，適合先固定部分報告內容，再由模型補全其餘位置。
適合需要比較生成範式、研究 radiology report drafting，或想驗證 discrete diffusion 在醫療場景表現的團隊。

項目主頁 · GitHub · 模型

Categories: 開源, Google, Gemini, API, Image, Medical醫學, 視覺模型, Dataset 數據集

AnyGroundBench 點出影片定位模型盲點

2026 年 7 月 3 日

Repository image for rinost081/AnyGroundBench

AnyGroundBench 是一個影片 grounding benchmark，也是面向專業領域的資料集與評測基準。它主要用來測試 Vision-Language Models（VLMs）在 animal、industry、sports、surgery、public security 幾類場景中，能否把文字描述準確對應到影片中的時間、位置，以及時空同時發生的事件。

現有做法多數停留在 general、daily-life benchmark 的 zero-shot 測試，重點是看模型有沒有通用理解力；作者認為這種範式無法反映專門場景，因為稀有視覺概念、複雜動作關係與領域術語，通常不會在通用資料裡被充分學到。AnyGroundBench 因而把評測重心轉去 domain adaptation，並加入 dedicated training subsets，令測試不再只問模型「有沒有見過」，而是進一步量度它「能不能適應新領域」。

這個項目的差異，在於它把 temporal、spatial、spatio-temporal annotations 用統一方式整理，並混合 newly captured videos 與 existing datasets。資料來源涵蓋 mouse、american_football、Animal-Kingdom、MECCANO、EgoSurgery 等，覆蓋面比單一領域 benchmark 廣，亦更接近研究團隊、產業分析、醫療影像研究與安全監測場景會遇到的資料分佈。

項目提供 Hugging Face dataset、project page：這不是即插即用應用程式，而是供研究與模型比較的 benchmark。部署重點不是介面安裝，而是按 domain 讀取整理後的資料，然後以 STVG、TVG、SVG 三類任務跑推理與評分；指標分別用 vIoU@0.3、tIoU@0.3、sIoU@0.3。

類型屬於 benchmark / 資料集，目的是測量 VLMs 的 specialized-domain video grounding 能力
舊範式以 zero-shot general benchmark 為主，新設計改為檢查 domain adaptation 與 In-Context Learning（ICL）是否真的有效
評測涵蓋 temporal、spatial、spatio-temporal 三層，較容易看出模型究竟是看錯時間、找錯位置，還是兩邊都失準
已評測 15 個 state-of-the-art VLMs，結果指出現有模型在 specialized domains 的 zero-shot 與 ICL 表現都不穩定

建議模型包括 GPT-4o、GPT-5.1、Gemini-2.5-Flash 等 proprietary VLMs；現有結果顯示，加入 2-shot ICL 雖然在部分 domain 有改善，但整體仍未解決 specialized-domain spatio-temporal reasoning 的缺口。對研究 VLM evaluation、video grounding、視覺模型遷移能力的團隊來說，這個項目最有價值的地方，是它把「通用測試看似可用」與「專業場景仍然失手」之間的差距量化出來。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Gemini, NVIDIA, OpenAI, Video, 多模態模型, 安全, 模型訓練, 視覺模型, Dataset 數據集

ABot-M0 用 600 萬軌跡訓練機械人操作

2026 年 7 月 3 日

這是一個面向機械人操作的 Vision-Language-Action（VLA）foundation model，名為 ABot-M0。它主要用來讓機械人根據視覺與指令完成操作任務，並處理資料分散、動作表示不一致，以及控制模型訓練效率偏低的問題。

ABot-M0 的基礎來自 UniACT-dataset。這個資料集整合 6 個公開資料來源，包含 OXE、OXE-AugE 與 AgiBot-Beta，合共超過 600 萬條 trajectories、9,500 小時以上互動資料，並覆蓋 20 多種機械人形態；資料亦經過清理、標準化與統一，將動作轉成 end-effector 座標系中的 delta actions，旋轉則採用較穩定的 rotation vector 表示。

它和常見 diffusion 式控制方法的主要差異，在於採用 Action Manifold Learning（AML）。一般 diffusion model 多數學習預測 noise，ABot-M0 則直接做 Direct Action Prediction（a-prediction），輸出乾淨的動作序列；這種做法把學習重點由「擬合噪聲」轉成「投影到可行動作流形」，理論上更有效率，也更有助提升解碼速度與 policy stability。

另一個實用方向是模組化 3D perception。ABot-M0 支援 plug-and-play 模組去加強 3D 空間理解，對涉及精準位置、姿態與複雜操作步驟的任務會更有幫助；同時，它亦用「pad-to-dual」策略統一 single-arm 與 dual-arm 任務，令同一模型可覆蓋更廣的操作場景。

整合超過 600 萬條 trajectories，資料規模相當大
以 UniACT-dataset 統一不同來源與不同機械人表示方式
採用 Action Manifold Learning（AML），直接預測動作而非噪聲
支援 plug-and-play 3D perception 模組，提升複雜任務精度
適合關注 robotic manipulation、VLA 與通用機械人控制的讀者

現有資料重點放在方法設計與資料規模，具體基準分數與完整比較結果在這份內容中未完全展開。即使如此，ABot-M0 已清楚展示一條很具代表性的路線：先用大規模統一資料打底，再用更貼近可行動作結構的學習方式，提升機械人操作模型的泛化與穩定性。

項目主頁

Categories: 開源, 3D, 多模態模型, 模型, 視覺模型, Robotic, VLA, Dataset 數據集

Page 4 of 16

« Previous 1 2 3 4 5 6 … 16 Next »