InferNews

SIEVE 點樣揀出更值錢的機械人示範數據

2026 年 7 月 8 日

機械人示範資料最常見的問題，不是數量不夠，而是重複、嘈雜，甚至長段任務其實只是不斷重演相似動作。SIEVE 屬於一個面向 imitation learning 的資料篩選工具，同時帶有研究方法性質，重點不是逐條 trajectory 粗略評分，也不是只看 state-action，而是把長任務拆成可重用的 visuo-motor primitives 與 transition interfaces，再決定哪些 episode 更值得留下來訓練 VLA 模型。

它批評的舊範式相當明確：現有 data selection 方法多數只在 trajectory level 或 state-action level 做判斷，因而忽略長時序行為內部可重用的結構。SIEVE 的做法是先用 end-effector pose 與控制訊號做 segmentation，再抽取 V-JEPA 特徵、用 PCA 壓到預設 256 維、以 MiniBatchKMeans 找出 primitive pattern，之後按 cluster-sequence pattern 做兩階段 episode selection，最後可以匯出回 LeRobot 格式，方便直接接回原本訓練流程。

這種取向的好處，在於它不是單純挑「最好」或「最乾淨」的示範，而是優先保留結構覆蓋度與可重用性。論文提供的訊息亦相當直接：SIEVE 在多個 datasets、benchmarks 與 VLA models 上，都比競爭性的 baseline 更穩定，甚至在只用 50% demonstrations 和 50% training steps 的情況下，表現可以超過 full-data training。當然，這也代表它較適合已有一定規模示範資料、並且願意先跑一輪離線整理流程的團隊，而不是追求即插即用的小型腳本。

以 LeRobot v2 資料根目錄作輸入，支援單一或多個 dataset
流程由 segmentation、feature extraction、dimensionality reduction、clustering、selection 組成
特徵抽取依賴 V-JEPA，輸出中間結果到 Zarr，再匯出選中的 LeRobot episodes
核心差異是按 reusable structure 揀數據，不是只按整條 trajectory 或逐步 state-action 打分

部署理解上，這個項目更像一條可重複執行的離線資料處理 pipeline，而不是一個直接提供推理服務的套件。適合用來整理大型 robot demonstration corpus、為 VLA imitation learning 減少冗餘訓練樣本；相關模型與技術脈絡包括 Vision-Language-Action (VLA) models、V-JEPA，以及輸出端相容的 LeRobot。

GitHub · Paper

Categories: 開源, 香港, 香港科技大學, 多模態模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 中國, VLA, Dataset 數據集

SkillOpt-Lite：幫 coding agent 自我改良

2026 年 7 月 8 日

不少人用 coding agent 時，卡位不在模型本身，而在 prompt、skill 文件同執行流程點樣一路修正。SkillOpt-Lite 連同 HarnessOpt 就是針對這個位置而來的 Agentic 工具：把評測、修改、驗證同回滾包成兩個 slash command，讓 coding agent 在對話環境內自動迭代改善。

它反對一種常見範式：每次表現不好，就手動改 prompt、重跑少量樣本，再憑感覺決定有沒有進步。作者改用 looped improvements 配合 validation-gated rollback，先跑一批 scored rollouts，將失敗樣本交回 coding agent 修補，再用 val split 決定保留還是還原；焦點不是 fine-tuning，也不是增加 inference-time overhead，而是把現有 agent workflow 系統化地優化。

部署理解上，這個項目不是叫你在 shell 逐步砌環境，而是把 repo 資料夾直接開進支援 .github/prompts/*.prompt.md 的 coding agent，例如 VS Code Copilot Chat、Codex CLI、Claude Code。環境安裝、驗證、資料下載由 agent 協助處理；現成 benchmark 包括 LiveMath、SpreadsheetBench、ALFWorld、DocVQA、OfficeQA 同 SearchQA，亦支援帶入自家 repo 與資料格式。

SkillOpt-Lite 只改 skill.md，適合先驗證 prompt/skill 層面的改善
HarnessOpt 連 agent harness 一起改，包括 rollout、react-agent、executor 等程式部分
以 val gate 決定保留或回滾，比單看一次 train 結果更穩陣
官方重點是「no fine-tuning, no inference-time overhead」，取向明顯偏向低成本迭代

跟同類做法相比，它的差異不在於推出新模型，而是把「由 agent 自己根據失敗紀錄修補自己」做成可重覆流程。公開內容提到在 6 個 benchmarks 有結果，亦展示過 GPT-5.4-nano 配合 HarnessOpt 可超過較高階模型配標準 harness 的情況；不過現時較依賴 coding agent 工作流，最適合做 agent 評測、提示工程、內部工具自動化的團隊，而不是單純想下載一個模型即用的人。相關模型與目標例子則包括 GPT-5.4-nano、GPT-5.5，以及各種可讀取 prompt 檔的 coding agents。

項目主頁 · GitHub · Paper

Categories: 開源, Agentic, Vibe Coding, 編程, Skill 技能, Dataset 數據集

AlayaWorld 想做可玩式長時影片世界

2026 年 7 月 8 日

一段生成影片能否變成可探索空間，關鍵唔係畫面靚唔靚，而係鏡頭轉向、路徑改變、甚至中途加入新事件之後，個世界仲認唔認得自己。AlayaWorld屬於world model 研究項目，目標係處理長時間影片生成入面最麻煩的幾件事：互動控制、記憶一致性，同埋長序列愈滾愈走樣的問題。

而家不少影片生成做法偏向一次過出片，畫面可以吸引，但未必承受到持續探索；鏡頭一郁、提示一改，前後場景就容易斷裂。AlayaWorld明確反對呢種偏靜態範式，改用 interactive autoregressive world model 路線，把 3D cache、frame-history embedding，同 chunk-level prompt switching 組合起來，嘗試同時保住空間記憶、時間連續性，同中途插入事件的能力。

它最有辨識度的地方有幾個：一方面用 rendered 3D cache 配合輕量 AdaLN camera modulation，令 6-DoF 鏡頭控制更貼地；另一方面又用壓縮後的歷史影格表示，幫手維持 revisited places 的辨識度。為咗減少長時間 rollout 累積錯誤，團隊亦加入 drifted histories 訓練同 error bank，把已出現的瑕疵重新注入記憶與目標，避免失真一路放大。

支援 real-time camera control，同時可在片段邊界切換 prompt
以 3D cache 加 frame-history embedding 處理空間與時間記憶
透過 few-step DMD distillation 爭取即時生成效率
官方展示指向 720p、24 FPS、60s+ long-horizon、15B parameters
目前公開的是 technical report、示範頁與影片，code 與 weights 尚未釋出

現階段較適合把它理解成研究原型，而唔係可立即部署的開源工具。想測試的人，暫時只能先睇 demo 同 technical report，重點觀察鏡頭移動、風格切換、事件插入後的連貫度；等 inference code 同 pretrained weights 釋出後，先有條件判斷佢喺內容製作、互動敘事、遊戲原型或世界模型研究工作流入面，究竟可以走到幾實用。

項目主頁 · GitHub · Paper

Categories: 開源, 3D, 視頻模型, 世界模型, Dataset 數據集

Light-Omni 想把長影片 Agent 變得更快

2026 年 7 月 8 日

長影片互動最易卡住的位，不是模型看不懂，而是每次都要重新搜尋線索、反覆推理，回應自然會慢。Light-Omni把這件事改寫成一個Agentic video understanding研究項目：用長期多模態記憶處理視覺、語音與文字串流，目標是讓代理在連續對話中更快決定要直接回答、提取記憶，還是補足證據。

現有做法常採用作者所說的 detective-style iterative reasoning，一邊規劃、一邊搜尋、一邊聚合證據；好處是步驟清楚，代價是延遲高、計算開銷大。Light-Omni提出 reflexive video understanding，核心不是拉長 reasoning loop，而是以單次 forward pass 產生全域脈絡與 retrieval embeddings，再配合 Generation Adapter、Memory Adapter、Reaction Adapter 三個模組，分別負責回應、長期記憶整理，以及預測何時檢索。

這個取向的價值很直接：它不是追求最繁複的推理鏈，而是優先解決互動代理在長影片場景的反應速度。項目建基於 Qwen2.5-Omni，示範則用 Qwen3-Omni-30B-A3B-Instruct；記憶設計包含 identity profiles、semantic memory、episodic memory，並加入 sleep-time memory consolidation，把較長時段的觀察壓成緊湊全域狀態，同時保留近期細節。

相比 M3-Agent，平均準確率提升 2.4%
速度達 12.1x，加強長影片互動的即時性
GPU 記憶體效率提升 2.6x，較適合資源有限的部署
倉庫附有 eval.py、Flask/Socket.IO demo、Hugging Face 模型與訓練資料

想驗證這個項目，現時可沿三條路理解：先看 web demo 感受反應方式，再用倉庫內的 eval.py 配合 logs/ 檢查長影片 benchmark 結果，最後參考 thirdparty/ 內已修補的 transformers 與 ms-swift 組件做訓練或推理環境配置。較受用的讀者會是做多模態代理、長影片理解、記憶檢索，或者需要低延遲互動系統的研究團隊；它仍屬研究原型，效能數字主要來自項目提供的 benchmark 與示範，部署前仍要按自己的影片長度、硬件條件與任務形式再核實。

項目主頁 · GitHub · 模型

Categories: 開源, Agentic, Video, Embedding, 多模態模型, 模型, Dataset 數據集, 南京大學

MV-Forcing 讓長時多視角影片更一致

2026 年 7 月 8 日

想像同一個人物動作，要由三個鏡頭角度一路接住生成，畫面不但要連戲，視角之間的位置關係都要講得通。MV-Forcing 屬於多視角影片生成框架，處理的正是長時段 dynamic scenes 在不同 viewpoint 下容易失真、跳位、前後不一致的問題。

它的取向，不是只顧單一視角拉長影片，也不是只做短片式多視角同步，而是把 temporal autoregression 同 view-wise autoregression 放入同一個 diffusion model。中間再加上一個 4D geometric prior 作橋樑：先從已生成的 source view 重建 3D 結構，再渲染出下一個 target view 的幾何先驗，最後交由模型細化成高質影片。

另一個關鍵在訓練方式。MV-Forcing 用 joint denoising，令兩個 view slots 訓練時都可由雜訊起步，避免模型只依賴固定 teacher temporal window，從而支援更長的生成。它亦加入 Distribution Matching Distillation 與 Spatio-Temporal Self-Forcing，盡量縮窄訓練與推理之間的 exposure bias，讓時間與視角兩條自回歸鏈接得更穩。

能同時處理長影片與多視角一致性，而唔係二選一
以 3D reconstruction 連接相鄰視角，補上幾何關係
支援 arbitrary lengths 與 viewpoint counts，彈性較高
用單一 few-step student model 完成生成，推理路徑較集中

現有資料提到，它已在 synthetic 與 real-world data 做大量實驗，重點成果是能生成幾何一致的多視角動態影片。不過公開內容暫時較像研究展示，Code 仍標示 coming soon；對內容創作、視覺敘事、虛擬攝影機規劃有興趣的人，會較容易看出這個項目的價值。

項目主頁 · Paper

Categories: Video, 3D, 模型訓練, 視頻模型, 框架

PaperPilot：把文獻搜尋變成可修改流程

2026 年 7 月 8 日

做研究時，最麻煩往往唔係「搵唔到論文」，而係第一輪結果未必貼近你真正想追嘅方向。PaperPilot屬於開源框架，同時亦帶有已訓練代理模型，用 workflow induction 處理多輪學術文獻搜尋：它會圍繞 anchor paper 同查詢，先建立一個 typed DAG，再用澄清問題同後續回應去改動搜尋流程本身，而唔係只係喺原句後面再加條件。

呢個定位同一般固定 pipeline，或者只靠語言模型隱式推理嘅搜尋代理，好唔一樣。作者認為舊範式嘅問題，在於搜尋策略難以控制、難以檢查，亦唔容易根據人嘅偏好逐步修正；PaperPilot就把 keyword search、citation expansion、filtering、scoring、reranking、evidence extraction 組成可執行流程，每一步改動都可以保留，令結果更可追溯。

公開資料已經提供 live demo，亦有 FastAPI 後端、Streamlit 介面、evaluation scripts 同 tests，可理解成一套可部署、可觀察、可重跑嘅研究工具鏈。不過 initial release 未包含 web/ React front-end，同 training_infra/ 亦未完整開放；README 片段亦未見完整安裝流程，現階段較適合先用 demo、閱讀論文，再按儲存庫結構自行部署 backend 與本地介面。

多輪互動唔止改 query，仲會直接編輯 typed DAG workflow
約 50 個 typed operators，覆蓋檢索、集合操作、排序同證據抽取
每次執行會保存流程、逐輪修改、時間與成本，方便重現結果
PaperPilot-9B 以 workflow imitation 加 preference optimization 訓練而成
指標上較 base Qwen3.5-9B toolset agent 提升 Hit@5、MRR、nDCG@10，並把 workflow execution errors 由 9.5% 降到 0%

相關模型方面，核心比較對象係 base Qwen3.5-9B toolset agent，而實作後端就標明支援 OpenAI、Together、Anthropic 同 OpenAI-compatible endpoint。呢種設計對研究員、需要做系統性文獻整理嘅學生，或者想把檢索流程納入團隊知識管理嘅人都幾有價值；取捨在於它追求可控與可審核，流程會比單次對話搜尋更重，亦更依賴使用者願意逐輪提供清晰反饋。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Agentic, API, Dataset 數據集

SaMer 壓縮視覺檢索成本

2026 年 7 月 8 日

圖文檢索做得細緻，往往要保留大量 image-side tokens，但儲存與比對成本也會跟住升。SaMer屬於開源框架／研究原型，針對 ColPali-style multi-vector retrievers 的 token 壓縮問題而來，重點不是單純刪減，而是盡量保住之後查詢仍可能用得着的 object-level evidence。

現有壓縮做法多數偏向 pruning、pooling，或者只按 feature 合併，代價是物件與區域證據容易被混在一起，令 MaxSim late interaction 原本可選取的細節訊號流失。SaMer的取向明確：保留原本 MaxSim retrieval objective，不改 late-interaction 介面，只在 image side 做 object-aware merge，修正「壓縮後證據變鈍」這個問題。

它的方法有三個關鍵步驟：先用 feature similarity 加 spatial proximity 做 Feature-Spatial Merging，再在訓練階段利用 Flickr30k-Entities 的框標註加入 Object-Aware Assignment，避免不同實例被錯誤合併，最後採用 Projection-Only Adaptation，只訓練 shared projection layer，vision encoder 同 language backbone 都維持 frozen。到 inference 時就不再依賴 bbox，這點令部署比一些需要 detector 或額外 grounding loss 的做法簡潔。

以 ColPali-style multi-vector retrieval 為核心場景，重點是減 storage 與 scoring 成本
K=64 時可移除超過 93% image-side tokens，ColPali 儲存量下降 16.09×
在 Flickr30K 與 MSCOCO，README 與項目頁指出 R@1 有提升
相關模型權重包括 vidore/colpali-v1.3-hf，另有 Hugging Face 的 SaMer models 集合

測試與重現路線算清楚：資料要先準備 Flickr30k-Entities，之後訓練 adapter、建立 compressed retrieval cache，再做 inference。原始資料列出 Python 3.10+、CUDA-enabled PyTorch，以及單 GPU／多 GPU 腳本流程，但 evaluation 章節在提供內容中未完整展開，所以更細的 benchmark 設定與完整數字仍要以論文與項目頁為準。

這類做法最適合需要多向量圖文檢索、又在意記憶體與延遲的團隊，例如做 large-scale image retrieval、phrase-level grounding，或者要把 ColPali 類系統壓到較可部署規模的研究與工程項目。它的取捨亦很清晰：不是追求最少 token，而是用較低成本保留日後查詢仍有機會選中的視覺證據。

項目主頁 · GitHub · 模型

Categories: 開源, Qwen, NVIDIA, Image, Python, 多模態模型, 視覺模型, Dataset 數據集

EdgeBench 用 134 個長任務量度智能體成長

2026 年 7 月 8 日

跑一次就評分的基準，通常只能看出模型本身已經識乜；EdgeBench關注的是另一件事：當智能體放進接近真實工作的環境，連續做十幾個鐘、接收回饋再反覆修正，它究竟會唔會愈做愈好。這是一個研究 environment learning 的 benchmark，核心問題不是單次答對率，而是學習曲線能否反映長時間互動後的能力變化。

它把 134 個任務分成六大類，包括科學與機器學習、系統與軟件工程、組合最佳化、知識工作、形式數學同遊戲，而且每個任務最少運行 12 小時，部分延伸到 72 小時以上。這個設計接近真實工作流，因為智能體需要面對 build logs、test failures、objective values、simulator traces、實驗誤差等回饋，而唔係只靠一次生成結果交卷。

同常見 benchmark 相比，EdgeBench的差異在於它量度「隨經驗累積而改善」的能力。研究者指出，多個模型在 134 個任務上的整體表現，都可用 log-sigmoid function 擬合，R²約為 0.997 至 0.999，表示 environment interaction time 與表現提升之間有相當穩定的關係。這令它不只是一張排行榜，也是一個用來觀察 scaling laws of environment learning 的分析工具。

覆蓋 134 個真實世界長時任務，重點放在學習速度與上限
任務橫跨科學、編程、最佳化、知識工作、數學與遊戲
每項任務持續 12 小時以上，部分超過 72 小時
回饋訊號來自接近真實工作的執行環境，而非單次靜態題目
整體學習曲線可用 log-sigmoid function 高精度擬合

這套 benchmark 對做 Agentic 項目、長流程自動化、程式代理與研究型智能體的人最有參考價值，因為它直接呈現模型在長時間任務中的耐力、修正能力與邊做邊學的幅度。現有資料集中在 benchmark 設計、任務結構、資料集與分析結果，未提供具體安裝步驟或完整使用流程；能確定的是，這個項目由 ByteDance Seed 發表，並附有 Paper、GitHub 與 Dataset 入口。

項目主頁 · GitHub · Paper

Categories: 開源, 字節跳動, DeepSeek, Agentic, 軟件, 模型訓練, 編程, Anthropic, Dataset 數據集, 框架

Deform360 補上可變形物體世界模型短板

2026 年 7 月 8 日

Deform360: per-frame 3D reconstruction alongside 360-degree multi-view capture.

一遇到布料、線材或柔軟玩具，很多世界模型很快就會暴露盲點：畫面看得到表面變化，卻未必掌握形變本身。Deform360屬於Dataset 數據集項目，集中處理的正是可變形物體研究長期缺少的真實多模態資料，讓2D video world models與3D particle world models可以放在同一基準下比較。

它的吸引力不只在於量大，還在於資料結構相當完整。項目收錄198件日常可變形物體、1,980段機械人互動、215.7小時累積錄製內容，配合41部同步720p RGB相機做360°拍攝，另有雙手UMI-based tactile grippers的四組16×32觸覺串流。對研究團隊來說，這代表不只是「有影片可看」，而是可以對齊視覺、觸覺、相機幾何與3D粒子標註去做分析。

跟不少只提供單視角影片、少量物件，或者只放最終標註的資料集相比，Deform360更重視重建與對齊流程。作者採用markerless visuotactile tracking pipeline，把ArUco calibration、3D Gaussian Splatting、CoTracker3與physics-informed refinement串起來，目的不是包裝成一鍵訓練工具，而是把可重用的資料契約、幾何工具、annotation I/O與multimodal alignment utilities公開。

針對198件可變形物體，涵蓋多視角影像、觸覺與dense 3D particle annotations
適合比較2D video world models與3D particle world models在真實形變上的差異
GitHub 目前主要釋出資料存取、preprocessing、geometry與對齊工具
未附world-model baselines、training code、pretrained checkpoints或一鍵端到端流程

部署與測試的理解方式也要先講清楚：這不是拿來即刻訓練完整模型的全包框架。現有儲存庫提供Python 3.10以上的安裝入口，並連到 Hugging Face 資料集；你可以把它當成研究資料管線與讀取工具，用來下載資料、做相機去畸變、處理觸覺對齊、載入標註與幾何資訊。原始資料沒有提供完整基線訓練流程，因此較適合已有world model、tracking或robot learning流程的團隊接入。

性能方面，項目頁面有交代基準結論：ParticleFormer在held-out episodes預測較好，pretrained Cosmos在unseen objects的視覺指標領先，但可能偏離指令動作。這種結果也反映Deform360的價值不在於替某一類模型背書，而是把可變形動態、視覺觀測與觸覺證據放回同一個較公平的測試場。相關模型與方法脈絡包括2D video world models、3D particle world models、ParticleFormer、Cosmos，以及資料製備中用到的 CoTracker3 與 3D Gaussian Splatting。

項目主頁 · GitHub · Paper

Categories: 開源, Video, 3D, Python, 多模態模型, 模型訓練, Robotic, 世界模型, Dataset 數據集

MIRA 把《Rocket League》變成可互動世界模型

2026 年 7 月 8 日

打機畫面一路變化，背後又有四名玩家同時輸入動作，呢類情境一向好難靠 world model 穩定重建。MIRA 屬於開源框架兼研究型模型項目，處理的是多人互動環境中，如何按四條 action streams 即時生成《Rocket League》對戰畫面，令 2v2 比賽可以直接在模型內運行。

現有做法多數集中在 single-player world models，其他角色通常只被當成環境一部分；作者明確反對呢種 fixed framing，因為多人場景入面，畫面變化要分得清楚邊個玩家造成。MIRA 改用 multiplayer conditioning，並配合 Representation Autoencoders 同 latent diffusion，目標唔只係畫面似真，而係令物理互動、攻守切換同多角色行為保持連貫。

個項目的取向相當鮮明：它唔係先追求最輕量部署，而係用 5B parameters 模型換取即時互動與長時間 rollout 穩定性。資料來自 10,000 小時 gameplay，README 亦公開了 RocketScienceDataset，當中每個 sample 都包含四個同步視角、逐格 keyboard action 同 game state，對做世界模型、VLA 或互動模擬研究的團隊都很有參考價值。

屬於開源框架加世界模型研究項目，重點是部署、資料使用與評估多人互動生成
與單人 world model 最大分別，在於同時按四名玩家動作生成畫面，而唔係把其他玩家當背景擾動
官方指出模型可在單張 NVIDIA B200 GPU 上以 20 FPS 生成完整 2v2 對戰
相關資料集 rocket-science 提供同步視角、動作與 game state，方便重做測試與分析
README 提供 pixi 環境安裝與 test suite 入口，但更完整部署細節仍要靠原始程式與技術報告配合理解

就公開結果看，MIRA 最有說服力的地方唔係單一 benchmark 數字，而係它把「多人動作歸因」變成核心問題，再補上對物理理解的 targeted evaluations。官方亦表示，雖然模型只用短片段訓練，distributional quality 可維持到五分鐘量測範圍，實驗中甚至能持續更長時間；不過硬件門檻高，定位更接近前沿研究平台，而唔係一般人可隨手在本地執行的輕量工具。

項目主頁 · GitHub · Paper

Categories: 開源, Gemini, NVIDIA, 世界模型, VLA, Dataset 數據集

Page 18 of 126

« Previous 1 … 16 17 18 19 20 … 126 Next »