DataClaw0 想把雜亂多模態資料變成可訓練資產

DataClaw

這是一個面向多模態資料整理的研究原型兼框架,核心是用 Agentic Data Tailoring 把原始串流資料重組成有結構、可驗證、可直接用於訓練的 supervision。它要解決的不是「再做一次標註」,而是長影片、GUI traces、embodied trajectories 與 editing sequences 太雜亂、資訊密度不均,令人和模型都難以有效吸收。

現有做法多數依賴 passive annotation paradigms,用 heuristic rules 或 general VLMs 被動加標籤;作者認為這類方式成本高、內容單調,亦抓不到原始資料入面的 procedural logic。DataClaw0 改用「Bottom-up Factual Anchors → Top-down Semantic Synthesis」兩段式流程,先抽取較確定的 factual anchors,再按意圖生成結構化語意,重點在於它不是只描述內容,而是按 downstream objective 重寫資料。

模型層面,項目提出 DataClaw-9B,並以 Supervised Fine-Tuning(SFT)加 rule-driven Group Relative Policy Optimization(GRPO)做對齊;部署上分成 unified Omni model 的 DataClaw-O,以及分領域 Experts 的 DataClaw-E。這種取向的取捨很明顯:Omni 較方便統一處理多域資料,Experts 則較可能在特定場景保留更細緻的領域表達。

現階段先看論文與案例再判斷是否值得追蹤,因為 code、model weights、dataset 和 DataClaw-val benchmark 仍未正式釋出。已公開資訊顯示,它的評測不只看生成是否通順,還會檢查 JSON validity,以及 schema-aware 的 Field、Semantic、Sequence 指標,並再用 video generation、real-world VQA、GUI navigation 的下游 post-training 效果驗證資料整理是否真的有用。

  • 項目類型:研究原型/資料整理框架,重點是把原始多模態串流轉成意圖對齊的訓練資料
  • 主要差異:不是被動標註,而是主動 refinement,並保留 schema-conformant、verifiable 輸出
  • 相關模型:DataClaw-9B、DataClaw-O、DataClaw-E,訓練結合 SFT 與 rule-driven GRPO
  • 適合情境:做多模態 post-training、GUI agents、VQA、影片或 embodied 資料整理的團隊

如果你關心的是建立資料引擎,而不只是找一個模型做推理,DataClaw0 比一般 VLM 標註流程更有方向性。限制也很直接:目前公開內容以論文與項目頁案例為主,能否重現效果、部署成本多高、不同領域泛化有多穩,仍要等正式釋出的資料與基準再作判斷。

GitHub: https://github.com/vancyland/DataClaw0

項目主頁: https://czjdsg.github.io/MakeAnyData/#cases

Paper: https://arxiv.org/pdf/2606.21337

Categories: 開源, Qwen, Gemini, Agentic, Video, 工具, IDE, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 框架, Dataset 數據集

SproutRAG:長文 RAG 檢索的新取向

SproutRAG

現時不少 RAG(Retrieval-Augmented Generation)做法,通常在「細粒度 chunk 準確但零碎」與「大段內容連貫但嘈雜」之間取捨;有些方法靠 LLM-guided chunking、single-level context expansion,或 hierarchical summarization 去補救,但代價是要額外 LLM 呼叫、只支援單一層級擴展,或者在摘要過程流失資訊。SproutRAG 提出的方向,是用 attention-guided hierarchical RAG framework,把句子逐步組成語意連貫的多層結構,再做 multi-granularity retrieval。

這是一個 RAG 工具/框架,重點不是單獨一個模型,而是把索引、檢索、reranking、答案生成與評測串成完整流程,處理長文件問答中「證據要夠準又要保留上下文」的問題。它用 YAML 或 JSON config 驅動 CLI,每一步各有設定,輸出統一是 JSON,對接下游工具和保留可重現紀錄都幾方便。

部署和測試思路算清楚:先準備 JSONL 文件,之後分開建立 index、執行 retrieve、再 answer;若要研究效果,還可 train 和 evaluate。附加套件分別對應 PyYAML、ROUGE-L、METEOR、BERTScore 及 spaCy,反映這個項目除了生成,也很著重檢索與答案品質的量化比較。

和常見 flat retrieval 相比,SproutRAG 較值得留意的是 hierarchical attention-based indexing 加上 hierarchical beam search:它不是只撈單一粒度片段,而是沿樹狀結構找不同大小的候選證據。論文資料指出,它在四個 benchmark 的 information efficiency(IE)平均比最強 baseline 高 6.1%,但目前公開說明未見太多資源消耗與大型部署細節,訓練部分亦提到 MS MARCO 只先載入 v2.1 train split 的首 30k 筆樣本,代表現階段較適合研究、評測與流程驗證。

  • 適合需要處理長文件的 RAG 項目,例如法律、科研、知識庫問答
  • 配置檔主導流程,方便版本控制、重現實驗與比較不同設定
  • 支援 optional reranking 與生成評測,不只是單做檢索
  • 相關模型包括 sentence-transformers/all-MiniLM-L6-v2,底層依賴 PyTorch 2.x 與 Transformers 4.51+
  • 若你想比較多粒度證據檢索與傳統 chunk-based RAG 的差異,這個項目很有研究價值

GitHub: https://github.com/AmirAbaskohi/SproutRAG

Paper: https://arxiv.org/pdf/2606.18381

Categories: 開源, 工具, Python, Python NLP, RAG, , Meta, 框架

StylisticBias 拆解 MLLMs 視覺偏見

StylisticBias pipeline overview

不少 Multimodal Large Language Models(MLLMs)偏見研究,通常拿不同人物或群組互相比較;問題是外貌差異與身份差異會纏在一起,最後很難判斷模型究竟是受年齡、衣著、身形影響,還是只是換了另一個人。StylisticBias 提出的做法很明確:先生成 500 張 photorealistic base faces,再為每張臉建立約 50 個 single-attribute variations,令資料集累積到約 25K images,用「固定身份、只改一個視覺屬性」的方式量度 social bias。

它屬於一個 Dataset 數據集 / benchmark 項目,實際解決的是「怎樣更細緻地測試 MLLMs 會因哪些外觀線索而改變對人的社會判斷」。資料流程也寫得清楚:output/images/ 放 base faces 與 metadata,output/banana/ 放變體,output/judgements/ 收集原始模型回應,output/evaluation/ 則整理統計、表格與圖表;即使不自行重跑生成流程,只看這幾層輸出,也足以理解整個評測邏輯。

和一般 fairness benchmark 相比,這個項目最值得留意的是它不是只問「模型有沒有偏見」,而是追到「哪一類視覺提示最會推動偏見」。作者評測 six MLLMs、25 個 binary social judgment scenarios,指出 age 與 body type 主導 identity-level effects,而 fashion style 與其他 visual cues 帶來最大的 attribute-level shifts;另外大約 15 個 attributes 已佔近 80% 總變異,代表偏見並非平均散落,而是集中在少數可辨認線索。

  • 固定同一張臉,只改一個屬性,較易分開 appearance effects 與 identity differences
  • 規模約 25K images,適合做較細粒度的 bias analysis
  • 結果顯示 age、body type、fashion style 是高敏感因素
  • judgement 對 appearance 語意較貼近的場景最敏感,尤其 socioeconomic 與 style-related 判斷

這項目最適合評估多模態產品風險的團隊、研究 AI fairness 的學者,以及要比較不同 vision-language model 行為的人。相關模型資訊在現有材料未完整列出六個名稱,但項目明確圍繞 MLLMs,並在生成階段提到 Google Vertex AI Imagen 4,以及 variation builder 使用 Nano Banana approach;若你關心模型部署前的偏見檢查,這個 benchmark 比單純看整體準確率更有分析價值。

GitHub: https://github.com/timo-cavelius/StylisticBias

項目主頁: https://huggingface.co/datasets/shaghayegh/stylistic-bias-dataset

Paper: https://arxiv.org/pdf/2606.20527

Categories: 開源, Google, Gemini, NanoBanana, Image, 多模態模型, 安全, 視覺模型, Meta, 框架, Dataset 數據集

MCompassRAG 把 RAG 檢索變得更準更省

alt Method

現時不少 RAG 會用 dense retrieval,直接把查詢同文本 chunk 的 embedding 拿去比對;當 chunk 切得較粗、語料又雜,語意接近未必等於真正答到問題。MCompassRAG 屬於檢索框架,做法是替段落加入 topic metadata,再用 LLM teacher 離線產生判斷訊號,蒸餾成一個輕量 retriever,修正「只靠 chunk embedding 排名」這種固定範式的偏差。

它的取向幾清楚:把較重的判斷放在訓練前期,推理階段只保留 metadata bank、embedding lookup 同小型 scorer,所以標明可做到 zero LLM calls at inference。這個取捨很適合想保留檢索速度,但又嫌傳統向量檢索太粗糙的團隊;代價是前處理較長,要先訓練 topic model,再生成 distillation data。

項目流程分成幾步:先準備語料、訓練 topic model、生成蒸餾資料、建立 metadata index,再訓練 retriever。環境上要 Python 3.10+、PyTorch 2.x、Transformers 4.51+,而且建議有 CUDA GPU;OpenRouter API key 只在 Step 2 — Generate distillation data 需要,之後檢索本身不依賴 LLM 連線。

可留意的重點有幾個:
– 不只重排結果,而是把 topic signal 放進 retriever embedding space 一齊學習
– 支援可插拔 topic model backend,現成有 CEMTM、ETM、CWTM、SoftLTM
– 推理成本貼近 embedding model latency,較適合高頻查詢場景
– 比起純 dense retrieval,更著重 paragraph-level evidence quality

作者強調它會在 complex retrieval benchmarks 提升 evidence quality 同效率,但目前倉庫內容較像 research implementation,未見非常完整的產品化基準表。較受惠的會是做知識庫問答、文件搜尋、企業內部檢索的團隊,尤其當資料主題分散、段落切分又未必夠細時,MCompassRAG 的 topic compass 概念比單純換一個 embedding model 更有分析價值。

GitHub: https://github.com/AmirAbaskohi/MCompassRAG

項目主頁: https://huggingface.co/papers/2606.18508

Paper: https://arxiv.org/pdf/2606.18508

Categories: 開源, API, Embedding, Python NLP, RAG, , 模型訓練, 框架

MemSlides 把簡報生成變成可記憶代理

MemSlides hierarchical memory and localized revision overview

不少簡報生成工具仍然走 one-shot source-to-slides conversion:丟一份材料進去,整份投影片一次生成,之後每次修改又大範圍重做。MemSlides 把問題改寫成 stateful authoring process,核心不是單次輸出,而是記住你是誰、這一輪想改甚麼,以及過往哪些工具操作較可靠。

這是一個 Agent Framework,目標是解決 personalized slide generation 與 multi-turn local revision 兩個常見痛點。它把記憶拆成 user profile memory、working memory、tool memory:前者保存跨工作重覆出現的偏好,中段記住當前簡報的限制與暫時要求,後者則保留工具鏈執行經驗,方便之後做相似修改時少走彎路。

跟同類做法相比,最需要留意的是它不主張每次收到新意見就重生整副 deck,而是做 scoped slide-local revision,只更新受影響的最小區域。這種取向的好處是修改更穩定,較易保留原本好的內容;代價是整體品質會依賴記憶管理與局部編輯判斷是否準確。

從倉庫資訊看,這個項目較適合研究 presentation agents、企業內部簡報自動化,或要反覆為不同角色產出版本的團隊。倉庫亦提供 Docker Hub、網站、示範影片與論文連結,理解方式可先看 demo,再決定用容器部署還是按 Python 3.11 與 Node 20 的環境自行搭建;不過公開資訊未見完整量化基準,現階段較像研究型框架,而非已標準化的產品方案。

  • 把簡報生成由一次性輸出改成有狀態的寫作流程
  • 分層記憶是重點:user profile memory、working memory、tool memory
  • 修改時傾向局部修補,不是整份重生成
  • 適合需要 persona-aware 內容、反覆修訂、多人協作的情境
  • 相關元素包括 presentation agents、multi-turn revision、localized editing、tool-chain execution

GitHub: https://github.com/huohua325/Memslides

項目主頁: https://memslides.github.io/

Categories: 開源, Agentic, 工具, IDE, Python, Python NLP, , 清華大學, 框架

GateMem:測試 AI 記憶有冇分寸

GateMem logo

現有記憶基準多數集中問一件事:代理可唔可以正確記住資料;GateMem 改問更接近部署環境的問題:同一個 shared memory 俾多個 principal 共用時,代理能否按角色、授權範圍同刪除要求去管理資訊。作者批評舊範式偏向 single-user recall,未能反映多方協作場景入面最常見的越權讀取、過度披露同刪除後重建資訊風險。

GateMem屬於Benchmark / Dataset 數據集項目,用來評估 memory-augmented LLM agents 在 multi-principal shared-memory agents 情境下,是否同時做到 Utility、Access Control 同 Active Forgetting。它把 persistent memory 視為 governed shared state,而唔係私人快取,這個 framing 令測試重點由「記得幾準」轉去「幾時應該答、幾時唔應該答」。

資料規模唔算細:4 個場景、91 個 long-form episodes、2,218 個 hidden checkpoints,涵蓋 Medical、Office、Education、Household。評分核心有一個 MGS 指標:MGS = U · (1 − A) · (1 − F),即係授權下要有用,未授權時要少洩漏,刪除後亦唔可以被確認、還原或旁敲側擊重建。

要理解點樣測,重點係用它提供的 benchmark toolkit、dataset 同 leaderboard 去跑代理,再對照 hidden checkpoints 睇表現。較受用的會係做 Agentic 系統、長期記憶代理、企業內部助理、醫療或教育流程自動化的團隊,因為呢類系統最怕的通常唔係答錯一次,而係記對咗但講錯人聽。

  • 核心差異:由單人記憶召回,轉成多角色共享記憶治理
  • 三個評測面向:Utility、Access Control、Active Forgetting
  • 場景貼近機構流程,包含授權、關係變化、刪除請求
  • 相關模型背景包括 memory-augmented LLM agents、persistent memory agents,同頁面亦提到測過 6 backbone LLMs、7 memory baselines,但具體型號需以論文或排行榜為準
  • 限制係它主要衡量治理表現,唔等於完整覆蓋所有真實政策、法規或系統整合成本

GitHub: https://github.com/rzhub/GateMem

項目主頁: https://rzhub.github.io/GateMem/project.html

Paper: https://arxiv.org/pdf/2606.18829

Categories: 開源, Agentic, Medical醫學, 安全, 模型, 框架, Dataset 數據集

PermaVid 令影片修改後仍然連貫

teaser

很多影片生成方法處理編輯任務時,會把過往畫面當成單一記憶來源;一旦做了 style、season、weather 或 time 這類修改,舊記憶就可能變成過時參考,之後生成的鏡頭容易出現人物變樣、場景走位錯亂,或者視角切換後對不上。PermaVid 提出的方向,是把「外觀語意」同「幾何結構」分開保存,避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架,核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下,仍保持內容連貫。它使用 disentangled context memory:RGB context memory 負責記錄 semantic appearance,depth context memory 則保留 geometry-only structure,再配合 edit-aware memory update and retrieval,把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比,PermaVid 的取捨很清楚:系統更複雜,也要同時處理 RGB 與 depth 兩種脈絡,但換來的是編輯之後的長期一致性。從儲存庫資訊看,項目亦提供 dataset、paper 及 demo,並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型,顯示它不是輕量玩具,而是偏研究型、多模組組合的完整流程。

  • 支援相機移動控制,例如 direction-frames-speed 這類格式
  • 編輯類型涵蓋 style、season、weather、time 等全局變化
  • 重點不只是生成單段片,而是修改之後仍維持後續片段一致
  • 需要較完整環境配置,包含 PyTorch、CUDA 與額外訓練/推理依賴

如果你是做 instruction-based video editing、reference video generation,或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性,這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods,但公開資訊未列出完整量化分數;較穩妥的理解,是它的亮點在方法設計與 benchmark 表現方向,而不是即裝即用的消費級工具。

GitHub: https://github.com/YS-IMTech/PermaVid

項目主頁: https://ys-imtech.github.io/projects/PermaVid/

Paper: https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, , 影像處理, 視覺模型, 視頻模型, 框架, Dataset 數據集

UME 可回饋力度的機械人遙操作外骨骼

蚂蚁集团标志(英) 正色

Universal Manipulation Exoskeleton(UME)是一個上肢外骨骼遙操作項目,重點不只是在遠端控制機械人,更是在操作期間即時提供 haptic torque feedback,並同步記錄整條手臂姿態與關節 torque 訊號。頁面指出,它想解決的核心問題是:很多機械人示範數據流程只記到動作,卻記不到接觸時的力與扭力,令模型較難學會順應環境的 compliant 行為。

與常見只靠視覺或位置控制的做法相比,UME 把「人手感受到的阻力」直接帶回操作者身上。這種透明 torque feedback 令操作者即使蒙眼,也能完成例如抽出受運動限制物件這類任務;對需要接觸、擠壓、推動或在狹窄空間內調整角度的工作,差異尤其明顯。

UME 配備 embedded IMU,可支援 mobile manipulation,並配合 universal retargeting algorithm,把同一套操作映射到不同機械臂,包括 7DoF OpenArm、7DoF Franka 與 6DoF X-ARM。整套 UME system 成本為 1900 美元,詳細成本拆解可在論文中找到,這對研究團隊或自建實驗平台的人來說,是很實際的參考點。

  • 可記錄 whole-arm configurations 與 joint torque signals,用於訓練 active compliant policies
  • 支援 bimanual、whole-body 及 long-horizon mobile manipulation 任務
  • 已展示雪櫃取飲品、箱子翻轉、遮擋下推箱、狹窄桌面操作等情境
  • 頁面提供 Paper、Video,Code 標示為 coming soon,現階段較適合先理解方法與看示範

最受用的會是做 Robotic、teleoperation、模仿學習與機械人數據收集的人。性能方面,頁面以多個 autonomous policy 示範強調高成功率與抗干擾能力,亦有與 UMI、No-torque 設定的比較,但若要判斷完整指標、成本細節與評測方式,仍需回到論文原文核實。

項目主頁: https://ume-exo.github.io/

Paper: https://arxiv.org/pdf/2606.14218

Categories: 開源, Robotic, 框架

SR-REAL 把空間推理拆成兩條路

Repository image for jiyt17/SR-REAL

現有 spatial VLM 往往用單一路線回答空間問題,不是純文字 chain-of-thought,就是直接靠感知結果輸出答案;作者認為這種固定範式難以同時處理語意推理與精確幾何判斷。SR-REAL 提出的做法,是把空間推理分成 Language-Only Reasoning(LOR)與 Detect-Then-Reason(DTR)兩條互補路徑,前者逐步文字推理,後者先找 3D 幾何線索,再做明確幾何推斷。

這個項目屬於框架加訓練流程實作,核心是強化 spatial vision-language models 在複雜空間問答中的判斷能力。它不是單純新增資料集,而是從 cold-start supervised fine-tuning 到 reinforcement learning(RL)都重新安排,並加入 region-to-3D 介面,令模型可把 region tokens 連到 3D 座標、中心點或 bounding boxes。

SR-REAL 重點集中在資料準備與訓練前處理。流程上會先用 SPAR、EmbodiedScan 等來源整理物件對應與 3D 座標,再由 expert.py 生成推理鏈,配合 qwen3.py 抽取物件名稱,最後組成 DTR 指令微調資料;若不想自行重建,也可直接下載作者已整理好的 Hugging Face 數據。這表示它較適合有 Python、資料處理及多模態訓練基礎的研究團隊,而不是即裝即用的終端工具。

和同類做法相比,SR-REAL 不假設所有空間問題都應該用同一種 reasoning path。作者的取向很清楚:語意關係適合 LOR,涉及明確位置、距離、中心點、框選區域的題目則交給 DTR;代價是整個資料構建與訓練流程更複雜,對 grounding 資料品質亦更敏感。

  • 重點不在單一模型結構,而在 LOR + DTR 雙路徑推理設計
  • DTR 會先處理 region tokens 與 3D 幾何線索,再做空間判斷
  • 訓練分為 cold-start supervised fine-tuning 與 reinforcement learning(RL)兩段
  • 已提及 accuracy、format、detection rewards,顯示評測不只看答對與否,也看輸出格式及幾何對齊
  • 相關模型與資料來源包括 spatial VLM、SR-3D、Qwen3、SPAR、EmbodiedScan、SpatialRGPT、Omni3D、CA1M、OmniNOCS

SR-REAL 在多個 spatial benchmarks 有明顯提升,並強調單一 RL-trained model 可同時支援兩條路徑,且不用 per-task tuning 也能跨資料集泛化。不過儲存庫片段未完整列出詳細分數與對照表,因此較穩妥的判斷是:這是一個研究味很重、方法論清晰的項目,適合關注 spatial reasoning、3D grounding、multimodal instruction tuning 的團隊拿來重現與延伸。

GitHub: https://github.com/jiyt17/SR-REAL

項目主頁: https://sr-real.github.io/

Categories: Qwen, 香港, 香港大學, Google, NVIDIA, DeepSeek, OpenAI, Agentic, 工具, 3D, Python, Python NLP, 多模態模型, , 模型, 模型訓練, 編程, 框架

Moebius:輕量補圖模型挑戰 10B 級效果

logo dynamic woWaterMark

現時高質 image inpainting 多數依賴 10B 級大型通用模型,例如 FLUX.1-Fill-Dev,但代價是運算重、速度慢,部署門檻亦高。Moebius 屬於影像修補框架,核心目標很明確:用細得多的模型體積,換到接近甚至部分情境超過大型模型的補圖質素。

它的取向不是再把模型做大,而是重組 Latent Diffusion Model (LDM) 架構,再配合蒸餾把大模型能力壓縮進 0.22B 參數。當中的 Local-λ Mix Interaction(LλMI)block 以固定大小線性矩陣整理空間資訊與全域語意,避開 attention 常見的二次方計算負擔;另一邊再用 adaptive multi-granularity distillation,直接在 latent space 對齊 teacher PixelHacker,減少 pixel-space decoding 的訓練成本。

官方資料把它與 FLUX.1-Fill-Dev、SD3.5 Large-Inpainting 比較,指在 Places2、CelebA-HQ、FFHQ 等自然與人像場景共 6 個 benchmark 上,整體可做到同級甚至部分超前。數字上最搶眼的是少於 2% 參數量,以及總推理時間超過 15 倍加速;不過這些結果仍主要來自項目方報告,解讀時宜留意測試設定是否完全一致。

要理解這個項目怎樣落地,可先把它當成「為 image inpainting 而生的輕量 specialist」,而不是萬用生成平台。較適合資源有限的研究團隊、要在單 GPU 或邊緣設備部署影像修補的人、以及希望在速度與成本上取平衡的產品開發者;若你追求最廣泛的通用生成能力,大模型 generalist 仍有優勢。

  • 類型定位:輕量 image inpainting framework,主打高效率部署
  • 主要差異:不走純 scaling 路線,改用 LλMI block + distillation 壓縮能力
  • 性能重點:0.22B 參數、單步 26.01ms、總推理約 15× 加速
  • 相關模型:FLUX.1-Fill-Dev、SD3.5 Large-Inpainting、PixelHacker
  • 適合情境:單 GPU、消費級硬件、對延遲與成本敏感的影像修補工作

GitHub: https://github.com/hustvl/Moebius

項目主頁: https://hustvl.github.io/Moebius/

Categories: 開源, Image, AI productions, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

Page 2 of 13
1 2 3 4 13