框架 Archives - Page 2 of 13

DataClaw0 想把雜亂多模態資料變成可訓練資產

2026 年 6 月 25 日

這是一個面向多模態資料整理的研究原型兼框架，核心是用 Agentic Data Tailoring 把原始串流資料重組成有結構、可驗證、可直接用於訓練的 supervision。它要解決的不是「再做一次標註」，而是長影片、GUI traces、embodied trajectories 與 editing sequences 太雜亂、資訊密度不均，令人和模型都難以有效吸收。

現有做法多數依賴 passive annotation paradigms，用 heuristic rules 或 general VLMs 被動加標籤；作者認為這類方式成本高、內容單調，亦抓不到原始資料入面的 procedural logic。DataClaw0 改用「Bottom-up Factual Anchors → Top-down Semantic Synthesis」兩段式流程，先抽取較確定的 factual anchors，再按意圖生成結構化語意，重點在於它不是只描述內容，而是按 downstream objective 重寫資料。

模型層面，項目提出 DataClaw-9B，並以 Supervised Fine-Tuning（SFT）加 rule-driven Group Relative Policy Optimization（GRPO）做對齊；部署上分成 unified Omni model 的 DataClaw-O，以及分領域 Experts 的 DataClaw-E。這種取向的取捨很明顯：Omni 較方便統一處理多域資料，Experts 則較可能在特定場景保留更細緻的領域表達。

現階段先看論文與案例再判斷是否值得追蹤，因為 code、model weights、dataset 和 DataClaw-val benchmark 仍未正式釋出。已公開資訊顯示，它的評測不只看生成是否通順，還會檢查 JSON validity，以及 schema-aware 的 Field、Semantic、Sequence 指標，並再用 video generation、real-world VQA、GUI navigation 的下游 post-training 效果驗證資料整理是否真的有用。

項目類型：研究原型／資料整理框架，重點是把原始多模態串流轉成意圖對齊的訓練資料
主要差異：不是被動標註，而是主動 refinement，並保留 schema-conformant、verifiable 輸出
相關模型：DataClaw-9B、DataClaw-O、DataClaw-E，訓練結合 SFT 與 rule-driven GRPO
適合情境：做多模態 post-training、GUI agents、VQA、影片或 embodied 資料整理的團隊

如果你關心的是建立資料引擎，而不只是找一個模型做推理，DataClaw0 比一般 VLM 標註流程更有方向性。限制也很直接：目前公開內容以論文與項目頁案例為主，能否重現效果、部署成本多高、不同領域泛化有多穩，仍要等正式釋出的資料與基準再作判斷。

GitHub： https://github.com/vancyland/DataClaw0

項目主頁： https://czjdsg.github.io/MakeAnyData/#cases

Paper： https://arxiv.org/pdf/2606.21337

Categories: 開源, Qwen, Gemini, Agentic, Video, 工具, IDE, 多模態模型, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 視頻模型, 框架, Dataset 數據集

SproutRAG：長文 RAG 檢索的新取向

2026 年 6 月 23 日

現時不少 RAG（Retrieval-Augmented Generation）做法，通常在「細粒度 chunk 準確但零碎」與「大段內容連貫但嘈雜」之間取捨；有些方法靠 LLM-guided chunking、single-level context expansion，或 hierarchical summarization 去補救，但代價是要額外 LLM 呼叫、只支援單一層級擴展，或者在摘要過程流失資訊。SproutRAG 提出的方向，是用 attention-guided hierarchical RAG framework，把句子逐步組成語意連貫的多層結構，再做 multi-granularity retrieval。

這是一個 RAG 工具／框架，重點不是單獨一個模型，而是把索引、檢索、reranking、答案生成與評測串成完整流程，處理長文件問答中「證據要夠準又要保留上下文」的問題。它用 YAML 或 JSON config 驅動 CLI，每一步各有設定，輸出統一是 JSON，對接下游工具和保留可重現紀錄都幾方便。

部署和測試思路算清楚：先準備 JSONL 文件，之後分開建立 index、執行 retrieve、再 answer；若要研究效果，還可 train 和 evaluate。附加套件分別對應 PyYAML、ROUGE-L、METEOR、BERTScore 及 spaCy，反映這個項目除了生成，也很著重檢索與答案品質的量化比較。

和常見 flat retrieval 相比，SproutRAG 較值得留意的是 hierarchical attention-based indexing 加上 hierarchical beam search：它不是只撈單一粒度片段，而是沿樹狀結構找不同大小的候選證據。論文資料指出，它在四個 benchmark 的 information efficiency（IE）平均比最強 baseline 高 6.1%，但目前公開說明未見太多資源消耗與大型部署細節，訓練部分亦提到 MS MARCO 只先載入 v2.1 train split 的首 30k 筆樣本，代表現階段較適合研究、評測與流程驗證。

適合需要處理長文件的 RAG 項目，例如法律、科研、知識庫問答
配置檔主導流程，方便版本控制、重現實驗與比較不同設定
支援 optional reranking 與生成評測，不只是單做檢索
相關模型包括 sentence-transformers/all-MiniLM-L6-v2，底層依賴 PyTorch 2.x 與 Transformers 4.51+
若你想比較多粒度證據檢索與傳統 chunk-based RAG 的差異，這個項目很有研究價值

GitHub： https://github.com/AmirAbaskohi/SproutRAG

Paper： https://arxiv.org/pdf/2606.18381

Categories: 開源, 工具, Python, Python NLP, RAG, 庫, Meta, 框架

StylisticBias 拆解 MLLMs 視覺偏見

2026 年 6 月 23 日

不少 Multimodal Large Language Models（MLLMs）偏見研究，通常拿不同人物或群組互相比較；問題是外貌差異與身份差異會纏在一起，最後很難判斷模型究竟是受年齡、衣著、身形影響，還是只是換了另一個人。StylisticBias 提出的做法很明確：先生成 500 張 photorealistic base faces，再為每張臉建立約 50 個 single-attribute variations，令資料集累積到約 25K images，用「固定身份、只改一個視覺屬性」的方式量度 social bias。

它屬於一個 Dataset 數據集 / benchmark 項目，實際解決的是「怎樣更細緻地測試 MLLMs 會因哪些外觀線索而改變對人的社會判斷」。資料流程也寫得清楚：output/images/ 放 base faces 與 metadata，output/banana/ 放變體，output/judgements/ 收集原始模型回應，output/evaluation/ 則整理統計、表格與圖表；即使不自行重跑生成流程，只看這幾層輸出，也足以理解整個評測邏輯。

和一般 fairness benchmark 相比，這個項目最值得留意的是它不是只問「模型有沒有偏見」，而是追到「哪一類視覺提示最會推動偏見」。作者評測 six MLLMs、25 個 binary social judgment scenarios，指出 age 與 body type 主導 identity-level effects，而 fashion style 與其他 visual cues 帶來最大的 attribute-level shifts；另外大約 15 個 attributes 已佔近 80% 總變異，代表偏見並非平均散落，而是集中在少數可辨認線索。

固定同一張臉，只改一個屬性，較易分開 appearance effects 與 identity differences
規模約 25K images，適合做較細粒度的 bias analysis
結果顯示 age、body type、fashion style 是高敏感因素
judgement 對 appearance 語意較貼近的場景最敏感，尤其 socioeconomic 與 style-related 判斷

這項目最適合評估多模態產品風險的團隊、研究 AI fairness 的學者，以及要比較不同 vision-language model 行為的人。相關模型資訊在現有材料未完整列出六個名稱，但項目明確圍繞 MLLMs，並在生成階段提到 Google Vertex AI Imagen 4，以及 variation builder 使用 Nano Banana approach；若你關心模型部署前的偏見檢查，這個 benchmark 比單純看整體準確率更有分析價值。

GitHub： https://github.com/timo-cavelius/StylisticBias

項目主頁： https://huggingface.co/datasets/shaghayegh/stylistic-bias-dataset

Paper： https://arxiv.org/pdf/2606.20527

Categories: 開源, Google, Gemini, NanoBanana, Image, 多模態模型, 安全, 視覺模型, Meta, 框架, Dataset 數據集

MCompassRAG 把 RAG 檢索變得更準更省

2026 年 6 月 23 日

現時不少 RAG 會用 dense retrieval，直接把查詢同文本 chunk 的 embedding 拿去比對；當 chunk 切得較粗、語料又雜，語意接近未必等於真正答到問題。MCompassRAG 屬於檢索框架，做法是替段落加入 topic metadata，再用 LLM teacher 離線產生判斷訊號，蒸餾成一個輕量 retriever，修正「只靠 chunk embedding 排名」這種固定範式的偏差。

它的取向幾清楚：把較重的判斷放在訓練前期，推理階段只保留 metadata bank、embedding lookup 同小型 scorer，所以標明可做到 zero LLM calls at inference。這個取捨很適合想保留檢索速度，但又嫌傳統向量檢索太粗糙的團隊；代價是前處理較長，要先訓練 topic model，再生成 distillation data。

項目流程分成幾步：先準備語料、訓練 topic model、生成蒸餾資料、建立 metadata index，再訓練 retriever。環境上要 Python 3.10+、PyTorch 2.x、Transformers 4.51+，而且建議有 CUDA GPU；OpenRouter API key 只在 Step 2 — Generate distillation data 需要，之後檢索本身不依賴 LLM 連線。

可留意的重點有幾個：
– 不只重排結果，而是把 topic signal 放進 retriever embedding space 一齊學習
– 支援可插拔 topic model backend，現成有 CEMTM、ETM、CWTM、SoftLTM
– 推理成本貼近 embedding model latency，較適合高頻查詢場景
– 比起純 dense retrieval，更著重 paragraph-level evidence quality

作者強調它會在 complex retrieval benchmarks 提升 evidence quality 同效率，但目前倉庫內容較像 research implementation，未見非常完整的產品化基準表。較受惠的會是做知識庫問答、文件搜尋、企業內部檢索的團隊，尤其當資料主題分散、段落切分又未必夠細時，MCompassRAG 的 topic compass 概念比單純換一個 embedding model 更有分析價值。

GitHub： https://github.com/AmirAbaskohi/MCompassRAG

項目主頁： https://huggingface.co/papers/2606.18508

Paper： https://arxiv.org/pdf/2606.18508

Categories: 開源, API, Embedding, Python NLP, RAG, 庫, 模型訓練, 框架

MemSlides 把簡報生成變成可記憶代理

2026 年 6 月 22 日

MemSlides hierarchical memory and localized revision overview

不少簡報生成工具仍然走 one-shot source-to-slides conversion：丟一份材料進去，整份投影片一次生成，之後每次修改又大範圍重做。MemSlides 把問題改寫成 stateful authoring process，核心不是單次輸出，而是記住你是誰、這一輪想改甚麼，以及過往哪些工具操作較可靠。

這是一個 Agent Framework，目標是解決 personalized slide generation 與 multi-turn local revision 兩個常見痛點。它把記憶拆成 user profile memory、working memory、tool memory：前者保存跨工作重覆出現的偏好，中段記住當前簡報的限制與暫時要求，後者則保留工具鏈執行經驗，方便之後做相似修改時少走彎路。

跟同類做法相比，最需要留意的是它不主張每次收到新意見就重生整副 deck，而是做 scoped slide-local revision，只更新受影響的最小區域。這種取向的好處是修改更穩定，較易保留原本好的內容；代價是整體品質會依賴記憶管理與局部編輯判斷是否準確。

從倉庫資訊看，這個項目較適合研究 presentation agents、企業內部簡報自動化，或要反覆為不同角色產出版本的團隊。倉庫亦提供 Docker Hub、網站、示範影片與論文連結，理解方式可先看 demo，再決定用容器部署還是按 Python 3.11 與 Node 20 的環境自行搭建；不過公開資訊未見完整量化基準，現階段較像研究型框架，而非已標準化的產品方案。

把簡報生成由一次性輸出改成有狀態的寫作流程
分層記憶是重點：user profile memory、working memory、tool memory
修改時傾向局部修補，不是整份重生成
適合需要 persona-aware 內容、反覆修訂、多人協作的情境
相關元素包括 presentation agents、multi-turn revision、localized editing、tool-chain execution

GitHub： https://github.com/huohua325/Memslides

項目主頁： https://memslides.github.io/

Categories: 開源, Agentic, 工具, IDE, Python, Python NLP, 庫, 清華大學, 框架

GateMem：測試 AI 記憶有冇分寸

2026 年 6 月 22 日

現有記憶基準多數集中問一件事：代理可唔可以正確記住資料；GateMem 改問更接近部署環境的問題：同一個 shared memory 俾多個 principal 共用時，代理能否按角色、授權範圍同刪除要求去管理資訊。作者批評舊範式偏向 single-user recall，未能反映多方協作場景入面最常見的越權讀取、過度披露同刪除後重建資訊風險。

GateMem屬於Benchmark / Dataset 數據集項目，用來評估 memory-augmented LLM agents 在 multi-principal shared-memory agents 情境下，是否同時做到 Utility、Access Control 同 Active Forgetting。它把 persistent memory 視為 governed shared state，而唔係私人快取，這個 framing 令測試重點由「記得幾準」轉去「幾時應該答、幾時唔應該答」。

資料規模唔算細：4 個場景、91 個 long-form episodes、2,218 個 hidden checkpoints，涵蓋 Medical、Office、Education、Household。評分核心有一個 MGS 指標：MGS = U · (1 − A) · (1 − F)，即係授權下要有用，未授權時要少洩漏，刪除後亦唔可以被確認、還原或旁敲側擊重建。

要理解點樣測，重點係用它提供的 benchmark toolkit、dataset 同 leaderboard 去跑代理，再對照 hidden checkpoints 睇表現。較受用的會係做 Agentic 系統、長期記憶代理、企業內部助理、醫療或教育流程自動化的團隊，因為呢類系統最怕的通常唔係答錯一次，而係記對咗但講錯人聽。

核心差異：由單人記憶召回，轉成多角色共享記憶治理
三個評測面向：Utility、Access Control、Active Forgetting
場景貼近機構流程，包含授權、關係變化、刪除請求
相關模型背景包括 memory-augmented LLM agents、persistent memory agents，同頁面亦提到測過 6 backbone LLMs、7 memory baselines，但具體型號需以論文或排行榜為準
限制係它主要衡量治理表現，唔等於完整覆蓋所有真實政策、法規或系統整合成本

GitHub： https://github.com/rzhub/GateMem

項目主頁： https://rzhub.github.io/GateMem/project.html

Paper： https://arxiv.org/pdf/2606.18829

Categories: 開源, Agentic, Medical醫學, 安全, 模型, 框架, Dataset 數據集

PermaVid 令影片修改後仍然連貫

2026 年 6 月 22 日

很多影片生成方法處理編輯任務時，會把過往畫面當成單一記憶來源；一旦做了 style、season、weather 或 time 這類修改，舊記憶就可能變成過時參考，之後生成的鏡頭容易出現人物變樣、場景走位錯亂，或者視角切換後對不上。PermaVid 提出的方向，是把「外觀語意」同「幾何結構」分開保存，避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架，核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下，仍保持內容連貫。它使用 disentangled context memory：RGB context memory 負責記錄 semantic appearance，depth context memory 則保留 geometry-only structure，再配合 edit-aware memory update and retrieval，把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比，PermaVid 的取捨很清楚：系統更複雜，也要同時處理 RGB 與 depth 兩種脈絡，但換來的是編輯之後的長期一致性。從儲存庫資訊看，項目亦提供 dataset、paper 及 demo，並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型，顯示它不是輕量玩具，而是偏研究型、多模組組合的完整流程。

支援相機移動控制，例如 direction-frames-speed 這類格式
編輯類型涵蓋 style、season、weather、time 等全局變化
重點不只是生成單段片，而是修改之後仍維持後續片段一致
需要較完整環境配置，包含 PyTorch、CUDA 與額外訓練／推理依賴

如果你是做 instruction-based video editing、reference video generation，或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性，這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods，但公開資訊未列出完整量化分數；較穩妥的理解，是它的亮點在方法設計與 benchmark 表現方向，而不是即裝即用的消費級工具。

GitHub： https://github.com/YS-IMTech/PermaVid

項目主頁： https://ys-imtech.github.io/projects/PermaVid/

Paper： https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, 庫, 影像處理, 視覺模型, 視頻模型, 框架, Dataset 數據集

UME 可回饋力度的機械人遙操作外骨骼

2026 年 6 月 22 日

Universal Manipulation Exoskeleton（UME）是一個上肢外骨骼遙操作項目，重點不只是在遠端控制機械人，更是在操作期間即時提供 haptic torque feedback，並同步記錄整條手臂姿態與關節 torque 訊號。頁面指出，它想解決的核心問題是：很多機械人示範數據流程只記到動作，卻記不到接觸時的力與扭力，令模型較難學會順應環境的 compliant 行為。

與常見只靠視覺或位置控制的做法相比，UME 把「人手感受到的阻力」直接帶回操作者身上。這種透明 torque feedback 令操作者即使蒙眼，也能完成例如抽出受運動限制物件這類任務；對需要接觸、擠壓、推動或在狹窄空間內調整角度的工作，差異尤其明顯。

UME 配備 embedded IMU，可支援 mobile manipulation，並配合 universal retargeting algorithm，把同一套操作映射到不同機械臂，包括 7DoF OpenArm、7DoF Franka 與 6DoF X-ARM。整套 UME system 成本為 1900 美元，詳細成本拆解可在論文中找到，這對研究團隊或自建實驗平台的人來說，是很實際的參考點。

可記錄 whole-arm configurations 與 joint torque signals，用於訓練 active compliant policies
支援 bimanual、whole-body 及 long-horizon mobile manipulation 任務
已展示雪櫃取飲品、箱子翻轉、遮擋下推箱、狹窄桌面操作等情境
頁面提供 Paper、Video，Code 標示為 coming soon，現階段較適合先理解方法與看示範

最受用的會是做 Robotic、teleoperation、模仿學習與機械人數據收集的人。性能方面，頁面以多個 autonomous policy 示範強調高成功率與抗干擾能力，亦有與 UMI、No-torque 設定的比較，但若要判斷完整指標、成本細節與評測方式，仍需回到論文原文核實。

項目主頁： https://ume-exo.github.io/

Paper： https://arxiv.org/pdf/2606.14218

Categories: 開源, Robotic, 框架

SR-REAL 把空間推理拆成兩條路

2026 年 6 月 21 日

現有 spatial VLM 往往用單一路線回答空間問題，不是純文字 chain-of-thought，就是直接靠感知結果輸出答案；作者認為這種固定範式難以同時處理語意推理與精確幾何判斷。SR-REAL 提出的做法，是把空間推理分成 Language-Only Reasoning（LOR）與 Detect-Then-Reason（DTR）兩條互補路徑，前者逐步文字推理，後者先找 3D 幾何線索，再做明確幾何推斷。

這個項目屬於框架加訓練流程實作，核心是強化 spatial vision-language models 在複雜空間問答中的判斷能力。它不是單純新增資料集，而是從 cold-start supervised fine-tuning 到 reinforcement learning（RL）都重新安排，並加入 region-to-3D 介面，令模型可把 region tokens 連到 3D 座標、中心點或 bounding boxes。

SR-REAL 重點集中在資料準備與訓練前處理。流程上會先用 SPAR、EmbodiedScan 等來源整理物件對應與 3D 座標，再由 expert.py 生成推理鏈，配合 qwen3.py 抽取物件名稱，最後組成 DTR 指令微調資料；若不想自行重建，也可直接下載作者已整理好的 Hugging Face 數據。這表示它較適合有 Python、資料處理及多模態訓練基礎的研究團隊，而不是即裝即用的終端工具。

和同類做法相比，SR-REAL 不假設所有空間問題都應該用同一種 reasoning path。作者的取向很清楚：語意關係適合 LOR，涉及明確位置、距離、中心點、框選區域的題目則交給 DTR；代價是整個資料構建與訓練流程更複雜，對 grounding 資料品質亦更敏感。

重點不在單一模型結構，而在 LOR + DTR 雙路徑推理設計
DTR 會先處理 region tokens 與 3D 幾何線索，再做空間判斷
訓練分為 cold-start supervised fine-tuning 與 reinforcement learning（RL）兩段
已提及 accuracy、format、detection rewards，顯示評測不只看答對與否，也看輸出格式及幾何對齊
相關模型與資料來源包括 spatial VLM、SR-3D、Qwen3、SPAR、EmbodiedScan、SpatialRGPT、Omni3D、CA1M、OmniNOCS

SR-REAL 在多個 spatial benchmarks 有明顯提升，並強調單一 RL-trained model 可同時支援兩條路徑，且不用 per-task tuning 也能跨資料集泛化。不過儲存庫片段未完整列出詳細分數與對照表，因此較穩妥的判斷是：這是一個研究味很重、方法論清晰的項目，適合關注 spatial reasoning、3D grounding、multimodal instruction tuning 的團隊拿來重現與延伸。

GitHub： https://github.com/jiyt17/SR-REAL

項目主頁： https://sr-real.github.io/

Categories: Qwen, 香港, 香港大學, Google, NVIDIA, DeepSeek, OpenAI, Agentic, 工具, 3D, Python, Python NLP, 多模態模型, 庫, 模型, 模型訓練, 編程, 框架

Moebius：輕量補圖模型挑戰 10B 級效果

2026 年 6 月 21 日

現時高質 image inpainting 多數依賴 10B 級大型通用模型，例如 FLUX.1-Fill-Dev，但代價是運算重、速度慢，部署門檻亦高。Moebius 屬於影像修補框架，核心目標很明確：用細得多的模型體積，換到接近甚至部分情境超過大型模型的補圖質素。

它的取向不是再把模型做大，而是重組 Latent Diffusion Model (LDM) 架構，再配合蒸餾把大模型能力壓縮進 0.22B 參數。當中的 Local-λ Mix Interaction（LλMI）block 以固定大小線性矩陣整理空間資訊與全域語意，避開 attention 常見的二次方計算負擔；另一邊再用 adaptive multi-granularity distillation，直接在 latent space 對齊 teacher PixelHacker，減少 pixel-space decoding 的訓練成本。

官方資料把它與 FLUX.1-Fill-Dev、SD3.5 Large-Inpainting 比較，指在 Places2、CelebA-HQ、FFHQ 等自然與人像場景共 6 個 benchmark 上，整體可做到同級甚至部分超前。數字上最搶眼的是少於 2% 參數量，以及總推理時間超過 15 倍加速；不過這些結果仍主要來自項目方報告，解讀時宜留意測試設定是否完全一致。

要理解這個項目怎樣落地，可先把它當成「為 image inpainting 而生的輕量 specialist」，而不是萬用生成平台。較適合資源有限的研究團隊、要在單 GPU 或邊緣設備部署影像修補的人、以及希望在速度與成本上取平衡的產品開發者；若你追求最廣泛的通用生成能力，大模型 generalist 仍有優勢。

類型定位：輕量 image inpainting framework，主打高效率部署
主要差異：不走純 scaling 路線，改用 LλMI block + distillation 壓縮能力
性能重點：0.22B 參數、單步 26.01ms、總推理約 15× 加速
相關模型：FLUX.1-Fill-Dev、SD3.5 Large-Inpainting、PixelHacker
適合情境：單 GPU、消費級硬件、對延遲與成本敏感的影像修補工作

GitHub： https://github.com/hustvl/Moebius

項目主頁： https://hustvl.github.io/Moebius/

Categories: 開源, Image, AI productions, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

Page 2 of 13

« Previous 1 2 3 4 … 13 Next »