庫 – Page 2 – InferNews

SproutRAG：長文 RAG 檢索的新取向

2026 年 6 月 23 日

現時不少 RAG（Retrieval-Augmented Generation）做法，通常在「細粒度 chunk 準確但零碎」與「大段內容連貫但嘈雜」之間取捨；有些方法靠 LLM-guided chunking、single-level context expansion，或 hierarchical summarization 去補救，但代價是要額外 LLM 呼叫、只支援單一層級擴展，或者在摘要過程流失資訊。SproutRAG 提出的方向，是用 attention-guided hierarchical RAG framework，把句子逐步組成語意連貫的多層結構，再做 multi-granularity retrieval。

這是一個 RAG 工具／框架，重點不是單獨一個模型，而是把索引、檢索、reranking、答案生成與評測串成完整流程，處理長文件問答中「證據要夠準又要保留上下文」的問題。它用 YAML 或 JSON config 驅動 CLI，每一步各有設定，輸出統一是 JSON，對接下游工具和保留可重現紀錄都幾方便。

部署和測試思路算清楚：先準備 JSONL 文件，之後分開建立 index、執行 retrieve、再 answer；若要研究效果，還可 train 和 evaluate。附加套件分別對應 PyYAML、ROUGE-L、METEOR、BERTScore 及 spaCy，反映這個項目除了生成，也很著重檢索與答案品質的量化比較。

和常見 flat retrieval 相比，SproutRAG 較值得留意的是 hierarchical attention-based indexing 加上 hierarchical beam search：它不是只撈單一粒度片段，而是沿樹狀結構找不同大小的候選證據。論文資料指出，它在四個 benchmark 的 information efficiency（IE）平均比最強 baseline 高 6.1%，但目前公開說明未見太多資源消耗與大型部署細節，訓練部分亦提到 MS MARCO 只先載入 v2.1 train split 的首 30k 筆樣本，代表現階段較適合研究、評測與流程驗證。

適合需要處理長文件的 RAG 項目，例如法律、科研、知識庫問答
配置檔主導流程，方便版本控制、重現實驗與比較不同設定
支援 optional reranking 與生成評測，不只是單做檢索
相關模型包括 sentence-transformers/all-MiniLM-L6-v2，底層依賴 PyTorch 2.x 與 Transformers 4.51+
若你想比較多粒度證據檢索與傳統 chunk-based RAG 的差異，這個項目很有研究價值

GitHub： https://github.com/AmirAbaskohi/SproutRAG

Paper： https://arxiv.org/pdf/2606.18381

Categories: 開源, 工具, Python, Python NLP, RAG, 庫, Meta, 框架

MCompassRAG 把 RAG 檢索變得更準更省

2026 年 6 月 23 日

現時不少 RAG 會用 dense retrieval，直接把查詢同文本 chunk 的 embedding 拿去比對；當 chunk 切得較粗、語料又雜，語意接近未必等於真正答到問題。MCompassRAG 屬於檢索框架，做法是替段落加入 topic metadata，再用 LLM teacher 離線產生判斷訊號，蒸餾成一個輕量 retriever，修正「只靠 chunk embedding 排名」這種固定範式的偏差。

它的取向幾清楚：把較重的判斷放在訓練前期，推理階段只保留 metadata bank、embedding lookup 同小型 scorer，所以標明可做到 zero LLM calls at inference。這個取捨很適合想保留檢索速度，但又嫌傳統向量檢索太粗糙的團隊；代價是前處理較長，要先訓練 topic model，再生成 distillation data。

項目流程分成幾步：先準備語料、訓練 topic model、生成蒸餾資料、建立 metadata index，再訓練 retriever。環境上要 Python 3.10+、PyTorch 2.x、Transformers 4.51+，而且建議有 CUDA GPU；OpenRouter API key 只在 Step 2 — Generate distillation data 需要，之後檢索本身不依賴 LLM 連線。

可留意的重點有幾個：
– 不只重排結果，而是把 topic signal 放進 retriever embedding space 一齊學習
– 支援可插拔 topic model backend，現成有 CEMTM、ETM、CWTM、SoftLTM
– 推理成本貼近 embedding model latency，較適合高頻查詢場景
– 比起純 dense retrieval，更著重 paragraph-level evidence quality

作者強調它會在 complex retrieval benchmarks 提升 evidence quality 同效率，但目前倉庫內容較像 research implementation，未見非常完整的產品化基準表。較受惠的會是做知識庫問答、文件搜尋、企業內部檢索的團隊，尤其當資料主題分散、段落切分又未必夠細時，MCompassRAG 的 topic compass 概念比單純換一個 embedding model 更有分析價值。

GitHub： https://github.com/AmirAbaskohi/MCompassRAG

項目主頁： https://huggingface.co/papers/2606.18508

Paper： https://arxiv.org/pdf/2606.18508

Categories: 開源, API, Embedding, Python NLP, RAG, 庫, 模型訓練, 框架

Apple container：Mac 原生容器新選擇

2026 年 6 月 22 日

container 是一個工具，用來在 Mac 上建立及執行 Linux containers，做法更接近把容器當成輕量虛擬機處理；它要解決的，是 Mac 開發者在本機跑 Linux 工作負載時，如何兼顧隔離、速度與 OCI 相容性。

這個項目最明顯的取向，是 Apple 自己用 Swift 編寫，並且針對 Apple silicon 優化，同時依賴 Containerization 這個 Swift package 處理較底層的 container、image 與 process 管理。跟不少人熟悉的 Docker Desktop 或其他 Mac 容器方案相比，它不是強調整合一大堆開發配套，而是集中做好原生執行、標準映像相容，以及 Apple 平台能力。

安裝不算複雜：官方提供已簽署的安裝包，裝好後要啟動 system service，並且整個項目只支援 Apple silicon 與 macOS 26。這代表門檻很清楚：如果你仍在舊版 macOS，或者團隊有 Intel Mac，這個項目暫時就不會是通用解法。

Apple Just Built WSL for the Mac (Container Machines)

Watch this video on YouTube

它支援讀寫 OCI-compatible container images，所以可以從標準 container registry 拉取映像、建立映像，再推回其他 OCI-compatible application 可用的環境。對開發團隊來說，這點很重要，因為它不是把流程鎖死在 Apple 自家格式，而是保留與現有容器生態互通。

針對 Apple silicon 與 macOS 26，平台限制明確
支援 OCI-compatible container images，可接標準 registry
底層建基於 Containerization，偏向原生與輕量路線
較適合 Mac 開發、測試、映像建置，不是全功能平台替代品

效能方面，暫時沒有提供完整官方基準數字，但外部已有文章把它放到 Docker Desktop、OrbStack 一類方案旁邊看 CPU、記憶體、啟動時間與 I/O。即使未能單靠儲存庫內容下定論，仍可合理判斷：Apple 想做的不是「功能最多」，而是在自家硬件上提供更貼近系統能力的容器執行方式。較受惠的會是以 Mac 為主要開發機、需要 OCI 相容流程、又願意接受新平台限制的工程團隊。

這個項目不是 AI 模型；若要說相關技術組件，主要是 OCI-compatible container images 與 Containerization。

GitHub： https://github.com/apple/container

項目： https://developer.apple.com/videos/play/wwdc2026/389/

Categories: 開源, 工具, Linux, Mac, 庫, 蘋果

MemSlides 把簡報生成變成可記憶代理

2026 年 6 月 22 日

MemSlides hierarchical memory and localized revision overview

不少簡報生成工具仍然走 one-shot source-to-slides conversion：丟一份材料進去，整份投影片一次生成，之後每次修改又大範圍重做。MemSlides 把問題改寫成 stateful authoring process，核心不是單次輸出，而是記住你是誰、這一輪想改甚麼，以及過往哪些工具操作較可靠。

這是一個 Agent Framework，目標是解決 personalized slide generation 與 multi-turn local revision 兩個常見痛點。它把記憶拆成 user profile memory、working memory、tool memory：前者保存跨工作重覆出現的偏好，中段記住當前簡報的限制與暫時要求，後者則保留工具鏈執行經驗，方便之後做相似修改時少走彎路。

跟同類做法相比，最需要留意的是它不主張每次收到新意見就重生整副 deck，而是做 scoped slide-local revision，只更新受影響的最小區域。這種取向的好處是修改更穩定，較易保留原本好的內容；代價是整體品質會依賴記憶管理與局部編輯判斷是否準確。

從倉庫資訊看，這個項目較適合研究 presentation agents、企業內部簡報自動化，或要反覆為不同角色產出版本的團隊。倉庫亦提供 Docker Hub、網站、示範影片與論文連結，理解方式可先看 demo，再決定用容器部署還是按 Python 3.11 與 Node 20 的環境自行搭建；不過公開資訊未見完整量化基準，現階段較像研究型框架，而非已標準化的產品方案。

把簡報生成由一次性輸出改成有狀態的寫作流程
分層記憶是重點：user profile memory、working memory、tool memory
修改時傾向局部修補，不是整份重生成
適合需要 persona-aware 內容、反覆修訂、多人協作的情境
相關元素包括 presentation agents、multi-turn revision、localized editing、tool-chain execution

GitHub： https://github.com/huohua325/Memslides

項目主頁： https://memslides.github.io/

Categories: 開源, Agentic, 工具, IDE, Python, Python NLP, 庫, 清華大學, 框架

PermaVid 令影片修改後仍然連貫

2026 年 6 月 22 日

很多影片生成方法處理編輯任務時，會把過往畫面當成單一記憶來源；一旦做了 style、season、weather 或 time 這類修改，舊記憶就可能變成過時參考，之後生成的鏡頭容易出現人物變樣、場景走位錯亂，或者視角切換後對不上。PermaVid 提出的方向，是把「外觀語意」同「幾何結構」分開保存，避免一次編輯令全部上下文一齊失效。

這是一個影片生成框架，核心工作是讓 edited video 在跨時間、跨視角、跨多次修改之下，仍保持內容連貫。它使用 disentangled context memory：RGB context memory 負責記錄 semantic appearance，depth context memory 則保留 geometry-only structure，再配合 edit-aware memory update and retrieval，把新修改過的資訊逐步寫回記憶。

和一般只靠單一記憶庫或單一路徑條件控制的方法相比，PermaVid 的取捨很清楚：系統更複雜，也要同時處理 RGB 與 depth 兩種脈絡，但換來的是編輯之後的長期一致性。從儲存庫資訊看，項目亦提供 dataset、paper 及 demo，並依賴 Wan2.1-VACE-14B、Qwen-Image-Edit、Qwen3-VL-8B-Instruct 等模型，顯示它不是輕量玩具，而是偏研究型、多模組組合的完整流程。

支援相機移動控制，例如 direction-frames-speed 這類格式
編輯類型涵蓋 style、season、weather、time 等全局變化
重點不只是生成單段片，而是修改之後仍維持後續片段一致
需要較完整環境配置，包含 PyTorch、CUDA 與額外訓練／推理依賴

如果你是做 instruction-based video editing、reference video generation，或者想研究 Computer Vision 同多模態記憶如何影響長片段一致性，這個項目很有參考價值。現有資料提到它在長期 semantic 與 structural consistency 上明顯優於 state-of-the-art methods，但公開資訊未列出完整量化分數；較穩妥的理解，是它的亮點在方法設計與 benchmark 表現方向，而不是即裝即用的消費級工具。

GitHub： https://github.com/YS-IMTech/PermaVid

項目主頁： https://ys-imtech.github.io/projects/PermaVid/

Paper： https://arxiv.org/pdf/2606.16449

Categories: 開源, 阿里巴巴, Qwen, 香港, 香港中文大學, NVIDIA, Video, Image, 工具, Python, 庫, 影像處理, 視覺模型, 視頻模型, 框架, Dataset 數據集

SR-REAL 把空間推理拆成兩條路

2026 年 6 月 21 日

現有 spatial VLM 往往用單一路線回答空間問題，不是純文字 chain-of-thought，就是直接靠感知結果輸出答案；作者認為這種固定範式難以同時處理語意推理與精確幾何判斷。SR-REAL 提出的做法，是把空間推理分成 Language-Only Reasoning（LOR）與 Detect-Then-Reason（DTR）兩條互補路徑，前者逐步文字推理，後者先找 3D 幾何線索，再做明確幾何推斷。

這個項目屬於框架加訓練流程實作，核心是強化 spatial vision-language models 在複雜空間問答中的判斷能力。它不是單純新增資料集，而是從 cold-start supervised fine-tuning 到 reinforcement learning（RL）都重新安排，並加入 region-to-3D 介面，令模型可把 region tokens 連到 3D 座標、中心點或 bounding boxes。

SR-REAL 重點集中在資料準備與訓練前處理。流程上會先用 SPAR、EmbodiedScan 等來源整理物件對應與 3D 座標，再由 expert.py 生成推理鏈，配合 qwen3.py 抽取物件名稱，最後組成 DTR 指令微調資料；若不想自行重建，也可直接下載作者已整理好的 Hugging Face 數據。這表示它較適合有 Python、資料處理及多模態訓練基礎的研究團隊，而不是即裝即用的終端工具。

和同類做法相比，SR-REAL 不假設所有空間問題都應該用同一種 reasoning path。作者的取向很清楚：語意關係適合 LOR，涉及明確位置、距離、中心點、框選區域的題目則交給 DTR；代價是整個資料構建與訓練流程更複雜，對 grounding 資料品質亦更敏感。

重點不在單一模型結構，而在 LOR + DTR 雙路徑推理設計
DTR 會先處理 region tokens 與 3D 幾何線索，再做空間判斷
訓練分為 cold-start supervised fine-tuning 與 reinforcement learning（RL）兩段
已提及 accuracy、format、detection rewards，顯示評測不只看答對與否，也看輸出格式及幾何對齊
相關模型與資料來源包括 spatial VLM、SR-3D、Qwen3、SPAR、EmbodiedScan、SpatialRGPT、Omni3D、CA1M、OmniNOCS

SR-REAL 在多個 spatial benchmarks 有明顯提升，並強調單一 RL-trained model 可同時支援兩條路徑，且不用 per-task tuning 也能跨資料集泛化。不過儲存庫片段未完整列出詳細分數與對照表，因此較穩妥的判斷是：這是一個研究味很重、方法論清晰的項目，適合關注 spatial reasoning、3D grounding、multimodal instruction tuning 的團隊拿來重現與延伸。

GitHub： https://github.com/jiyt17/SR-REAL

項目主頁： https://sr-real.github.io/

Categories: Qwen, 香港, 香港大學, Google, NVIDIA, DeepSeek, OpenAI, Agentic, 工具, 3D, Python, Python NLP, 多模態模型, 庫, 模型, 模型訓練, 編程, 框架

MolmoMotion 把語言變成 3D 動作預測

2026 年 6 月 21 日

現有做法多數偏向追蹤已經發生的移動，或者只在 2D 畫面估計下一步位置；作者認為這種 retrospective 範式難以支援機械人規劃與可控影片生成，所以提出 MolmoMotion、MolmoMotion-1M 同 PointMotionBench，把問題改成「根據語言指令預測 3D 點位未來軌跡」。這不是單純看影片理解內容，而是要模型根據短段 RGB 歷史、2D query points、初始 3D 位置，以及文字動作描述，預測之後約 2 秒的 3D movement。

MolmoMotion 本身屬於模型，更準確地說是 4B vision-language model，處理的是物件上指定點會怎樣移動的預測問題。儲存庫目前公開的是 autoregressive (AR) variant，並提供訓練資料、評測集、已釋出模型，以及由 pretrain 到 long-horizon finetune 的兩階段流程，較適合研究團隊直接重現結果或改成自家任務。

和同類方法相比，這個項目的取向很鮮明：它不是先做一般影片理解，再另外接 motion head，而是把 language-guided 3D point trajectory forecasting 當成核心任務。代價是輸入要求較多，你要有 query points 同初始 3D 資訊；回報則是輸出更貼近規劃用途，特別適合要預測「物件將會點樣郁」而不是只想分類場景的人。

可預測最長約 2 秒未來軌跡，文件提到 15 fps、F=30 或 F=32 的設定
評測指標列出 ADE、FDE、PWT，焦點放在軌跡準確度而非只看畫面相似度
配套包含 MolmoMotion-1M 訓練資料集與 PointMotionBench 評測基準
作者指出學到的 motion prior 可轉移到 robotics planning 與 motion-guided video generation

部署與測試的理解方式相當直接：先下載模型、資料集或 benchmark，再按儲存庫提供的 evaluation 與 training 流程執行；若不打算重訓，較合理是先拿已釋出模型跑 PointMotionBench 或自家樣本，看看語言指令改變時，3D 點位預測是否穩定。現有資訊未見完整效能數字摘錄，但官方明確聲稱表現明顯優於既有 forecasting 方法；較保守的判斷是，它最適合 embodied AI、robotics、可控影片生成研究者，以及需要把語言意圖轉成未來運動假設的團隊。

相關模型與資源包括：MolmoMotion、其 autoregressive (AR) variant、MolmoMotion-1M、PointMotionBench；底層 backbone 初始化與從零訓練入口亦有提供。

GitHub： https://github.com/allenai/molmo-motion

項目主頁： https://allenai.org/blog/molmo-motion

Categories: 開源, Video, 3D, AI productions, IDE, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 視頻模型, Robotic, Dataset 數據集

visually_grounded_thinking：讓 VLM 推理同時指向圖片證據

2026 年 6 月 21 日

現時不少 Vision-Language Models（VLMs）做視覺推理時，通常只輸出文字思路，證據其實來自圖片哪一部分，模型未必講得清。作者認為這種 text-only reasoning trace 難驗證、亦難監督，所以提出 visually grounded thinking：在推理文字中插入 <obj>...</obj>，直接標示 point 或 box 座標，將語句同圖片區域綁在一起。

這不是單純加標籤的格式改動，而是一套訓練與評測流程。項目先用 open-source counting 與 spatial reasoning datasets 合成帶視覺依據的思路，再用 SAM3-based grounding agent 產生 mask supervision，之後分別用 SFT 與 GRPO 訓練；RL 階段再靠 grounding-aware reward，以 box IoU 或 point F1 檢查模型指向的物件是否對應正確證據。

同類做法多數關注答案啱唔啱，這個項目連中間引用的圖像證據都計分，取向明顯較重視可驗證性。不過代價亦很清楚：資料製作、物件對齊、reward routing 都更複雜，訓練門檻比只做文字 reasoning 高，較適合已經有 VLM 訓練流程的研究團隊。

在 counting benchmarks 與 spatial reasoning benchmarks，加上 visually grounded thinking 的 Gemma3-4B-IT 普遍優於原版模型與 non-grounded thinking baseline；在部分空間推理任務，4B 版本甚至可追上或超過 Gemma3-27B-IT。作者亦指出 point grounding 較適合 counting，而 box grounding 在 spatial tasks 配合 grounding rewards 效果更突出。

類型上，它屬於 VLM 訓練框架加研究代碼，重點是改善視覺推理過程缺乏可核對證據的問題。
儲存庫已分開 data_synthesis_pipeline、agent、rl_reward、sft_dataset、VLMEvalKit 與 scripts，結構算清晰，理解流程會比直接改模型權重更重要。
部署思路偏研究用途，較可能需要 Docker 環境、SFT/RL 訓練配置，以及自備算力，而不是即裝即用的終端工具。
相關模型與元件包括 Gemma3-4B-IT、Gemma3-27B-IT、SAM3、GRPO、SFT、VLMEvalKit。
適合關注可解釋視覺推理、VQA、counting、spatial reasoning，或者想把中間推理變成可監督訊號的團隊。

GitHub： https://github.com/Jun-Kai-Zhang/visually_grounded_thinking

Paper： https://arxiv.org/pdf/2606.16122

Categories: 開源, Gemini, Agentic, Image, 工具, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, Meta, 框架, Dataset 數據集

Holo-World 把天氣與鏡頭控制放進影片生成

2026 年 6 月 21 日

Repository image for XiangchenYin/Holo-World

Holo-World 是一個Video World Model項目，目標不是單純把靜態圖片變成短片，而是由單張首幀出發，按照指定的鏡頭路徑、物件動態與天氣指令生成影片，盡量保留原本場景結構。對一般讀者來說，可把它理解成「你先給一個世界起點，再要求系統改變拍攝方式與天氣，但不要連場景骨架都改走」。

它和常見影片編輯做法的分別，在於不少方法要先有來源影片，甚至依賴已經包含未來結構的重建場景；Holo-World 則強調 first-frame-anchored source-to-state 設定，只由一張圖開始。這種取向更靈活，但難度也高，因為模型要自己補出後續畫面，同時維持鏡頭控制、物件位置和天氣效果不互相打架。

這個項目核心包含 HoloStateData、Unified Scene Adapter 與 Scene-Weather Decomposed CFG。前者是為相機、物件、天氣建立統一監督樣本的資料集；後兩者則把「場景保持」與「天氣轉換」分開處理，目的是減少下雨、下雪、起霧時把整個場景細節一併沖散的情況。論文與項目頁提到，量化與視覺結果都顯示它在 weather-state generation 上優於 video-to-video weather editing baselines，但目前倉庫內容仍偏研究展示，未見完整安裝與推理流程，較適合先當作研究方向理解。

可由單張圖片出發，而非必須先提供完整來源影片
同時控制 camera、object、weather，比單一條件生成更完整
重點取捨在於維持場景結構一致，同時讓天氣效果夠明顯
較適合研究 world model、可控影片生成、合成場景模擬的團隊

如果你關心自動駕駛模擬、生成式影片控制，或想研究世界模型如何把幾種控制訊號整合，這個項目很有參考價值。相關模型與組件可留意 Holo-World 本身，以及資料集 HoloStateData；從現有資料判斷，它現階段更像研究型模型與方法展示，未必是即裝即用的生產工具。

GitHub： https://github.com/XiangchenYin/Holo-World

項目： https://xiangchenyin.github.io/Holo-World/

Categories: 開源, Video, Image, 工具, 庫, 模型, 視覺模型, 視頻模型, 世界模型, 中國

ImageWAM 用圖片編輯做機械人決策

2026 年 6 月 21 日

Repository image for yuyangalin/ImageWAM

ImageWAM 是一個模型訓練與評測項目，核心目標是用 image-editing foundation models 取代傳統 World Action Models (WAMs) 常見的影片生成流程，處理機械人動作預測又慢又重的問題。它的判斷很鮮明：與其生成一段未來畫面，不如直接從「當前影像 + 指令」抽取足夠的動作線索。

這項目把圖片編輯模型的中間表徵拿來做 robot action prediction。根據項目頁資料，ImageWAM 推論時不一定要解碼出編輯後影像，而是使用單次 image editing forward step 產生的 KV caches，再交給 action expert 生成未來動作，方向上比多幀影片預測更輕量。

先看 FLUX.2 ImageWAM，因為倉庫已表明它是主力版本，並提供 4B 與 9B 變體。之後再按手上資料與算力，準備本地 datasets、pretrained weights、ActionDiT 初始化權重，然後在 LIBERO、LIBERO-plus 或 RoboTwin 這幾個基準環境做訓練與評測。

這個方向不只是概念實驗。項目頁列出 RoboTwin 2.0 為 93.38%、LIBERO 為 98.4%、LIBERO-Plus 為 83.1%，並提到可節省 4.1× FLOPs、推論延遲加速 84.7%。這些數字很吸引，但始終以作者公開的實驗設定為準，若換成不同機械人平台或資料分布，表現仍要再驗證。

支援多個相關模型：FLUX.2 ImageWAM、OmniGen2 ImageWAM、Ovis-U1 ImageWAM
FLUX.2 提供 4B 與 9B 版本，Ovis-U1 走較細模型路線
適合機械人控制、world modeling、action prediction 研究與基準測試
重點不是生成漂亮畫面，而是抽取對動作決策有用的變化資訊

整體來看，ImageWAM 不算面向一般用家的 AI 工具，更像給研究者與工程團隊驗證新路線的開源項目。若你關心 world action models 是否一定要靠影片生成，這個項目提供了一個相當具體，而且有基準成績支持的反例。

GitHub： https://github.com/yuyangalin/ImageWAM

項目： https://zhangwenyao1.github.io/ImageWAM/

Categories: 開源, Video, Image, 工具, 庫, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, Robotic, 世界模型, Dataset 數據集

Page 2 of 5

« Previous 1 2 3 4 5 Next »