RAG – Page 2 – InferNews

SproutRAG：長文 RAG 檢索的新取向

2026 年 6 月 23 日

現時不少 RAG（Retrieval-Augmented Generation）做法，通常在「細粒度 chunk 準確但零碎」與「大段內容連貫但嘈雜」之間取捨；有些方法靠 LLM-guided chunking、single-level context expansion，或 hierarchical summarization 去補救，但代價是要額外 LLM 呼叫、只支援單一層級擴展，或者在摘要過程流失資訊。SproutRAG 提出的方向，是用 attention-guided hierarchical RAG framework，把句子逐步組成語意連貫的多層結構，再做 multi-granularity retrieval。

這是一個 RAG 工具／框架，重點不是單獨一個模型，而是把索引、檢索、reranking、答案生成與評測串成完整流程，處理長文件問答中「證據要夠準又要保留上下文」的問題。它用 YAML 或 JSON config 驅動 CLI，每一步各有設定，輸出統一是 JSON，對接下游工具和保留可重現紀錄都幾方便。

部署和測試思路算清楚：先準備 JSONL 文件，之後分開建立 index、執行 retrieve、再 answer；若要研究效果，還可 train 和 evaluate。附加套件分別對應 PyYAML、ROUGE-L、METEOR、BERTScore 及 spaCy，反映這個項目除了生成，也很著重檢索與答案品質的量化比較。

和常見 flat retrieval 相比，SproutRAG 較值得留意的是 hierarchical attention-based indexing 加上 hierarchical beam search：它不是只撈單一粒度片段，而是沿樹狀結構找不同大小的候選證據。論文資料指出，它在四個 benchmark 的 information efficiency（IE）平均比最強 baseline 高 6.1%，但目前公開說明未見太多資源消耗與大型部署細節，訓練部分亦提到 MS MARCO 只先載入 v2.1 train split 的首 30k 筆樣本，代表現階段較適合研究、評測與流程驗證。

適合需要處理長文件的 RAG 項目，例如法律、科研、知識庫問答
配置檔主導流程，方便版本控制、重現實驗與比較不同設定
支援 optional reranking 與生成評測，不只是單做檢索
相關模型包括 sentence-transformers/all-MiniLM-L6-v2，底層依賴 PyTorch 2.x 與 Transformers 4.51+
若你想比較多粒度證據檢索與傳統 chunk-based RAG 的差異，這個項目很有研究價值

GitHub： https://github.com/AmirAbaskohi/SproutRAG

Paper： https://arxiv.org/pdf/2606.18381

Categories: 開源, 工具, Python, Python NLP, RAG, 庫, Meta, 框架

MCompassRAG 把 RAG 檢索變得更準更省

2026 年 6 月 23 日

現時不少 RAG 會用 dense retrieval，直接把查詢同文本 chunk 的 embedding 拿去比對；當 chunk 切得較粗、語料又雜，語意接近未必等於真正答到問題。MCompassRAG 屬於檢索框架，做法是替段落加入 topic metadata，再用 LLM teacher 離線產生判斷訊號，蒸餾成一個輕量 retriever，修正「只靠 chunk embedding 排名」這種固定範式的偏差。

它的取向幾清楚：把較重的判斷放在訓練前期，推理階段只保留 metadata bank、embedding lookup 同小型 scorer，所以標明可做到 zero LLM calls at inference。這個取捨很適合想保留檢索速度，但又嫌傳統向量檢索太粗糙的團隊；代價是前處理較長，要先訓練 topic model，再生成 distillation data。

項目流程分成幾步：先準備語料、訓練 topic model、生成蒸餾資料、建立 metadata index，再訓練 retriever。環境上要 Python 3.10+、PyTorch 2.x、Transformers 4.51+，而且建議有 CUDA GPU；OpenRouter API key 只在 Step 2 — Generate distillation data 需要，之後檢索本身不依賴 LLM 連線。

可留意的重點有幾個：
– 不只重排結果，而是把 topic signal 放進 retriever embedding space 一齊學習
– 支援可插拔 topic model backend，現成有 CEMTM、ETM、CWTM、SoftLTM
– 推理成本貼近 embedding model latency，較適合高頻查詢場景
– 比起純 dense retrieval，更著重 paragraph-level evidence quality

作者強調它會在 complex retrieval benchmarks 提升 evidence quality 同效率，但目前倉庫內容較像 research implementation，未見非常完整的產品化基準表。較受惠的會是做知識庫問答、文件搜尋、企業內部檢索的團隊，尤其當資料主題分散、段落切分又未必夠細時，MCompassRAG 的 topic compass 概念比單純換一個 embedding model 更有分析價值。

GitHub： https://github.com/AmirAbaskohi/MCompassRAG

項目主頁： https://huggingface.co/papers/2606.18508

Paper： https://arxiv.org/pdf/2606.18508

Categories: 開源, API, Embedding, Python NLP, RAG, 庫, 模型訓練, 框架

Envs-aware-Information-Retrieval：RAG 檢索不應一招走天涯

2026 年 6 月 21 日

Thinking token length dynamics during GRPO training

不少 Retrieval-augmented generation 都把 retrieval 視為通用步驟：先改寫問題，再交給任何檢索器處理。這項論文反對這種 fixed generic tool-call 範式，認為限制在於查詢寫法會受檢索環境影響，同一句問題交給 BM25、Contriever、all-MiniLM-L6-v2 或 Qwen3-Embedding，最佳表達方式可以完全不同，因此提出 Environment-aware Information Retrieval 這個設定，專門研究 LLM 如何因應 retriever 改寫查詢。

項目本質上是研究型框架與實驗資源，用來解決「RAG 查詢改寫是否應按檢索器調整」這個問題。作者用 reinforcement learning（RL）訓練 query rewriter，並以 nDCG@10 當 reward；重點不只是答對與否，而是觀察模型會否學到不同 retriever 對應的語言風格。

不同檢索器之間的策略難以轉移，主要不是 search intent 變了，而是查詢的 structural 或 stylistic 形式不對。例子很清楚，BM25 偏好精簡 keyword-style queries，Contriever 則更受 document-like、statement-style rewrites 幫助；作者亦加入 retriever-specific human guidance 改善 RL 探索，並用 branching rollout 穩定 multi-turn retrieval 訓練中的 credit assignment。

如果你想測試這個項目，做法是挑同一批問題，分別接到 BM25 與 embedding-based retriever，比較原始問題、改寫後查詢，以及 nDCG@10 變化。做 RAG pipeline、query rewriting、search quality tuning 的人會特別啱用；對一般應用團隊來說，這份研究也提醒了一點：不要假設一套 prompt 或 rewrite policy 可以通吃所有 retrieval backend。

這是研究型項目，核心在 retriever-aware query rewriting，而非一般聊天應用
保留的相關模型與檢索器包括 BM25、Contriever、all-MiniLM-L6-v2、Qwen3-Embedding
主要 technical claim 是不同 retriever 需要不同查詢風格，策略轉移性偏低
訓練以 RL 進行，並用 nDCG@10 衡量檢索品質
branching rollout 與 retriever-specific human guidance 是方法上的兩個關鍵補強

整體來看，這不是靠更大模型硬推效果，而是重新檢視「查詢應怎樣配合檢索器」這個常被忽略的步驟。若後續公開更多 benchmark 細節與可重現結果，這個方向有機會成為 RAG 調校中的實用基線，而不只是論文中的觀察。

GitHub： https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval

項目： https://huggingface.co/LCO-Embedding

Categories: 開源, 阿里巴巴, Qwen, Agentic, 工具, Embedding, RAG, 提示詞, 模型, 模型訓練, 框架

SeeQ 讓 VLM 學識自己出視覺問題

2026 年 6 月 18 日

現有 Vision-Language Models（VLMs）多數按「被動答題」範式訓練：人類或外部模型先提供問題，模型再學習回答。論文認為這種 fixed inputs 做法受制於靜態資料分佈，Visual Question Generation（VQG）亦容易卡在標註成本高、題目深度不足這兩個瓶頸，所以 SeeQ 提出 Self-Evolving Visual Questioner，用同一個 VLM 同時做 proposer 與 filter，自動從未標註圖片生產更難、更貼近畫面內容的問題。

這個項目屬於框架兼研究型工具，重點不是再做一個普通題庫，而是建立完整流水線：先生成 seed questions，再反覆改寫，提升 visual search、context 與 spatial reasoning 要求，之後再由模型自行過濾。作者同時加入 exploration diversity 控制，目標是避免訓練一路收窄，最後只剩單一風格題目。

如果你想試，較合理的做法是先準備圖片對應的 JSON 輸入，再分開看 generation 與 evaluation 兩部分輸出。倉庫內沒有附模型權重、數據集與快取，評測亦會用到 image-capable OpenAI evaluator 與 Qwen embedding models，所以較適合已經有 VLM 環境、想驗證自動出題流程的研究者或多模態團隊。

以未標註圖片開始，自動生成、改寫、過濾視覺問題
保留 Agentic evaluation，從 visual search、evidence coverage、context、spatial reasoning 評分
另用 Qwen embedding models 檢查整體多樣性，不只看單題質素
強調 zero external supervision，不依賴人工標註或 GPT-4V 這類外部 teacher models

創新點在於它不單止用 VLM 產生問題，還把「提問能力」當成可自我增強的訓練訊號，並且把 questioner 與 answerer 兩種模式一起考慮。按論文說法，這套方法在多個 backbone VLMs 上都能提升問題質素，亦把自動出題的難度邊界推高；同樣預算下，比直接用靜態來源資料訓練更有效，而模型的 answerer 能力亦未有明顯犧牲。

相關模型與元件方面，倉庫內容顯示生成流程可配合 Qwen2.5 3B 類型設定，評測會用 OpenAI 的可看圖評估器，以及 Qwen embedding models。若你關心多模態訓練、合成數據、或想建立能自己發問再自我改良的 Agentic workflow，SeeQ 的方法論比單純看分數更有參考價值。

GitHub： https://github.com/tianyi-lab/SeeQ

Paper： https://arxiv.org/pdf/2606.13929

Categories: 阿里巴巴, Qwen, OpenAI, Agentic, Image, 工具, AI productions, Embedding, IDE, Python, RAG, 多模態模型, 庫, 模型, 模型訓練, 視覺模型, 框架, Dataset 數據集

TVEdit：文字與點拖軌跡合一的圖片編輯項目

2026 年 6 月 18 日

TVEdit 是一個圖像編輯項目，目標是解決「只靠文字講意思，或者只靠拖點講位置」都不夠準的問題。以往文字指令較易表達語意，但難控制空間；點拖軌跡可以指位置，卻容易令語意變得含糊，所以作者把兩者合併成 Text-Vision Co-Instructed Image Editing。

這項目的做法是用一個文本與視覺指令配對資料集來訓練，資料超過 23K 筆，來源與動態影片有關。再配合 TV-Edit 框架，把拖曳或點選等視覺指令轉成更有語意的控制表示，然後接到預訓練編輯骨幹上，例如 Qwen-Image-Edit。

它能同時處理「想改成什麼」與「要改到哪裡」，而不是只偏重其中一邊。作者另外建立了 TV-Edit-Bench，專門看語意忠實度、空間對齊同畫面一致性，這比一般只看最終效果的做法更能反映模型有沒有真正聽懂指令。

先載入 Qwen-Image-Edit，再配 TV-Edit 權重，之後在 Gradio 介面上上傳圖片、畫出軌跡、輸入文字指令，再調 CFG 同步數生成結果。若有加速 LoRA，步數可以大幅減少，適合想快速試驗互動式編輯的人。

結合文字語意與點拖軌跡，令空間控制更細
用 23K+ 配對資料補足跨模態指令訓練
TV-Edit-Bench 同時看語意、位置、畫面一致性
目前已提供推理程式、模型權重同網頁示範
適合做互動式圖片編輯、研究評測或模型整合

GitHub： https://github.com/PolyU-VCLab/TVEdit

Paper： https://arxiv.org/pdf/2606.16767

Categories: 開源, 阿里巴巴, Qwen, 香港理工大學, Agentic, MCP, Image, RAG, 影像模型, 影像處理, 模型, 模型訓練, 視覺模型, 框架

LoopCoder：只多跑一輪，成效反而更好

2026 年 6 月 18 日

Only Loop Once: gain–cost trade-off in Parallel Loop Transformers

LoopCoder-v2 是一個基於 Parallel Loop Transformers（PLT）的程式碼模型系列，目標是解決「推理步數愈多，成本與表現未必同步上升」的問題。傳統 Looped Transformers 會透過重複共享區塊去增加 latent computation，但每多一輪都會拉高延遲和 KV-cache 記憶體；PLT 則用 Cross-Loop Position Offsets（CLP）和 Shared-KV Gated Sliding-Window Attention（G-SWA）把成本壓低，讓迴圈數變成可以調整的設計參數。

這個項目直接拆解「多跑幾輪到底值不值得」。作者用 gain–cost 角度分析 loop count：額外一輪可以帶來表示更新，但 CLP 也會引入位置不匹配的成本；兩邊一對比，就能解釋為何 LoopCoder-v2 在很多情況下是兩輪最好，而不是愈多愈好。這種分析方式比單看分數更有參考價值，因為它把效果升降和內部機制連在一起。

從結果看，LoopCoder-v2 的 7B 版本在多個程式相關測試都有明顯改善，尤其是 SWE-bench Verified 由 43.0 升到 64.4，Multi-SWE 由 14.0 升到 31.0，Terminal-Bench 亦有提升。相反，三輪或四輪時分數明顯回落，表示這個項目不是單純靠「加更多計算」換表現，而是存在一個較清晰的最佳點。作者亦用 hidden-state dynamics、attention evolution 和 output distribution shift 去佐證第二輪帶來主要增益，之後的輪次多數只會增加冗餘。

如果你想找的是可直接跑的模型，這個項目提供了 Hugging Face 上的 7B 權重，能透過 Transformers 載入後做文本生成或程式碼任務測試。適合關注 code generation、code reasoning、agentic software engineering、tool-use 的人，也適合想研究 test-time compute scaling、模型推理效率，或想比較 loop count 對表現影響的讀者。

主要類型是模型研究項目，同時包含評測與推理分析
核心結論是：兩輪通常是最佳平衡點，三輪以上可能反而拖低表現
CLP 令平行迴圈可行，G-SWA 則把 KV-cache 成本維持在近乎固定水平
7B 版本在 SWE-bench Verified、Multi-SWE、Terminal-Bench、BFCL 等測試都有較完整結果
適合用來分析程式碼模型、代理式任務，以及測試階段算力分配

GitHub： https://github.com/CSJianYang/LoopCoder

Paper： https://arxiv.org/pdf/2606.18023

Categories: 開源, Agentic, 軟件, 工具, AI productions, Python, RAG, 模型, 編程, 框架

[技術文章] KAIST 與 Qualcomm 重塑長影片 RAG 評測

2026 年 6 月 16 日

這項研究由 KAIST 與 Qualcomm AI Research、Qualcomm Korea 團隊合作提出，聚焦長時間第一身影片中的 Retrieval-augmented generation（RAG）。作者指出，現有 VideoRAG 常沿用「每條查詢只配一種 modality 與一種 temporal granularity」的固定範式，但長影片的證據片段差異很大，單一設定未必適合全部片段；加上不少既有 benchmark 的問題甚至不用看影片也能答中，令最終分數難以反映檢索是否真的做對。

因此，團隊提出 V-RAGBench，把資料整理成 ⟨query, evidence chunk, answer⟩ triplets，明確分開查詢、證據片段與答案。這種設計針對的是過去「只看最終回答正確率」的盲點，讓研究者可以更忠實地分開檢查 retrieval 與 generation，知道系統究竟是靠對的影片片段，還是靠語言偏見、常識或靜態線索作答。

方法上，作者再提出 CARVE。它不是替整條查詢預先選定一種設定，而是讓多個 retriever 以不同 modality 與 granularity 並行工作，再用 chunk-adaptive reranking 為每個 evidence chunk 挑出最合適的 winning configuration。之後，這些片段會連同各自勝出的設定一併送入 generator，形成 interleaved evidence，令檢索階段的片段級決策延續到生成階段。

對想使用這個項目的人來說，切入點很清楚：先用 V-RAGBench 測試自己的 VideoRAG 流程，分開看檢索與生成表現；若系統目前仍採用查詢級單一設定，可再比較 CARVE 這種片段級配置方式。這種思路較適合長影片問答、egocentric video 分析，以及需要從多模態證據中找出正確時間片段的 Agentic 系統。

V-RAGBench 以 evidence chunk 為核心，補足舊 benchmark 無法準確檢查檢索對錯的問題
CARVE 改為片段級選擇 configuration，不再假設一條查詢只需一套 modality／granularity
作者指出 generator 最後接收的 chunks 會交錯來自多種 configuration，這是 query-level 方法做不到的
論文稱 CARVE 勝過 8 個近期 VideoRAG baselines，顯示片段級決策在長影片檢索更有優勢

整體來看，這項工作不是單純再加一個 VideoRAG 方法，而是先批評舊有評測與建模範式，再用新 benchmark 和新 retrieval framing 一起修正問題。如果你關心的是長影片 RAG 到底應該取回什麼、以及取回後怎樣交給模型使用，這項研究提供了相當清晰的分析框架。

Paper： https://arxiv.org/pdf/2606.13141

Categories: Agentic, Video, AI productions, RAG, 多模態模型, 模型, 新聞, Dataset 數據集, 框架

PyRAG：多跳推理RAG值唔值得留意

2026 年 5 月 16 日

PyRAG看起來是一個以 Python 為主的 RAG 實驗專案，重點不是搜一次資料就作答，而是把檢索、推理、再檢索拆成可執行流程。對一般讀者來說，可把它理解成較重視「答案點樣得出來」的問答系統。

實際使用時，通常會先接入文件庫、知識庫或程式碼內容，再讓系統按問題逐步找線索，最後整理成答案。遇到要前後串連資訊的問題，例如先查概念、再補細節、最後整合結論，這類多跳流程會比普通 RAG 更合適。

做什麼：把檢索增強生成變成多步查找與推理
主要創新：中間步驟可追蹤，較易查證與除錯
適合場景：複雜問答、研究助理、文件或程式碼知識庫
相關模型：概念上可配合 GPT、Llama、Mistral 等生成模型，以及 BGE、E5 類嵌入模型；實際支援要看設定

我覺得它最吸引的地方，是不像一般聊天機械人那樣直接「估答案」，而是更像逐步查證。對想減少模型亂作、又要向同事交代答案來源的人，這方向特別有價值。

不過，從公開描述看，PyRAG較像研究型工具，實際兼容名單與部署成熟度仍要自行核對。若你只想快速搭一個簡單問答系統，傳統 RAG 可能更省事；若你重視可追溯性，它就值得留意。

網址： https://github.com/GasolSun36/PyRAG

Categories: 開源, 香港科技大學, RAG, 框架

詳細 Qwen3+RAGFlow 本地部署

2026 年 1 月 11 日

Categories: 開源, Qwen, RAG, 教學, 編程

檢索增強生成流程中融合 HyDE

2025 年 11 月 19 日

I asked them to show me their RAG pipeline...

Watch this video on YouTube

在 RAG（檢索增強生成，Retrieval-Augmented Generation）流程中融合 HyDE 技術，特別是在社交群組 AI 助理的應用場景。影片詳細說明了 RAG 的基本原理、技術演進、現實挑戰，以及 HyDE 方法如何解決多輪群聊語意檢索問題、具體提升個人化推薦的效果。

語意密度失衡：單一查詢若囊括多個主題（如運動、用餐、過敏），其向量可能遠離相關用餐記錄，導致錯誤檢索。HyDE 協助切分查詢語意，生成能精準接近真正目標向量的候選，提升召回率。
模型選型與延遲：現成 embedding 模型雖然容易部署，但當候選文檔增加，模型必須在準確率、延遲、用戶體驗之間平衡（過多候選會加劇延遲及降低內容相關性）。
Tone Matching：HyDE 生成的假想對話需盡量貼近用戶原始語境；目前主流 embedding 更偏向語意，語氣風格次要，但理想設計仍會嘗試符合真實對話氛圍。

這案例對 RAG 技術實戰落地非常有啟發，尤其在社群、記憶建構、個人化需求場景的處理方式。若你有自己的群聊 AI 專案，這種查詢增強流程、高維語意檢索建議、如何平衡效率與準確，是值得深入借鑑的。

Categories: RAG, 教學

Page 2 of 4

« Previous 1 2 3 4 Next »