RAG – InferNews

ARI 用 RAG 修復韓國朝鮮古籍殘字

2026 年 7 月 28 日

最值得留意的，不是模型把缺字補回來本身，而是它專門處理古籍修復最棘手的一類內容：人名、地名等 Named Entities。ARI 屬於一個結合 Retrieval-Augmented Generation（RAG）的文獻修復框架，針對朝鮮王朝實錄與承政院日記這類韓文漢字史料，補足只靠局部語境時經常失準的缺口。

現有做法多數依賴 masked language modeling，擅長根據前後文猜測一般字詞，但一遇到需要外部史實支持的專名就容易失手。ARI 的取向很清楚：先用 BM25 從歷史語料找出前 20 份相關文本，再以字串相似度 0.8 過濾重複內容，將這些外部證據交給模型一併生成，修正通用 LLM 容易出現的幻覺。

模型部分不是從零開始，而是建基於 Qwen3 32B 與 Qwen3 8B 微調成 ARI-32B 和 ARI-8B，並加入 25% named entity-prioritized masking 訓練策略，把學習重點放在知識密集片段。論文亦指出，對漢字材料而言，詞彙層面的 BM25 檢索比 embedding-based retrieval 更有效，這一點頗有說服力，因為表意文字的字形與字詞對應關係本身就影響檢索效果。

適合歷史文獻整理、數位人文研究與古籍校勘團隊參考
主要強項在於修復需要外部知識支撐的 Named Entities
ARI-32B 與 ARI-8B 同步提供，前者追求表現，後者較重視運算成本
論文結果顯示，它在 named entity 與隨機遮罩字元修復都勝過多個基線與通用模型

把它視為一個已有公開模型與方法說明的研究項目。對需要先驗證效果的人來說，現階段較合理的路線會是先查看論文設定與模型頁面，再判斷是否足以接入自己的古籍修復工作流。

項目主頁 · GitHub · Paper

Categories: 開源, Qwen, Embedding, RAG, 模型, 語音, Dataset 數據集

FinanceComplexQA 點評：金融長文件問答基準

2026 年 7 月 26 日

金融問答最容易失真的位置，不是模型識唔識術語，而是它會否真正在整份參考文件入面推理、比對同計數。FinanceComplexQA屬於數據集／Benchmark，焦點不是背答案，而是檢驗 LLMs 和 agents 能否根據完整 reference documents 回答複雜金融問題。

它修正了只靠 parametric knowledge 或抽取單一段落的評測範式。作者把重點放在 document-grounded complex financial QA，要求答案同問題及原始文件一致，並涵蓋 multi-hop reasoning、numerical calculation、comparison、implicit inference、planning、summarization 同 evidence-grounded verification，對 RAG、Agentic workflow 同長文本閱讀能力都有參考價值。

資料結構本身亦有取捨。FinComplexQA-Pro 收錄 2,026 組獨立 QA，按語言、金融場景與任務分類組織；同一題會以 scene_categories 與 task_categories 兩種視角出現，所以總記錄視圖有 4,052 筆。另有 overall 提供 agent_answer、agent_thinking 及 LLM-as-a-judge 分數，但這些分數只適合做診斷訊號，不能當 ground truth。

支援中文與英文，但兩個子集覆蓋的文件領域不同，schema 亦不完全一致
較適合逐個子目錄讀取 JSONL，而不是一開始合併全部資料
可用 exact match、數值容差、F1、semantic similarity 等方法比對輸出
附有 Reference_documents，方便追查 PDF 與 LaTeX 原文證據

部署和測試的理解方式相當直接：資料主要在 Hugging Face 發佈，研究團隊可先挑單一語言、單一 task category 載入，再把模型輸出對照 gold answer 或文件證據做評估。它較受惠於做金融 RAG、長文件 QA、Agent 評測或雙語研究的團隊；要留意的是金融事實具時效性，而且項目已明確標示僅供研究與評估，不應延伸成投資、會計、法律或財務建議。

項目主頁 · GitHub · Paper

Categories: 開源, 微軟, DeepSeek, Agentic, RAG, 多模態模型, 中國, Dataset 數據集

PixelRAG 想用截圖重寫 RAG 檢索

2026 年 7 月 18 日

PixelRAG — Visual Retrieval-Augmented Generation

遇到表格、版面層次、插圖同文字混排內容，單靠文字檢索好容易漏掉關鍵線索；PixelRAG 就係衝住呢個缺口而來。它屬於一個面向 Retrieval-Augmented Generation 的開源工具項目，核心做法係先把頁面或文件渲染成 screenshots，再按畫面內容建立可搜尋索引，讓 Claude 之類模型唔只讀字，亦可以靠視覺內容搵資料。

呢個取向同傳統 RAG 最大分別，在於它假設「文件點樣呈現」本身就係訊息，而唔係只抽文字再做 embedding。代價亦好直接：前處理多咗一層 render，索引與搜尋流程會更倚賴視覺管線；但換來的好處，是面對網頁、圖文混排文件，甚至靠版面先分得清的內容時，命中機會更高。

目前公開資訊已經交代得幾清楚：安裝後可以先用 pixelshot 把任意頁面輸出成 screenshot tiles，再接上搜尋流程；亦可以直接調用官方託管 API，對既有的 8.28M Wikipedia pages 索引做查詢，連本地建庫都未必需要。它仲支援用文字查詢，並提供 visual search，意味住輸入端都唔再局限於純文字。

把文件先轉成 screenshots，再做檢索，而唔係只抽文字
適合網頁、表格、圖文混排等重視版面結構的內容
可直接試用 hosted API，亦可自行跑 render 與 search 流程
與 Claude 配合時，重點在於補足模型對畫面資訊的讀取能力

受益最大的一般會係做 RAG 應用、文件搜尋、知識助理同企業內部資料檢索的團隊，尤其手上資料唔係乾淨純文字，而係大量網頁截圖感強、排版複雜的內容。名稱已經講明「Web Screenshots Beat Text for Retrieval-Augmented Generation」，定位相當鮮明；不過 README 暫時未交代完整基準數字同部署成本，現階段更適合視為一條值得驗證的新路線，而唔係即刻取代所有文字檢索方案。

GitHub

Categories: 開源, API, Embedding, RAG, 框架

MedPMC 把醫學圖文資料做成可訓練基座

2026 年 7 月 14 日

Repository image for Yale-BIDS-Chen-Lab/MedPMC

做醫學多模態模型，最難往往不是再堆一個新架構，而是先整理到可用的圖文資料。MedPMC 屬於Dataset 數據集加模型訓練程式碼項目，核心價值是把 PubMed Central (PMC) 文獻中的醫學圖片與文字抽取、清理，再接上訓練與評估流程，處理的是醫學 vision-language 資源長期分散、難重現的問題。

目前最值得留意的是 MedPMC Dataset 首個版本，提供約 1,100 萬組 medical image-text pairs；同時亦有基於 MedPMC-11M 訓練的 MedPMC-CLIP。這種做法與不少只放模型權重、或只交出資料連結的項目不同，它把 dataset curation、preprocessing、model training、evaluation 放在同一個代碼庫，較適合研究團隊沿住同一條流程再做微調或重跑實驗。

部署與測試的理解方式很直接：資料集與模型都已放到 Hugging Face，現階段較像給研究者先下載資料、檢查抽樣品質、再接入自家訓練管線。README 未提供很完整的操作文件，dataset viewer 亦未必可直接預覽，所以短期內它比較偏向有 Python 與資料處理能力的團隊，而不是即開即用的線上服務。

約 1,100 萬組來自 PMC 的醫學圖文配對，是項目現時最重要資產
連同 MedPMC-CLIP 一併釋出，方便由資料走到模型驗證
重點不在花巧介面，而在可重現的資料整理與訓練流程
文件仍在補完中，benchmarks 與更多 training recipes 尚待發布

以現有資訊看，MedPMC 的強項是規模與研究流程整合，限制則是文件與基準結果仍未齊備，暫時較難單靠公開頁面判斷模型表現上限。對醫學 AI、視覺模型、RAG 前處理，或需要建立醫學圖文檢索基座的團隊來說，這個開源項目已有不錯參考價值；相關模型現時可確認的是 MedPMC-CLIP。

項目主頁 · GitHub · 模型

Categories: 開源, NVIDIA, Image, Medical醫學, Python, RAG, 多模態模型, 模型訓練, 視覺模型, Dataset 數據集

NL2SQL 如何走向企業級數據智能體

2026 年 7 月 4 日

這是一篇介紹 NL2SQL（Natural Language to SQL）與 Text2SQL 技術演進的技術文章。它主要說明系統如何把自然語言查詢轉成可執行、可驗證，而且符合業務語義的 SQL，而不只是做文字層面的翻譯。

文章指出，NL2SQL 真正處理的是「業務語言」與「資料庫結構」之間的落差。使用者問的是模糊的商業問題，系統卻要完成查詢意圖理解、表與欄位定位、JOIN 路徑規劃、SQL 校驗、執行與結果驗證，所以它同時牽涉 NLP、資料庫、程式生成、資訊檢索與系統工程。

和早期把 NL2SQL 視為 Seq2Seq 翻譯任務的做法相比，文中更強調執行語義等價。一段 SQL 就算語法正確，也可能選錯表、誤解指標口徑，或者在聚合粒度、過濾條件與權限範圍上出錯，因此企業場景的重點不是「生成像 SQL 的文本」，而是產出能在真實數據環境中正確運作的查詢邏輯。

技術演進由規則模板、傳統語義解析、Seq2Seq，一路走到 Schema Linking、Schema-aware、Graph-based、RAG + LLM
核心難點不只在生成 SQL，更在表、欄位、值與業務指標的語義映射
新一代方向是 Agentic + Semantic Layer，加入檢索、規劃、校驗、修復與解釋能力
固定報表場景可用模板法提升穩定性，但覆蓋率有限，難應付開放式提問

這類內容最適合數據平台、BI、自助查數與企業 AI 問答工作流的讀者閱讀。文中提供的是技術脈絡與方法拆解，暫時未見具體安裝流程、下載連結或可直接啟用 OpenClaw、OpenCode、Codex、Hermes Agent、Copilot、Pi 的後台操作資訊，因此不能延伸成相關部署教學。

項目主頁

Categories: Agentic, RAG, OpenClaw

Headroom：幫 AI agent 壓縮上下文

2026 年 7 月 2 日

Headroom 是一個給 AI agents 與 LLM 應用使用的庫兼代理工具，核心角色是把送進模型前的上下文做壓縮。它主要解決長對話、工具輸出、日誌、RAG 片段與檔案內容太長，令 token 成本、延遲與上下文容量很快爆滿的問題。

這個項目不只提供 Python 與 TypeScript 內嵌式 compress(messages) 用法，亦提供 proxy 模式與 MCP server，代表它可以直接插入現有流程，未必需要大改程式。README 提到 zero code changes 的代理方式，對已有多語言系統的團隊尤其實用；另外它走 local-first 與 reversible 路線，取向明顯是先保留可控性，再追求節省 token。

和一般只縮短輸入文字的做法相比，Headroom 的差異在於它同時處理模型輸出，會減少重複客套、重述程式碼，以及在例行步驟略過過深的「thinking」。這種取捨有助壓低來回 token，但也代表較依賴它對內容重要性的判斷；對需要完整推理痕跡或逐字保留輸出的流程，部署前應先做回歸測試。

結果列出的數字是 60–95% fewer tokens，示例亦有 10,144 壓到 1,260 tokens，同時保留相同問題結論；不過這些結果較適合視為官方展示，具體效果仍會受任務類型影響。較容易受益的情境包括多步驟 agent、跨工具調用、RAG 對話系統，以及 Claude、Codex、Gemini 之間需要共享記憶的團隊協作流程。

支援 Library、Proxy、MCP server 三種接入方式
可壓縮對話、工具輸出、logs、RAG chunks 與檔案內容
提供 cross-agent memory，支援 Claude、Codex、Gemini 共用與去重
headroom learn 會整理失敗 session，寫入 CLAUDE.local.md、CLAUDE.md、AGENTS.md 或 GEMINI.md
相關模型包括 Kompress-v2-base，而整體定位較接近 agent 基礎設施，不是單一聊天模型

整體來看，Headroom 最有價值的地方不在於再做一個包裝 LLM 的介面，而是把「上下文壓縮」獨立成基礎層。對經常被 token 成本、上下文長度與 agent 記憶雜訊拖慢的項目，它屬於值得優先測試的一類工具。

GitHub

Categories: 開源, Gemini, Agentic, MCP, Python, RAG, 庫, 模型, 編程, Anthropic

ProMSA 把 KB-VQA 變成會搜尋的代理

2026 年 6 月 30 日

這是一個針對 Knowledge-Based Visual Question Answering（KB-VQA）的研究原型兼訓練項目。它要處理的問題，是模型不只要看懂圖片內容，還要連接外部知識來源例如 Wikipedia，先找對實體，再用足夠證據回答問題。

現有做法多數採用固定的 retrieve-then-generate 流程：先選好 retriever、設好 static top-k，再做一次檢索後直接生成答案。作者認為這種範式遇到 long-tail entities 很脆弱，第一步找錯就難以修正，也不擅長組出 multi-hop 證據鏈；所以 ProMSA 改成 progressive multimodal search agent，讓同一個 MLLM 逐輪決定用 image search、text search，還是 stop。

這個項目的取向很明確：它不是單純把檢索接到模型前面，而是把搜尋本身變成推理流程一部分。配合 de-duplication exclusion list、tool-call budget 同 reward penalty，它會避免重覆撈同一批內容，亦會在證據足夠時停手，減少無效工具呼叫；訓練上再用 TN-GSPO，而不是只靠 GRPO 或 vanilla GSPO，目標是令長度與工具步數不同的軌跡都能較穩定更新。

支援 image search、text search、stop 三種動作
針對錯誤首次檢索加入 failure recovery 與 multi-hop 搜尋
採用 veRL 工具介面，包含 multi-turn rollout、reward 與 loss
policy backbone 包括 Qwen/Qwen2.5-VL-7B-Instruct、Qwen/Qwen3-VL-2B-Instruct、Qwen/Qwen3-VL-8B-Instruct

網頁已交代 Installation、Data & Model Preparation、Service Architecture、Training 同 Evaluation，表示它不只是概念展示，而是有完整實驗流程的研究項目；不過部署時應預期需要 Python 3.10+、veRL、外部搜尋服務同相應資料準備。結果描述提到在 E-VQA 與 InfoSeek 對強 RAG 和 agent baselines 有一致提升，但目前提供的是研究報告式結論，較適合做 KB-VQA、multimodal agent、RAG policy 訓練的團隊參考，而不是即裝即用的通用產品。

項目主頁 · GitHub · Paper

Categories: Qwen, Agentic, Python, RAG, 模型訓練, 視覺模型, 中國, 清華大學

TryOnCrafter：首個鏡頭可控的影片虛擬試穿框架

2026 年 6 月 26 日

TryOnCrafter 是一個基於 DiT（Diffusion Transformer）的虛擬試穿影片框架，專門處理「鏡頭可控影片虛擬試穿」（Camera-controllable Video Virtual Try-on, CaM-VVT）這個新任務。它的主要用途是讓使用者能夠在指定鏡頭軌跡（例如推近、傾斜、環繞）的情況下，生成穿著指定服裝的人物影片。

傳統的影片虛擬試穿只能沿著原始影片的鏡頭路徑生成結果，無法讓使用者自由改變視角。TryOnCrafter 的做法是引入一個「可渲染的 4D 試穿代理」（Renderable 4D Try-on Proxy），先把 2D 試穿結果提煉成一個基於 3D Gaussian Splatting（3DGS）的穿衣化身，再用 SMPL-X 序列驅動動作，最後把這個化身對齊到重建的背景點雲中。這個代理模型把人物與環境分離開來，提供穩定的幾何骨架，讓後續的影片生成能夠在任意鏡頭下保持結構一致。

在生成階段，框架採用 Proxy-Anchored Video DiT，把代理模型渲染出來的多層資訊（包括渲染先驗、參考特徵、服裝語意提示）作為幾何錨點，確保最終影片在指定軌跡下保持物理合理的形變與外觀。這種設計同時支援多項延伸應用，包括人物重新定位、子彈時間效果，以及 360 度環繞檢視。

團隊建立了 CaM-VVTBench 評測基準，結果顯示 TryOnCrafter 在結構一致性與服裝身份保留方面，明顯優於現有方法。這個框架較適合需要展示服裝 3D 效果的研究團隊、電商內容製作，以及對鏡頭語言有要求的多媒體創作場景。

重點摘要

首個鏡頭可控試穿框架：突破傳統 VVT 只能被動沿用原片鏡頭的限制，支援使用者自訂鏡頭軌跡。
4D 試穿代理模型：以 3DGS 化身 + SMPL-X 動作序列，把人物與背景解耦，提供密集幾何引導。
Proxy-Anchored Video DiT：以代理渲染結果作為幾何錨點，確保任意視角下的結構與服裝一致性。
多元延伸應用：支援人物重定位、子彈時間、360 度環繞等下游編輯。
新基準 CaM-VVTBench：團隊建立的專用評測集，在結構一致性與服裝身份保留上明顯領先既有方法。

模型與源碼說明：原始資料為項目主頁，未提供具體的源碼下載連結、安裝步驟或模型權重取得方式。

項目主頁： https://sunhao242.github.io/TryOnCrafter_web.github.io/

Paper： https://arxiv.org/pdf/2606.26092

Categories: 開源, 阿里巴巴, Video, AI productions, RAG, 影像模型, 影像處理, 模型, 數字人, 視覺模型, 視頻模型, 框架

ReMMDBench-Agent 驗證多模態假資訊

2026 年 6 月 26 日

Repository image for DANG-ai/ReMMDBench-Agent

開發團隊來自上海交通大學、上海人工智慧實驗室、清華大學、中南大學，以及中國電子科技集團第十五研究所，核心作者把 ReMMDBench 同 ReMMD-Agent 一起公開，方向很明確：用較接近真實網絡帖文的方式，檢查圖文混合內容中的 misinformation。這個 GitHub 項目屬於研究原型加評測代碼集合，主要用來重現三個 multimodal misinformation detection agent 系統在 ReMMDBench 上的結果，並比較它們怎樣做判斷。

現有做法常把多模態假資訊檢測收窄成單圖、二分類，或者一次過把整段文字與圖片丟給模型判斷；作者認為這種 fixed-pass 判斷方式難以處理長敘事、多張圖片、跨語言與部分真實內容。這個項目因此提出一套以 ReMMDBench 為核心的 agentic 驗證路線：Baseline 1 是 3-stage MMD-Agent，Baseline 2 是 MCTS-based 5-verdict + 8-taxonomy agent，而主系統 ReMMD-Agent 則用 atomic decomposition、RAG（Retrieval-Augmented Generation）與 multi-expert judge，把結論建立在可追蹤的證據狀態上。

跟同類方法相比，ReMMD-Agent 的取向不是只追求一次答中，而是先把帖文拆成 atomic claims、image observations、text-image bindings，再檢索 multimodal evidence，之後重用 persistent memory，減少重複工具呼叫。這種設計的取捨很清楚：流程更長、配置更多，但換來較好的可解釋性，也更適合處理 five-way L1 veracity labels、8 個 L2 distortion labels，以及 multilingual multi-image 場景。

安裝與測試思路也相當具體。三個子項目各自有 requirements.txt、設定檔與啟動腳本；要先把資料根目錄指向 ReMMDBench，再在 .yaml 或 .env 內填入模型端點與金鑰佔位內容，之後可先用 mmd-agent/test_qwen.py 這類健康檢查確認後端可回應，再跑各自的 evaluation scripts。倉庫已附上 Qwen-family 後端的保存結果與 artifacts，包含 Qwen 4B、9B、27B，亦明確標示 temperature = 0.0、LLM caching 與預建 RAG index，方便重現 headline numbers，而不必由零開始建立整套流程。

主系統：ReMMD-Agent，核心結構是 atomic decomposition + RAG + multi-expert judge
對照系統：3-stage MMD-Agent 與 MCTS-based t2-agent，方便看不同 agent 設計的取捨
資料與標註：ReMMDBench 有 500 samples、2,756 images、5-way L1 與 8 類 L2 標籤
相關模型：Qwen-family 4B / 9B / 27B；首頁亦提到 GPT-5.2 曾用於 leaderboard
較適合的情境：研究團隊、事實查核流程設計者、多語內容審核與 agent benchmark 比較

性能方面，倉庫重點是重現論文中三套系統在 500-sample ReMMDBench 的結果，而不是提供一個即裝即用的線上服務。它較適合拿來做 benchmark 驗證、分析不同 agent pipeline 的表現，或者研究 evidence reuse 對多模態判斷有幾大幫助；要直接放進產品，仍要自行補回資料接入、服務封裝與更穩定的推理基建。

GitHub： https://github.com/DANG-ai/ReMMDBench-Agent

項目主頁： https://dang-ai.github.io/ReMMD/

Categories: Qwen, Agentic, API, Image, 工具, 線上服務, Python, RAG, 多模態模型, 安全, 庫, 深度學習, 視覺模型, 中國, 上海人工智慧實驗室, 框架, 清華大學

DREAM：用語言模型反向教檢索

2026 年 6 月 26 日

DREAM 是一個稠密檢索嵌入訓練方法／研究原型，核心是把 autoregressive language model 的預測訊號拿來訓練 dense retriever。它要解決的問題很明確：傳統 dense retrieval 多數依賴 contrastive objectives，需要正負文件配對與標註，但這類資料昂貴，hard negatives 也不穩定。

現有做法通常是替 query 配 positive documents 與 sampled negatives，再拉近或拉遠 embedding 距離；作者認為這種範式過度依賴人工或額外挖掘流程，未必真正反映哪些文件能幫助模型完成生成。DREAM 的做法是把 query-document 相似度送入指定的 Query-Focused Retrieval Heads（QRHeads），讓 frozen LLM 在預測 target 時，直接用 next-token prediction loss 回傳訊號，告訴 retriever 哪些文件真的有用。

這個取向最值得留意的地方，在於它不是單純改 loss，而是把檢索分數接進 attention heads，令生成模型的預測難度成為監督來源。代價也很明顯：流程比一般 embedding fine-tuning 更複雜，要先做 QRHead detection，再跑 DREAM adapter 訓練；儲存庫亦未附完整 training data、checkpoints 與 evaluation outputs，較接近研究復現路線，而不是即裝即用工具。

安裝與理解方式算清晰，儲存庫分成 qrhead_repo/、dream_routing/ 與 data/sample/ 三部分：前者負責找出 QRHeads，後者負責訓練 adapter，樣本資料則用 JSONL 提供 query、docs、target 結構。部署重點不是直接上線服務，而是先準備自己的 Hugging Face dataset 或本地 JSONL，依序完成 head 檢測與訓練；推論部分則主要依賴 Hugging Face 上已釋出的 adapters。

已提供預訓練模型：DREAM-0.5B、DREAM-1B、DREAM-3B
對應底座模型：Qwen2.5-0.5B、Llama-3.2-1B、Llama-3.2-3B
評測指向 BEIR 與 RTEB，論文稱在不同模型尺寸上都優於既有 baselines
適合研究檢索訓練、RAG、embedding 設計與 LLM-retriever 協同優化的團隊

受益最大的一類人，不是只想下載 embedding 即用的使用者，而是要研究 retriever 如何配合生成模型工作的團隊。對做 RAG、知識檢索、代理式搜尋的人來說，DREAM 提供了一條不同於 contrastive training 的路；對資源有限的小團隊而言，訓練鏈較長、重現門檻較高，較適合作為方法參考或實驗基線，而非現成產品元件。

GitHub： https://github.com/yixuantt/DREAM

Model： https://huggingface.co/collections/yixuantt/dream

Categories: 開源, Qwen, 香港, 香港科技大學, 工具, Embedding, LLaMa, Python, RAG, 庫, 模型, 模型訓練, Meta, Dataset 數據集

Page 1 of 4

1 2 3 4 Next »