Envs-aware-Information-Retrieval：RAG 檢索不應一招走天涯

Thinking token length dynamics during GRPO training

不少 Retrieval-augmented generation 都把 retrieval 視為通用步驟：先改寫問題，再交給任何檢索器處理。這項論文反對這種 fixed generic tool-call 範式，認為限制在於查詢寫法會受檢索環境影響，同一句問題交給 BM25、Contriever、all-MiniLM-L6-v2 或 Qwen3-Embedding，最佳表達方式可以完全不同，因此提出 Environment-aware Information Retrieval 這個設定，專門研究 LLM 如何因應 retriever 改寫查詢。

項目本質上是研究型框架與實驗資源，用來解決「RAG 查詢改寫是否應按檢索器調整」這個問題。作者用 reinforcement learning（RL）訓練 query rewriter，並以 nDCG@10 當 reward；重點不只是答對與否，而是觀察模型會否學到不同 retriever 對應的語言風格。

不同檢索器之間的策略難以轉移，主要不是 search intent 變了，而是查詢的 structural 或 stylistic 形式不對。例子很清楚，BM25 偏好精簡 keyword-style queries，Contriever 則更受 document-like、statement-style rewrites 幫助；作者亦加入 retriever-specific human guidance 改善 RL 探索，並用 branching rollout 穩定 multi-turn retrieval 訓練中的 credit assignment。

如果你想測試這個項目，做法是挑同一批問題，分別接到 BM25 與 embedding-based retriever，比較原始問題、改寫後查詢，以及 nDCG@10 變化。做 RAG pipeline、query rewriting、search quality tuning 的人會特別啱用；對一般應用團隊來說，這份研究也提醒了一點：不要假設一套 prompt 或 rewrite policy 可以通吃所有 retrieval backend。

這是研究型項目，核心在 retriever-aware query rewriting，而非一般聊天應用
保留的相關模型與檢索器包括 BM25、Contriever、all-MiniLM-L6-v2、Qwen3-Embedding
主要 technical claim 是不同 retriever 需要不同查詢風格，策略轉移性偏低
訓練以 RL 進行，並用 nDCG@10 衡量檢索品質
branching rollout 與 retriever-specific human guidance 是方法上的兩個關鍵補強

整體來看，這不是靠更大模型硬推效果，而是重新檢視「查詢應怎樣配合檢索器」這個常被忽略的步驟。若後續公開更多 benchmark 細節與可重現結果，這個方向有機會成為 RAG 調校中的實用基線，而不只是論文中的觀察。

GitHub： https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval

項目： https://huggingface.co/LCO-Embedding