Headroom：幫 AI agent 壓縮上下文

Headroom 是一個給 AI agents 與 LLM 應用使用的庫兼代理工具，核心角色是把送進模型前的上下文做壓縮。它主要解決長對話、工具輸出、日誌、RAG 片段與檔案內容太長，令 token 成本、延遲與上下文容量很快爆滿的問題。

這個項目不只提供 Python 與 TypeScript 內嵌式 compress(messages) 用法，亦提供 proxy 模式與 MCP server，代表它可以直接插入現有流程，未必需要大改程式。README 提到 zero code changes 的代理方式，對已有多語言系統的團隊尤其實用；另外它走 local-first 與 reversible 路線，取向明顯是先保留可控性，再追求節省 token。

和一般只縮短輸入文字的做法相比，Headroom 的差異在於它同時處理模型輸出，會減少重複客套、重述程式碼，以及在例行步驟略過過深的「thinking」。這種取捨有助壓低來回 token，但也代表較依賴它對內容重要性的判斷；對需要完整推理痕跡或逐字保留輸出的流程，部署前應先做回歸測試。

結果列出的數字是 60–95% fewer tokens，示例亦有 10,144 壓到 1,260 tokens，同時保留相同問題結論；不過這些結果較適合視為官方展示，具體效果仍會受任務類型影響。較容易受益的情境包括多步驟 agent、跨工具調用、RAG 對話系統，以及 Claude、Codex、Gemini 之間需要共享記憶的團隊協作流程。

支援 Library、Proxy、MCP server 三種接入方式
可壓縮對話、工具輸出、logs、RAG chunks 與檔案內容
提供 cross-agent memory，支援 Claude、Codex、Gemini 共用與去重
headroom learn 會整理失敗 session，寫入 CLAUDE.local.md、CLAUDE.md、AGENTS.md 或 GEMINI.md
相關模型包括 Kompress-v2-base，而整體定位較接近 agent 基礎設施，不是單一聊天模型

整體來看，Headroom 最有價值的地方不在於再做一個包裝 LLM 的介面，而是把「上下文壓縮」獨立成基礎層。對經常被 token 成本、上下文長度與 agent 記憶雜訊拖慢的項目，它屬於值得優先測試的一類工具。

GitHub