
Context-CoT 係一個用來提升大型語言模型「讀完新資料再推理」能力的項目。論文指出,現有模型處理依賴上下文的任務時表現偏弱,在 CL-Bench 上,GPT-5.1 約為 23.7%,開源模型多數只有 13% 至 15%。
這樣就可以解決模型經常只靠原有記憶答題,未能從長篇材料抽取重點再應用。對法律文件、工業排錯或研究資料整理這類工作,這個方向相當實際。
- 先把長上下文整理成與任務相關的中間資訊,再展開推理。
- 產生推理資料時盡量隱藏答案與評分規則,減少資料洩漏。
- 按目標模型的輸出習慣挑選推理路徑,提升微調效率。
- 實驗指向可明顯減少忽略上下文的錯誤。
你可把它理解為一套「資料合成加微調」流程:先準備長文本任務,再用三段方法生成高質推理資料,最後拿去微調開源模型。這較適合已有模型訓練流程的團隊或研究者。
論文並未展示完整版本、模型名單與全部分數,所以現階段較適合視為有潛力的訓練方法,而非即插即用工具。文中明確提到的模型包括 GPT-5.1,其餘開源模型名稱在現有內容未完整列出。