REBUTTALBENCH 是第一個將反駁生成重新定義為以證據為中心的規劃任務的多智能體框架。此方法解決了目前直接處理文字方法的局限性,這些方法常常導致臆想、忽略批評意見以及缺乏可驗證的依據。我們的系統將複雜的回饋分解為原子級關注點,透過將壓縮摘要與高保真文本合成來動態建構混合上下文,並整合一個自主的外部搜尋模組來解決需要外部文獻的問題。至關重要的是,REBUTTALAGENT 在撰寫反駁方案之前會產生一個可檢查的回應計劃,確保每個論點都明確地錨定在內部或外部證據之上。我們在提出的 REBUTTALBENCH 上進行的驗證過程表明,REBUTTALAGENT 在覆蓋率、忠實度和策略一致性方面均優於強大的基線系統,為同行評審過程提供了一個透明且可控的輔助工具。下圖總結了我們的工作,並比較了我們的方法與以往的方法。

REBUTTALBENCH 是一個多智能體框架,旨在將反駁過程轉化為結構化且可檢查的工作流程。系統在撰寫最終文本之前會產生與證據相關的中間產物,以確保輸出結果的可靠性和可控性。如下圖所示,該架構將複雜的推理過程分解為多個專業智能體,並配備輕量級檢查器。這種設計突顯了關鍵決策點,使作者能夠保留對策略立場和最終措辭的責任。此流程首先將稿件提煉成結構化的摘要,並提取審查者關注的原子性問題,以確保長期推理的穩定性。在這些關注點的指導下,系統透過從稿件中檢索高保真度的摘錄,並利用網路搜尋添加可驗證的外部文獻,建構證據包。工作流程最後產生一個明確的回應計劃,概述論點和證據鏈接,作者可以透過人機協作機制對其進行完善,之後系統將產生正式的反駁信。

REBUTTALBENCH 使用 LLM 作為評判員的評分標準,從相關性(R 分數)、論證品質(A 分數)和溝通品質(C 分數)三個方面,以 0-5 分制對回覆進行評估。下方的詞雲和高頻詞直方圖突出了評審員反覆關注的幾個方面,例如清晰度、新穎性和可重複性,這些也正是評分標準所明確針對的。