Paper2Rebuttal 反駁智能體框架
REBUTTALBENCH 是第一個將反駁生成重新定義為以證據為中心的規劃任務的多智能體框架。此方法解決了目前直接處理文字方法的局限性,這些方法常常導致臆想、忽略批評意見以及缺乏可驗證的依據。我們的系統將複雜的回饋分解為原子級關注點,透過將壓縮摘要與高保真文本合成來動態建構混合上下文,並整合一個自主的外部搜尋模組來解決需要外部文獻的問題。至關重要的是,REBUTTALAGENT 在撰寫反駁方案之前會產生一個可檢查的回應計劃,確保每個論點都明確地錨定在內部或外部證據之上。我們在提出的 REBUTTALBENCH 上進行的驗證過程表明,REBUTTALAGENT 在覆蓋率、忠實度和策略一致性方面均優於強大的基線系統,為同行評審過程提供了一個透明且可控的輔助工具。下圖總結了我們的工作,並比較了我們的方法與以往的方法。

REBUTTALBENCH 是一個多智能體框架,旨在將反駁過程轉化為結構化且可檢查的工作流程。系統在撰寫最終文本之前會產生與證據相關的中間產物,以確保輸出結果的可靠性和可控性。如下圖所示,該架構將複雜的推理過程分解為多個專業智能體,並配備輕量級檢查器。這種設計突顯了關鍵決策點,使作者能夠保留對策略立場和最終措辭的責任。此流程首先將稿件提煉成結構化的摘要,並提取審查者關注的原子性問題,以確保長期推理的穩定性。在這些關注點的指導下,系統透過從稿件中檢索高保真度的摘錄,並利用網路搜尋添加可驗證的外部文獻,建構證據包。工作流程最後產生一個明確的回應計劃,概述論點和證據鏈接,作者可以透過人機協作機制對其進行完善,之後系統將產生正式的反駁信。

REBUTTALBENCH 使用 LLM 作為評判員的評分標準,從相關性(R 分數)、論證品質(A 分數)和溝通品質(C 分數)三個方面,以 0-5 分制對回覆進行評估。下方的詞雲和高頻詞直方圖突出了評審員反覆關注的幾個方面,例如清晰度、新穎性和可重複性,這些也正是評分標準所明確針對的。
FrankenMotion 人體動作生成框架
FrankenMotion 是一個以擴散模型為基礎的文本到人體動作生成框架,專注於對單一動作的各個身體部位進行細緻控制。研究團隊先建立名為「FrankenStein」的大規模運動資料集,這份資料集以大型語言模型自動生成的原子化、具備時間感知的逐部份文字敘述,填補了先前資料集只能提供全局或動作層級標註的不足。透過這些高度結構化的部位標註,模型能夠在訓練時同時學習空間(哪個部位在動)與時間(每個部位的具體時間模式)兩層資訊。
實驗結果顯示,相較於先前的 UniMotion、DART、STMC 等模型,FrankenMotion 在語義正確性與運動真實感上都有顯著提升,甚至能創造出訓練時未曾見過的組合動作,例如在坐下的同時抬起左手。
NexaSDK 全模型支持,全硬件兼容
NexaSDK 是一個高性能的本地推理框架,可以在 NPU、GPU 和 CPU 上運行最新的多模態 AI 模型,支持 Android、Windows、Linux、macOS 和 iOS 設備。它只需幾行代碼,就能在設備上搭建最智能、最快的 AI 應用。NexaSDK 支持最新的模型,比如 Qwen3-VL、DeepSeek-OCR、Gemma3n 等,且比其他框架提前幾周或幾個月支持。。

使用 NexaSDK 建立真正的裝置端 AI 應用,將有獲得獎勵。(詳情)
另外,NexaSDK 還提供了一個簡單易用的命令列介面(CLI),讓使用者可以快速測試不同的模型。例如,你可以用一行指令就開始與 Qwen3 模型聊天,或者進行多模態任務,比如拖曳圖片到 CLI 裡進行處理。
詳細 Qwen3+RAGFlow 本地部署
Conductor – Google 的 Spec Coding
Conductor 是 Google 推出的一個 Gemini CLI 擴充套件,目前處於預覽階段,它透過「脈絡導向開發」(context-driven development)改變開發流程,讓開發者在編寫程式碼前先建立正式規格與計劃,並將其儲存為持久化的 Markdown 檔案。
SimpleMem 高效終生記憶框架
MiniMax-M2.1 專為程式碼生成的 SOTA 大型語言模型

MiniMax-M2.1 是 MiniMax 團隊專為程式碼生成、工具呼叫、指令追蹤與長跨度規劃打造的 SOTA 大型語言模型,已全量釋出並以 Modified‑MIT 授權開源。模型重點在於提升多語言程式開發的穩定性與效率,讓開發者可以直接拿來建構自動化的軟體開發流水線或多步驟辦公室工作流程。
在各類公開基準測試中,MiniMax-M2.1 在 SWE‑bench Verified、Multi‑SWE‑bench、VIBE(全端應用開發)等指標上,顯著超越前代 M2,並與 Claude Sonnet 4.5、Claude Opus 4.5 相較不相上下,甚至在 VIBE‑Web、VIBE‑Android 等子指標上取得更佳分數,顯示出完整的全端開發能力。
模型支援多種主流推理引擎,包括 SGLang、vLLM、Transformers 以及其他推理服務,並提供 fp8/int8 量化以減少算力需求。實務上,建議使用四張 A100 80 GB 或相當算力的 GPU 來跑原始模型,若需要更輕量化可選擇量化版本。
MAI-UI:圖形介面代理。
Gemini CLI v0.9.0 互動式終端
Google 在最新的官方開發者更新中宣布,Gemini CLI v0.9.0 現已支援完整的「互動式終端命令」體驗,這是該工具迄今最大的架構升級之一。

主要更新特點
互動式命令支援:使用者現在可以直接在 Gemini CLI 內運行 vim 編輯器、top 系統監控、
git rebase -i 等互動性命令,而無需離開 CLI 環境。
Pseudo-terminal(PTY) 整合:CLI 現在透過 node-pty 函式庫啟動虛擬終端(pseudo-terminal)進程,讓作業系統識別該 session 為終端機應用,使應用可如原生環境般運行。
即時輸出串流:新增的 serializer 元件能持續擷取虛擬終端的畫面快照(包含文字、顏色、游標位置等),並即時串流回使用者端,呈現如「直播」般的互動視覺效果。
雙向通訊能力:CLI 支援將鍵盤輸入即時傳送至背景進程,並能隨視窗大小自動調整顯示區域,就像原生 shell 一樣。
增強的色彩輸出:輸出渲染引擎改進,能正確顯示彩色終端輸出,呈現更完整的命令列視覺效果。
快捷鍵焦點切換:可使用 Ctrl + F 專注於互動終端視窗。
安裝與升級方式
Gemini CLI v0.9.0 起預設啟用此互動式 shell,可透過下列指令升級至最新版本:
npm install -g @google/gemini-cli@latest
背後技術亮點
這項更新的核心在於引入 pseudo-terminal (PTY) 與 即時序列化/串流處理機制,構成完整的「可觀察、可輸入、可重繪」終端環境,使 Google 的 Gemini CLI 同時具備 AI 輔助與原生 shell 操作體驗。

