
ScientistOne 是一個端到端的 autonomous research system,目標不是只寫出像樣論文,而是把文獻整理、方法設計、實驗結果到寫作內容,全部連到可核對的證據。
它要處理的問題很明確:不少 autonomous research agents 表面上能交出完整稿件,但內容可能出現 fabricated citations、分數無法重現,或者方法描述與程式實作不一致。Chain-of-Evidence(CoE)與 CoE Integrity Audit,就是要逐項檢查聲稱、引用、分數與程式之間是否對得上。
整套流程較適合研究代理、AI 自動化工作流、論文生成品質控制,或想比較不同系統可靠性的人參考,而不是一般消費級工具那類即開即用項目。
- 重點放在 evidence grounding,而不只是文字寫得像論文
- 以 Chain-of-Evidence(CoE)追蹤每個 claim 的來源
- 提供 CoE Integrity Audit,涵蓋 score verification、reference verification 等檢查
- 論文比較了五個系統、五類前沿研究任務,共 75 篇論文
- 相關系統包括 ScientistOne,以及論文中提到的 autonomous research agents 與 baselines
ScientistOne 性能數字相當突出,但仍應視為研究結果解讀。文中指出,ScientistOne 在 337 個 bibliography entries 中做到零 hallucinated references,score verification 為 12/12,method–code alignment 為 14/15,並稱在五個任務上達到或超越人類專家表現。
整體來看,這個項目的價值不在華麗介面,而在於把「AI 會寫」推進到「AI 寫的內容能核實」。對需要審視研究產出真確性、想建立更可靠 agent pipeline 的團隊,這個方向比單純追求生成速度更值得留意。
GitHub: https://github.com/scientist-one/generated-artifacts