cusp-scientific-foresight:AI 能否預測科學突破?

Repository image for SeanWu25/cusp-scientific-foresight

CUSP是一個用來評估AI是否能「預測科學未來」的基準資料集。它的做法幾有意思:先把模型鎖定在某個歷史時間點之前可見的知識,再要求它判斷之後會不會出現某項科研成果、何時出現,或者從多個候選答案中選出較合理的一個。

項目提供了資料集和 notebook 入手,先看每筆紀錄包含甚麼欄位,再逐類型比較模型表現。它支援多種題型,包括二元判斷、反向擾動題、四選一、開放式回答,以及發表時間預測,對研究評估流程的人來說相當完整。

這個項目想解決的,不是一般問答準不準,而是AI有沒有能力在資訊受限下推測科研進程。這點比常見基準更接近真實研究判斷,因為重點不只是背到答案,而是能否根據過往脈絡作出前瞻推論。

較突出的地方,是它加入「歷史知識截點」和跨學科事件設計,涵蓋4,760個科學事件,並且把時間預測都納入評分。論文內容亦指出,不少前沿模型雖然能辨認看似合理的研究方向,但對於成果是否真的會發生、會在幾時出現,表現並不穩定;AI相關進展似乎比生物、化學、物理更易預測。

  • 重點不是答題,而是前瞻判斷能力
  • 題型涵蓋是非題、選擇題、開放回答與時間預測
  • 涉及多個科學領域,能看出不同領域的差異
  • 研究結果顯示模型存在過度自信與回答偏差
  • 相關模型層面,項目主要用來評估現代大型語言模型,而非只限單一模型

整體來看,CUSP較適合做模型評估、AI研究分析,或關心「AI能否幫手判斷科研走向」的人閱讀。它未必是一般用家即開即用的應用型工具,但作為一個評測項目,它把問題定義得清楚,也提醒大家:模型懂得整理已知資訊,不代表已經懂得可靠地預測科學突破。

GitHub: https://github.com/SeanWu25/cusp-scientific-foresight

Paper: https://arxiv.org/pdf/2605.22681

Categories: 開源, Dataset 數據集