cusp-scientific-foresight：AI 能否預測科學突破？

CUSP是一個用來評估AI是否能「預測科學未來」的基準資料集。它的做法幾有意思：先把模型鎖定在某個歷史時間點之前可見的知識，再要求它判斷之後會不會出現某項科研成果、何時出現，或者從多個候選答案中選出較合理的一個。

項目提供了資料集和 notebook 入手，先看每筆紀錄包含甚麼欄位，再逐類型比較模型表現。它支援多種題型，包括二元判斷、反向擾動題、四選一、開放式回答，以及發表時間預測，對研究評估流程的人來說相當完整。

這個項目想解決的，不是一般問答準不準，而是AI有沒有能力在資訊受限下推測科研進程。這點比常見基準更接近真實研究判斷，因為重點不只是背到答案，而是能否根據過往脈絡作出前瞻推論。

較突出的地方，是它加入「歷史知識截點」和跨學科事件設計，涵蓋4,760個科學事件，並且把時間預測都納入評分。論文內容亦指出，不少前沿模型雖然能辨認看似合理的研究方向，但對於成果是否真的會發生、會在幾時出現，表現並不穩定；AI相關進展似乎比生物、化學、物理更易預測。

整體來看，CUSP較適合做模型評估、AI研究分析，或關心「AI能否幫手判斷科研走向」的人閱讀。它未必是一般用家即開即用的應用型工具，但作為一個評測項目，它把問題定義得清楚，也提醒大家：模型懂得整理已知資訊，不代表已經懂得可靠地預測科學突破。

GitHub： https://github.com/SeanWu25/cusp-scientific-foresight

Paper： https://arxiv.org/pdf/2605.22681