FrontierSmith：用合成題目研究AI解題

FrontierSmith 不是一般給人即裝即玩的應用，而是一個用來研究「怎樣產生全新演算法題目」的實驗型專案。儲存庫公開了訓練程式、評估程式，以及論文實驗用的 10 條合成題目，較適合對 AI、程式競賽題目或評測流程有興趣的讀者。

如果你想由淺入深理解它，最容易的方式是先看那 10 個題目資料夾：每題都附有題目敘述、測資產生器、答案檔、評分檢查器和設定檔。即使未必會親自訓練模型，單是觀察這套結構，已經能明白一條題目怎樣被整理成可測試、可重現的形式。

它真正處理的問題，是減少人手設計複雜題目的成本，並為模型建立較一致的測試環境。特別之處在於，它不只放出題目文字，而是連同驗證、評分與資料準備流程一併公開，令研究者較容易重做論文中的部分結果；不過官方亦明確保留了 orchestrator 與由大型語言模型驅動的測試／checker 生成部分，所以目前看到的並非完整生產線。

提供 10 條合成演算法題目，對應 Frontier-CS 主儲存庫中的 306 至 315 號題目
內含訓練、評估、資料準備腳本，重點在研究流程而非一般終端產品
每題都有 statement、gen、checker、testdata，方便理解評測設計
使用 Python 3.11+，並見到 Docker、VERL、ALE-Bench 等相關組件
適合做論文重現、題目評測研究，以及觀察模型解題表現

至於適合甚麼人，我會說最受用的是研究人員、機器學習工程師、競賽題目設計者，以及想了解 LLM 如何面對演算法題的人。如果你只是想找一個完整的自動出題工具，現階段可能會覺得資訊仍有缺口；但如果你的目標是研究方法、資料結構與評估框架，FrontierSmith 的公開部分已相當值得細看。

從相關技術脈絡來看，這個專案明顯圍繞大型語言模型與程式／推理能力評測而建，儲存庫中可見的相關名稱包括 VERL、ALE-Bench、Harbor adapter，以及主儲存庫 Frontier-CS。至於實際採用哪些語言模型，公開內容未有完整列明，因此閱讀時應把它視為一個偏研究基建的開放樣本，而不是完整商用方案。

網址： https://github.com/FrontierCS/FrontierSmith