GENEB 統整基因組模型評測：跨 100 個任務的統一比較框架

基因組機器學習近十年快速擴張，但模型之間的比較長期處於碎片化狀態。DARLEDNIK/GENEB 正是針對這項痛點設計的統一評測基準，收錄 100 個分類任務、橫跨 13 個功能類別，並透過線性探測（linear probe）方式，在完整、10-shot 與 1-shot 三種情境下評估預訓練模型凍結後的表徵品質。

這個項目最大的特色是統一了過往各家模型各自為政的評測協議。你只需在 harness/extractors/ 撰寫一個小型 embedding extractor，就能用 run_GENEB.py 在固定的 GENEB 任務資料上產生提交檔，並由 CI 自動驗證後合併到排行榜。提交的模型權重並不儲存在儲存庫內，僅保留評測結果與模型卡片，設計上兼顧了可重現性與第三方權重規範。

它可以支援訓練後的評估，例如你訓練完不同 genomic foundation models，拿 GENEB 來比較它們在多任務、多類別上的表現。

GENEB 對 40 個基因組基礎模型進行了系統性比較，包括 DNA-GPT、GENOMEOCEAN、EVO 等知名模型。研究發現，聚合排行榜其實相當不穩定：模型在不同任務類別的排名會大幅擺動，單一總分容易掩蓋細節差異。論文也指出，模型規模帶來的提升有限且不一致，架構與預訓練資料的對齊程度，往往比參數量更影響下游表現。這些結論對領域內「愈大愈好」的直覺提出了務實的提醒。

這個項目特別適合基因組學領域的研究者、模型開發者，以及需要為下游應用挑選合適表徵的工程團隊。對於想了解現有基因組模型相對強弱的人，Hugging Face Space 上的排行榜提供了 macro 分數與單任務分數兩種視角，方便依功能類別做選擇。

重點摘要：

涵蓋 100 個任務、13 個功能類別，並支援 full、10-shot、1-shot 三種評測設定。
採用線性探測協議，統一比較 40 個基因組基礎模型的凍結表徵。
透過 embedding extractor 介面與 CI 流程，確保新模型提交的可重現性。
論文分析顯示聚合排行榜不穩定，模型排名隨任務類別大幅變動。
規模效益有限，架構與預訓練對齊對表現的影響往往大於參數量。

GitHub： https://github.com/darlednik/GENEB

項目： https://huggingface.co/spaces/darlednik/geneb-leaderboard