GENEB 統整基因組模型評測:跨 100 個任務的統一比較框架

Repository image for darlednik/GENEB

基因組機器學習近十年快速擴張,但模型之間的比較長期處於碎片化狀態。DARLEDNIK/GENEB 正是針對這項痛點設計的統一評測基準,收錄 100 個分類任務、橫跨 13 個功能類別,並透過線性探測(linear probe)方式,在完整、10-shot 與 1-shot 三種情境下評估預訓練模型凍結後的表徵品質。

這個項目最大的特色是統一了過往各家模型各自為政的評測協議。你只需在 harness/extractors/ 撰寫一個小型 embedding extractor,就能用 run_GENEB.py 在固定的 GENEB 任務資料上產生提交檔,並由 CI 自動驗證後合併到排行榜。提交的模型權重並不儲存在儲存庫內,僅保留評測結果與模型卡片,設計上兼顧了可重現性與第三方權重規範。

它可以支援訓練後的評估,例如你訓練完不同 genomic foundation models,拿 GENEB 來比較它們在多任務、多類別上的表現。

GENEB 對 40 個基因組基礎模型進行了系統性比較,包括 DNA-GPT、GENOMEOCEAN、EVO 等知名模型。研究發現,聚合排行榜其實相當不穩定:模型在不同任務類別的排名會大幅擺動,單一總分容易掩蓋細節差異。論文也指出,模型規模帶來的提升有限且不一致,架構與預訓練資料的對齊程度,往往比參數量更影響下游表現。這些結論對領域內「愈大愈好」的直覺提出了務實的提醒。

這個項目特別適合基因組學領域的研究者、模型開發者,以及需要為下游應用挑選合適表徵的工程團隊。對於想了解現有基因組模型相對強弱的人,Hugging Face Space 上的排行榜提供了 macro 分數與單任務分數兩種視角,方便依功能類別做選擇。

重點摘要

  • 涵蓋 100 個任務、13 個功能類別,並支援 full、10-shot、1-shot 三種評測設定。
  • 採用線性探測協議,統一比較 40 個基因組基礎模型的凍結表徵。
  • 透過 embedding extractor 介面與 CI 流程,確保新模型提交的可重現性。
  • 論文分析顯示聚合排行榜不穩定,模型排名隨任務類別大幅變動。
  • 規模效益有限,架構與預訓練對齊對表現的影響往往大於參數量。

GitHub: https://github.com/darlednik/GENEB

項目: https://huggingface.co/spaces/darlednik/geneb-leaderboard

Categories: 開源, Medical醫學, 框架