跳转到内容

DNA 序列建模:Enformer / DNABERT / Evo

把 DNA 序列当成”语言”或”图像”建模。 2018 年的 CNN 风格 → 2021 年的 Transformer → 2026 年的 1 Mb 长上下文。

DeepSEA (2015) → Basenji (2018) → Enformer (2021)
AlphaGenome (2026) ⭐
DNABERT (2021) → DNABERT-2 (2023) → Nucleotide Transformer (2024)
GPN (2022) → Evo (2024) → Evo2 (2025)
  • 输入:200 kb DNA 序列
  • 输出:5313 个表达/染色质信号
  • 架构:CNN(局部)+ Transformer(长距离)
  • 突破:把上下文从 ~10 kb 推进到 200 kb
  • BERT 风格预训练
  • DNA 拆成 k-mer(“DNA 词”)
  • 适用于多种下游任务(启动子分类、TF 结合等)
  • InstaDeep + NVIDIA 联合
  • 多物种预训练(含植物)
  • 模型大小从 500M 到 2.5B
  • 超长上下文(131 kb / 1 Mb)
  • 单细胞分辨率
  • 可以生成新的基因组序列
  • DeepMind 新作,1 Mb 上下文
  • 24 项任务中 22 项 SOTA
  • 可同时预测剪接、表达、染色质、3D 接触图

📘 Avsec et al. (2021) — Effective gene expression prediction from sequence by integrating long-range interactions (Enformer) — Nature Methods

📘 Washburn et al. (2019) — Evolutionarily informed deep learning methods for predicting relative transcript abundance from DNA sequence — PNAS

📘 其他论文(链接)

  • [Ji et al. 2021] DNABERT — Bioinformatics
  • [Zhou et al. 2023] DNABERT-2 — bioRxiv
  • [Dalla-Torre et al. 2024] Nucleotide Transformer — Nature Methods
  • [Nguyen et al. 2024] Evo — Science
  • AlphaGenome 2026 — Nature
  • 📄 链接资料保留在源目录的 链接.md,后续会结构化迁移。