DNA 序列建模:Enformer / DNABERT / Evo
把 DNA 序列当成”语言”或”图像”建模。 2018 年的 CNN 风格 → 2021 年的 Transformer → 2026 年的 1 Mb 长上下文。
DeepSEA (2015) → Basenji (2018) → Enformer (2021) ↓ AlphaGenome (2026) ⭐
DNABERT (2021) → DNABERT-2 (2023) → Nucleotide Transformer (2024)
GPN (2022) → Evo (2024) → Evo2 (2025)关键模型详解
Section titled “关键模型详解”Enformer ⭐
Section titled “Enformer ⭐”- 输入:200 kb DNA 序列
- 输出:5313 个表达/染色质信号
- 架构:CNN(局部)+ Transformer(长距离)
- 突破:把上下文从 ~10 kb 推进到 200 kb
DNABERT / DNABERT-2
Section titled “DNABERT / DNABERT-2”- BERT 风格预训练
- DNA 拆成 k-mer(“DNA 词”)
- 适用于多种下游任务(启动子分类、TF 结合等)
Nucleotide Transformer
Section titled “Nucleotide Transformer”- InstaDeep + NVIDIA 联合
- 多物种预训练(含植物)
- 模型大小从 500M 到 2.5B
Evo / Evo2
Section titled “Evo / Evo2”- 超长上下文(131 kb / 1 Mb)
- 单细胞分辨率
- 可以生成新的基因组序列
AlphaGenome (2026)
Section titled “AlphaGenome (2026)”- DeepMind 新作,1 Mb 上下文
- 24 项任务中 22 项 SOTA
- 可同时预测剪接、表达、染色质、3D 接触图
📘 Avsec et al. (2021) — Effective gene expression prediction from sequence by integrating long-range interactions (Enformer) — Nature Methods
- 本地:
./2021_Avsec_Enformer.pdf - https://www.nature.com/articles/s41592-021-01252-x
📘 Washburn et al. (2019) — Evolutionarily informed deep learning methods for predicting relative transcript abundance from DNA sequence — PNAS
- https://www.pnas.org/doi/10.1073/pnas.1814551116
- 植物特定:从玉米/拟南芥 DNA 序列预测转录丰度
📘 其他论文(链接):
- [Ji et al. 2021] DNABERT — Bioinformatics
- [Zhou et al. 2023] DNABERT-2 — bioRxiv
- [Dalla-Torre et al. 2024] Nucleotide Transformer — Nature Methods
- [Nguyen et al. 2024] Evo — Science
- AlphaGenome 2026 — Nature
- 📄 链接资料保留在源目录的
链接.md,后续会结构化迁移。