跳转到内容

调控与变异预测：DeepSEA 等模型

98% 的人类（和大部分植物）DNA 是非编码区。这些区域决定基因何时何地表达，但传统上很难解读。 DeepSEA/Sei 等 AI 模型让”非编码变异 → 表型影响”的预测成为可能。

核心模型

模型	任务	代表论文
DeepSEA	非编码变异 → 染色质特征 / TF 结合	Zhou & Troyanskaya 2015 NMethods
Sei	改进版 DeepSEA，分类调控状态	Chen 2022 Nat Genet
Basenji / Basenji2	长序列 + 多任务	Kelley 2018-2020
Borzoi	Basenji 升级，含 RNA-seq 预测	Linder 2023
ExPecto	变异 → 组织特异表达	Zhou 2018 Nat Genet
DeepBind	TF 结合预测	Alipanahi 2015 Nat Biotech

任务概览

染色质可及性预测：哪些区域开放
TF 结合位点预测：哪些位点会被特定 TF 结合
组蛋白修饰预测：H3K4me3 等的位置
变异功能预测：SNP/Indel 对调控的影响
eQTL 预测：表达 QTL 因果变异
剪接位点预测：是 SpliceAI 等专用模型

学习顺序

读 DeepSEA 2015 (CNN 早期应用)
  → 看 Sei 改进 (更细的状态)
  → 学 Basenji/Borzoi (长上下文)
  → 应用：解读 GWAS hit

必读论文

📘 Zhou & Troyanskaya (2015) — Predicting effects of noncoding variants with deep learning–based sequence model (DeepSEA) — Nature Methods

https://www.nature.com/articles/nmeth.3547

📘 Chen et al. (2022) — A sequence-based global map of regulatory activity for deciphering human genetics (Sei) — Nature Genetics

https://www.nature.com/articles/s41588-022-01102-2

植物应用

植物 GWAS hit 解读：用 DeepSEA 风格模型在植物数据上训练
启动子改造：预测启动子变异对表达的影响
抗逆 cis-element 鉴定

配套

📄 链接资料保留在源目录的 链接.md，后续会结构化迁移。