跳转到内容

ESM 蛋白质语言模型

ESM 系列把蛋白序列当作”语言”,用大型 Transformer 学习其”语法”。 核心思想:从大量蛋白序列中,模型自己学会理解什么是”合理的”蛋白序列。

模型年份主要贡献推荐场景
ESM-1b2021第一个大规模 PLM较老
ESM-22023150B 参数,零样本结构预测可能突变效应预测、特征提取
ESM-32024多模态:序列 + 结构 + 功能SOTA 任务
ESMFold2022ESM-2 + 折叠头 = 不需 MSA 的结构预测元基因组蛋白
ProtTrans (ProtBERT 等)2021Google 风格的 BERT 用于蛋白替代品
ProGen / ProGen22020-2023蛋白生成 GPT生成新序列
Prot422024阿联酋的开源 PLM替代品
PoET-22024蛋白进化建模进化分析
概念一句话
MLM (掩码语言建模)遮住一些氨基酸,让模型猜(BERT 风格)
嵌入(Embedding)每个氨基酸一个高维向量,捕获其在序列中的”语义”
零样本预测不用任何标签数据,直接从预训练模型推
似然评分”这个序列的合理性” — 用作突变效应预测
微调(Fine-tune)在特定任务上用少量标签数据再训练
读 Greener 2022 中的 PLM 章节
→ 看 Hugging Face ESM 教程
→ 跑一次 ESM-2 嵌入提取(demo)
→ 学突变效应预测(zero-shot)
→ 学微调(如果需要)

📘 Lin et al. (2023) — Evolutionary-scale prediction of atomic-level protein structure — Science

📘 Rives et al. (2021) — Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences — PNAS

📘 Hayes et al. (2024) — Simulating 500 million years of evolution with a language model

任务用什么怎么做
提取蛋白特征ESM-2 embeddings用 GitHub esm 库一行代码
突变效应预测ESM-2 likelihood比较 wild-type 和 mutant 的 log-likelihood
结构预测(无 MSA)ESMFoldAPI 或本地跑
蛋白功能注释ESM 微调用少量标签数据
蛋白生成ProGen2生成新序列
  • 📄 链接资料保留在源目录的 链接.md,后续会结构化迁移。