ESM 蛋白质语言模型
ESM 系列把蛋白序列当作”语言”,用大型 Transformer 学习其”语法”。 核心思想:从大量蛋白序列中,模型自己学会理解什么是”合理的”蛋白序列。
| 模型 | 年份 | 主要贡献 | 推荐场景 |
|---|---|---|---|
| ESM-1b | 2021 | 第一个大规模 PLM | 较老 |
| ESM-2 ⭐ | 2023 | 150B 参数,零样本结构预测可能 | 突变效应预测、特征提取 |
| ESM-3 ⭐ | 2024 | 多模态:序列 + 结构 + 功能 | SOTA 任务 |
| ESMFold | 2022 | ESM-2 + 折叠头 = 不需 MSA 的结构预测 | 元基因组蛋白 |
| ProtTrans (ProtBERT 等) | 2021 | Google 风格的 BERT 用于蛋白 | 替代品 |
| ProGen / ProGen2 | 2020-2023 | 蛋白生成 GPT | 生成新序列 |
| Prot42 | 2024 | 阿联酋的开源 PLM | 替代品 |
| PoET-2 | 2024 | 蛋白进化建模 | 进化分析 |
| 概念 | 一句话 |
|---|---|
| MLM (掩码语言建模) | 遮住一些氨基酸,让模型猜(BERT 风格) |
| 嵌入(Embedding) | 每个氨基酸一个高维向量,捕获其在序列中的”语义” |
| 零样本预测 | 不用任何标签数据,直接从预训练模型推 |
| 似然评分 | ”这个序列的合理性” — 用作突变效应预测 |
| 微调(Fine-tune) | 在特定任务上用少量标签数据再训练 |
读 Greener 2022 中的 PLM 章节 → 看 Hugging Face ESM 教程 → 跑一次 ESM-2 嵌入提取(demo) → 学突变效应预测(zero-shot) → 学微调(如果需要)📘 Lin et al. (2023) — Evolutionary-scale prediction of atomic-level protein structure — Science
- ESM-2 + ESMFold 原文
- https://www.science.org/doi/10.1126/science.ade2574
📘 Rives et al. (2021) — Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences — PNAS
📘 Hayes et al. (2024) — Simulating 500 million years of evolution with a language model
- Hugging Face ESM 教程:https://huggingface.co/docs/transformers/model_doc/esm
- facebookresearch/esm:https://github.com/facebookresearch/esm — 官方仓库
- AI 技术丨ESM3:当多模态蛋白质语言模型遇上 Scaling Law - 大湾生物: https://www.greatbay-bio.com.cn/ndetail/130.html
| 任务 | 用什么 | 怎么做 |
|---|---|---|
| 提取蛋白特征 | ESM-2 embeddings | 用 GitHub esm 库一行代码 |
| 突变效应预测 | ESM-2 likelihood | 比较 wild-type 和 mutant 的 log-likelihood |
| 结构预测(无 MSA) | ESMFold | API 或本地跑 |
| 蛋白功能注释 | ESM 微调 | 用少量标签数据 |
| 蛋白生成 | ProGen2 | 生成新序列 |
- 📄 链接资料保留在源目录的
链接.md,后续会结构化迁移。