AlphaFold 系列:蛋白质结构预测革命
AlphaFold2 在 2020 年 CASP14 的表现震惊了整个生物学界。 截至 2024 年,AlphaFold DB 已包含 2 亿+ 预测结构,覆盖绝大部分已知蛋白序列。 AlphaFold3 进一步预测复合物(蛋白-DNA/RNA/小分子)结构。
| 模型 | 年份 | 主要贡献 |
|---|---|---|
| AlphaFold1 | 2018 | 用神经网络预测距离矩阵 |
| AlphaFold2 ⭐ | 2021 | Evoformer + 注意力机制,CASP14 准确度接近实验 |
| AlphaFold-Multimer | 2021 | 预测蛋白复合物 |
| AlphaFold3 ⭐ | 2024 | 扩散模块,预测蛋白-DNA/RNA/小分子复合物 |
| ColabFold | 2022 | 把 AlphaFold2 搬到 Colab,5 分钟内出结果 |
| ESMFold | 2022 | 不需 MSA 的快速结构预测(Meta) |
| OmegaFold | 2022 | 同上 |
| RoseTTAFold / RoseTTAFold2 | 2021/2023 | Baker 实验室的开源替代品 |
| Boltz-1/2 | 2024-2025 | 开源 AlphaFold3 替代 |
| Protenix | 2024 | 字节跳动开源 AlphaFold3 替代 |
核心概念(必懂)
Section titled “核心概念(必懂)”| 概念 | 意思 | 怎么用 |
|---|---|---|
| MSA | 多序列比对 | 提供进化信息,越多同源序列预测越准 |
| Evoformer | AlphaFold2 核心模块 | 处理 MSA + pair representation |
| pLDDT | 单残基预测可信度 0-100 | > 90 = 高置信;< 50 = 不可信 |
| PAE | 残基对预测误差矩阵 | 看域间相对位置可信度 |
| pTM / ipTM | 整体结构置信度 | 评估复合物预测质量 |
读 Greener 2022(已在 01_ML综述/)回顾 ML 基础 → 看李沐 AlphaFold2 论文精读视频(直觉) → 读 Jumper 2021 Nature 原文(本地 PDF) → 跑一次 ColabFold(实操) → 学会读 pLDDT / PAE 图(必备) → AF3 / 最新工具(可选)📘 Jumper et al. (2021) — Highly accurate protein structure prediction with AlphaFold
- 本地:
./2021_Jumper_AlphaFold2.pdf - Nature: https://www.nature.com/articles/s41586-021-03819-2
- 必读:现代 AI 生物学的奠基论文
📘 Varadi et al. (2022) — AlphaFold Protein Structure Database
- Nucleic Acids Research: https://academic.oup.com/nar/article/50/D1/D439/6430488
- 详细介绍 AlphaFold DB 的使用
📘 Abramson et al. (2024) — Accurate structure prediction of biomolecular interactions with AlphaFold 3
-
🎥 李沐 AlphaFold2 论文逐段精读 — B 站
- 搜索关键词:「李沐 AlphaFold2 论文精读」
- 推荐理由:李沐逐字带读,理解论文细节
-
🎥 DeepMind 官方 AlphaFold2 介绍 — YouTube
- 搜索关键词:「AlphaFold 2 DeepMind」
- AlphaFold Protein Structure Database:https://alphafold.ebi.ac.uk/
- 直接搜索 UniProt ID 或基因名,查已有结构(2 亿+)
- ColabFold (Colab 版):https://github.com/sokrypton/ColabFold
- 浏览器内 5 分钟跑 AlphaFold2 预测
- ESM Atlas:https://esmatlas.com/
- Meta 的 ESMFold 预测库(6.5 亿+ 元基因组蛋白)
怎么读 AlphaFold 输出(重点)
Section titled “怎么读 AlphaFold 输出(重点)”- pLDDT 颜色(默认彩色结构):
- 蓝色(>90)= 高置信
- 浅蓝(70-90)= 中高置信
- 黄色(50-70)= 不确定
- 红色(<50)= 不可信
- PAE 矩阵:看域间相对位置是否可信
- 5 个模型对比:5 个 model 一致性高 = 更可信
- MSA 深度:MSA 越深预测越好
- 拟南芥蛋白质组结构 — AlphaFold DB 已收录
- 水稻、玉米等作物蛋白 — 大部分有 AlphaFold 预测
- 植物特殊蛋白(如光合复合体、信号肽 + 受体复合物)—— 用 AF3 / AF-Multimer
- 📄 链接资料保留在源目录的
链接.md,后续会结构化迁移。