论文阅读与 AI 伦理
对应原大纲第 6 课最后一节:怎么评读 AI+Bio 论文、AI 局限性、伦理议题。
1. 怎么读 AI+Bio 论文
Section titled “1. 怎么读 AI+Bio 论文”按这个顺序读:
- abstract + 图 1 + table 1(10 分钟扫整篇)
- 数据来源和划分方法(最常出问题)
- baseline 比较(没 baseline 的论文要怀疑)
- 代码 / 数据开放情况
2. 常见陷阱(必看)
Section titled “2. 常见陷阱(必看)”- 数据泄露:同源序列未去冗余
- 不合理 benchmark
- 过拟合 + 过度乐观估计
- “AI 预测 = 实验验证”的过度宣称
- 缺少 baseline 比较
- 报告选择性偏差
3. AI 伦理
Section titled “3. AI 伦理”- 算法公平性(不同物种 / 群体的偏见)
- 数据隐私(人类基因组 vs 植物)
- 可重复性危机
- AI 模型的碳足迹
- 知识产权(AI 生成的设计)
4. AI 局限性
Section titled “4. AI 局限性”- 黑盒(解释性差)
- 数据依赖(垃圾进 → 垃圾出)
- 分布外失效(OOD)
- 长尾性能差
- 物种偏见(大部分模型训人类数据)
参考 01_ML基础/04_模型评估与陷阱/ 已下载的 PDF:
- Lones 2021 — How to avoid ML pitfalls (arXiv 2108.02497)
- 中文版:51CTO 链接
另外推荐:
- Whalen 2022 NRG — Navigating pitfalls in genomics(中文:阿里云)
- Heil 2021 Nat Methods — Reproducibility standards for ML
- Birhane 系列 — AI 公平性
- Strubell 2019 — AI 碳足迹
- 链接.md