跳转到内容

论文阅读与 AI 伦理

对应原大纲第 6 课最后一节：怎么评读 AI+Bio 论文、AI 局限性、伦理议题。

核心议题

1. 怎么读 AI+Bio 论文

按这个顺序读：

abstract + 图 1 + table 1（10 分钟扫整篇）
数据来源和划分方法（最常出问题）
baseline 比较（没 baseline 的论文要怀疑）
代码 / 数据开放情况

2. 常见陷阱（必看）

数据泄露：同源序列未去冗余
不合理 benchmark
过拟合 + 过度乐观估计
“AI 预测 = 实验验证”的过度宣称
缺少 baseline 比较
报告选择性偏差

3. AI 伦理

算法公平性（不同物种 / 群体的偏见）
数据隐私（人类基因组 vs 植物）
可重复性危机
AI 模型的碳足迹
知识产权（AI 生成的设计）

4. AI 局限性

黑盒（解释性差）
数据依赖（垃圾进 → 垃圾出）
分布外失效（OOD）
长尾性能差
物种偏见（大部分模型训人类数据）

必读资源

参考 01_ML基础/04_模型评估与陷阱/ 已下载的 PDF：

Lones 2021 — How to avoid ML pitfalls (arXiv 2108.02497)
中文版：51CTO 链接

另外推荐：

Whalen 2022 NRG — Navigating pitfalls in genomics（中文：阿里云）
Heil 2021 Nat Methods — Reproducibility standards for ML
Birhane 系列 — AI 公平性
Strubell 2019 — AI 碳足迹

配套

链接.md