跳转到内容

论文阅读与 AI 伦理

对应原大纲第 6 课最后一节:怎么评读 AI+Bio 论文、AI 局限性、伦理议题。

按这个顺序读:

  • abstract + 图 1 + table 1(10 分钟扫整篇)
  • 数据来源和划分方法(最常出问题)
  • baseline 比较(没 baseline 的论文要怀疑)
  • 代码 / 数据开放情况
  • 数据泄露:同源序列未去冗余
  • 不合理 benchmark
  • 过拟合 + 过度乐观估计
  • “AI 预测 = 实验验证”的过度宣称
  • 缺少 baseline 比较
  • 报告选择性偏差
  • 算法公平性(不同物种 / 群体的偏见)
  • 数据隐私(人类基因组 vs 植物)
  • 可重复性危机
  • AI 模型的碳足迹
  • 知识产权(AI 生成的设计)
  • 黑盒(解释性差)
  • 数据依赖(垃圾进 → 垃圾出)
  • 分布外失效(OOD)
  • 长尾性能差
  • 物种偏见(大部分模型训人类数据)

参考 01_ML基础/04_模型评估与陷阱/ 已下载的 PDF:

  • Lones 2021 — How to avoid ML pitfalls (arXiv 2108.02497)
  • 中文版:51CTO 链接

另外推荐:

  • Whalen 2022 NRG — Navigating pitfalls in genomics(中文:阿里云)
  • Heil 2021 Nat Methods — Reproducibility standards for ML
  • Birhane 系列 — AI 公平性
  • Strubell 2019 — AI 碳足迹
  • 链接.md