2026年6月30日,美国国立卫生研究院宣布,其“我们所有人”(All of Us)研究计划已成为全球最大的综合基因组与电子健康记录数据库,目前已有超过74.7万名参与者的数据可供研究人员使用。 美国国立卫生研究院(NIH)的“我们所有人”(All of Us)研究计划现已成为全球最大的整合基因组学与健康数据库 (NIH)。这不仅仅是一个项目里程碑,更是对人工智能在药物再利用领域所面临的最顽固障碍之一——缺乏兼具基因组深度与真实临床数据、且规模庞大、多样化且集成的数据集——所作出的直接回应。
我在最近一篇回顾人工智能和机器学习在药物再利用中应用的文章中强调了这一问题,该文参考了Fu等人发表在 《医学年度评论》 (AI)上发表的论文。 《人工智能与药物再利用:老药新用及知识产权问题》 (博文)。我强调的关键挑战之一是,现有的多组学和临床数据源自不同实验室和医疗体系中异质性极强的患者样本,这使得数据标准化变得极其困难。《AI》第391页。生物制药公司与学术机构之间有限的数据共享加剧了这一问题,因为出于知识产权的考虑,更广泛的研究界无法访问专有数据集。 博文第2页。结果是,由于缺乏准确、综合的方法,日益庞大的基因和多组学数据尚未被有效用于药物再利用研究。《AI》第382页。
“All of Us”项目此次发布的数据直接针对这些障碍。该数据集目前包含超过53.5万条全基因组序列,并与近48.2万份电子健康记录相关联,其基因组深度与临床广度的结合程度,是世界上任何其他研究项目都无法比拟的。 NIH 第 1 页。该数据集涵盖超过 13 亿个基因变异、55.3 万份基因分型芯片数据和 9.6 万份结构变异记录,此外还有 74.7 万份调查问卷回复,记录了受试者的社会状况、行为和环境信息。同上。该数据集还首次纳入了蛋白质组学和 RNA 测序数据,标志着该项目正式迈入多组学时代。NIH 第 2 页。
另外两个特点使得该资源对人工智能领域尤为重要。超过86%的参与者来自历史上在生物医学研究中代表性不足的群体,覆盖全美50个州以及超过98%的美国三位数邮政编码区域。参见NIH第1-2页。 这种多样性解决了文章中提出的另一个问题:即真实世界数据面临性别、种族和社会经济地位等混杂因素的挑战,同时也缺乏详细的临床、生物标志物和遗传信息。《AI》第387页。所有“All of Us”数据均可免费提供给注册研究人员,使农村大学的科学家能够与大型研究机构的科学家享有同等的访问权限。美国国立卫生研究院(NIH)第2页。
该计划迄今已促成1,400余篇经同行评审的论文发表,其中包括关于识别可能有助于预防阿尔茨海默病现有药物的研究成果。同上。正如美国国立卫生研究院(NIH)院长杰伊·巴塔查里亚所指出的:“要为个人量身定制治疗方案,实际上需要非常庞大的研究人群,才能揭示遗传因素、生活方式和环境与健康结果之间的关联模式。”《美国国立卫生研究院 》第1页。
这一观察恰恰说明了这一点为何对人工智能和药物再利用至关重要。该领域拥有算法和计算能力,但一个将基因组与临床现实联系起来的、统一、多样且开放可用的数据基础,却是目前缺失的关键一环。
要想为个人量身定制治疗方案,实际上需要非常庞大的研究样本量,才能揭示遗传因素、生活方式和环境与健康结果之间的关联规律。
美国国立卫生研究院(NIH)院长杰伊·巴塔查里亚