Hito del programa «All of Us» de los NIH: reducir la brecha de datos en la reutilización de fármacos mediante la inteligencia artificial
El 30 de junio de 2026, los Institutos Nacionales de Salud anunciaron que su programa de investigación «All of Us»se ha convertido en la mayor base de datos integrada de genómica y historiales clínicos electrónicos del mundo, con datos de más de 747 000 participantes ahora a disposición de los investigadores. El programa de investigación «All of Us» de los NIH es ahora la mayor base de datos integrada de genómica y salud del mundo (NIH). Esto es más que un hito programático. Representa una respuesta directa a uno de los obstáculos más persistentes a los que se enfrenta la IA en la reutilización de fármacos: la falta de conjuntos de datos amplios, diversos e integrados que combinen la profundidad genómica con datos clínicos reales.
Este problema se puso de relieve en mi reciente entrada en la que analizaba el uso de la inteligencia artificial y el aprendizaje automático en la reutilización de fármacos, basándome en el trabajo de Fu et al. publicado en la Annual Review of Medicine (IA). IA y reutilización de fármacos: viejos fármacos, nuevos usos y las cuestiones de propiedad intelectual (Entrada). Uno de los principales retos que destaqué es que los datos multiómicos y clínicos existentes proceden de muestras de pacientes heterogéneas de diferentes laboratorios y sistemas sanitarios, lo que dificulta enormemente su armonización. IA, p. 391. El intercambio limitado de datos entre las empresas biofarmacéuticas y las instituciones académicas agrava el problema, ya que la comunidad investigadora en general no puede acceder a los conjuntos de datos privados debido a cuestiones relacionadas con la propiedad intelectual. Publicación, p. 2. El resultado es que la creciente cantidad de datos genéticos y multiómicos no se ha explorado de forma eficaz para la reutilización de fármacos debido a la falta de enfoques precisos e integrados. IA, p. 382.
La publicación de «All of Us» aborda directamente estas barreras. El conjunto de datos incluye ahora más de 535 000 secuencias del genoma completo vinculadas a casi 482 000 historias clínicas electrónicas, una combinación de profundidad genómica y amplitud clínica sin parangón en ningún otro programa de investigación del mundo. NIH, p. 1. Abarca más de 1 300 millones de variantes genéticas, 553 000 matrices de genotipado y 96 000 registros de variantes estructurales, junto con 747 000 respuestas a encuestas que recogen circunstancias sociales, comportamientos y entornos. Ídem. Por primera vez, el conjunto de datos también incluye datos de proteómica y secuenciación de ARN, lo que sitúa al programa en la era de la multiómica. NIH, p. 2.
Hay dos características adicionales que hacen que este recurso sea especialmente relevante para la IA. Más del 86 % de los participantes proceden de comunidades históricamente infrarrepresentadas en la investigación biomédica, que abarcan los 50 estados y más del 98 % de los códigos postales de tres dígitos de EE. UU. NIH, págs. 1-2. Esa diversidad aborda otra preocupación planteada en el artículo: que los datos del mundo real se ven afectados por factores de confusión como el sexo, la raza y la situación socioeconómica, así como por la falta de información detallada de carácter clínico, sobre biomarcadores y genética. IA, p. 387. Los datos de «All of Us» están disponibles de forma gratuita para los investigadores registrados, lo que proporciona a los científicos de las universidades rurales el mismo acceso que a los de las principales instituciones de investigación. NIH, p. 2.
El programa ya ha dado lugar a más de 1.400 publicaciones revisadas por pares, entre las que se incluyen trabajos que identifican medicamentos existentes que podrían ayudar a prevenir la enfermedad de Alzheimer. Ídem. Como señaló el director de los NIH, Jay Bhattacharya: «Para adaptar los tratamientos a cada persona, se necesitan poblaciones muy amplias que permitan descubrir los patrones que relacionan la genética, el estilo de vida y el entorno con los resultados de salud». NIH , p. 1.
Esa observación explica por qué esto es importante para la IA y la reutilización de fármacos. Este campo cuenta con algoritmos y potencia computacional. Una base de datos unificada, diversa y de libre acceso que conecte los genomas con la realidad clínica es la pieza clave que falta.
Para adaptar los tratamientos a cada persona, se necesitan, de hecho, poblaciones muy amplias que permitan descubrir los patrones que relacionan la genética, el estilo de vida y el entorno con los resultados de salud.
Jay Bhattacharya, director de los NIH