GPT-4 superó a los lectores humanos simulados en el diagnóstico de casos clínicos complejos.
El GPT-4 de OpenAIdiagnosticó correctamente el 52,7 % de los casos complejos, frente al 36 % de los lectores de revistas médicas, y superó al 99,98 % de los lectores humanos simulados, según unestudio publicado por la revista New England Journal of Medicine.
La evaluación, realizada por investigadores de Dinamarca, utilizó GPT-4 para encontrar diagnósticos relacionados con 38 casos clínicos complejos con información textual publicada en línea entre enero de 2017 y enero de 2023. Las respuestas de GPT-4 se compararon con 248 614 respuestas de lectores de revistas médicas en línea.
Cada caso clínico complejo incluía un historial médico junto con una encuesta con seis opciones para el diagnóstico más probable. La indicación utilizada para GPT-4 pedía al programa que resolviera el diagnóstico respondiendo a una pregunta de opción múltiple y analizando el texto completo y sin editar del informe del caso clínico. Cada caso se presentó a GPT-4 cinco veces para evaluar la reproducibilidad.
Como alternativa, los investigadores recopilaron votos para cada caso entre los lectores de revistas médicas, lo que simuló 10 000 conjuntos de respuestas, lo que dio como resultado una pseudopoblación de 10 000 participantes humanos.
Los diagnósticos más comunes incluyeron 15 casos en el campo de las enfermedades infecciosas (39,5 %), cinco casos en endocrinología (13,1 %) y cuatro casos en reumatología (10,5 %). Los pacientes de los casos clínicos tenían edades comprendidas entre recién nacidos y 89 años, y el 37 % eran mujeres.
El GPT-4 de OpenAI diagnosticó correctamente el 52,7 % de los casos complejos, frente al 36 % de los lectores de revistas médicas, y superó al 99,98 % de los lectores humanos simulados, según un estudio publicado por la revista New England Journal of Medicine.
Ver artículo de referencia