根据《新英格兰医学杂志》发表的一项研究,OpenAI的GPT-4在复杂挑战病例中正确诊断率达52.7%,而医学期刊读者正确率仅为36%,其表现超越了99.98%的模拟人类读者。 《新英格兰医学杂志》。
这项由丹麦研究人员开展的评估,利用GPT-4对2017年1月至2023年1月期间在线发布的文本信息,针对38个复杂临床病例挑战进行诊断分析。研究将GPT-4的响应结果与248,614份来自在线医学期刊读者的答案进行了对比。
每个复杂临床病例均包含病史记录及六项备选最可能诊断的投票选项。针对GPT-4的提示要求该程序通过解答多项选择题并分析临床病例报告中未经编辑的完整文本,从而得出诊断结果。每个病例均向GPT-4呈现五次以评估其结果的可重复性。
研究人员还通过收集医学期刊读者对每个病例的投票,模拟了10,000组答案,从而形成了一个由10,000名人类参与者组成的伪人群。
最常见的诊断包括传染病领域15例(39.5%)、内分泌学领域5例(13.1%)以及风湿病学领域4例(10.5%)。临床病例患者年龄跨度从新生儿至89岁,其中37%为女性。
根据《新英格兰医学杂志》发表的一项研究,OpenAI的GPT-4在复杂挑战病例中正确诊断率达52.7%,而医学期刊读者正确率仅为36%,其表现超越了99.98%的模拟人类读者。
查看引用文章