哈佛最新研究：用AI大型语言模型看病 80%的初步诊断都是错的

显示全部楼层 · 发表于 2026-4-15 23:10:05

　　炒股第一步，先开个股票账户
　　在AI大模型快速发展的今天，很多人在生病或出现症状时的第一反应已经不再是去医院挂急诊，而是求助于ChatGPT或者DeepSeek这类AI聊天机器人。
　　尽管这些通用聊天机器人在日常生活的很多方面都能成为人类的好助手，但在医学方面，它们还不足以好到能提供精确诊断的程度。
　　近日，美国哈佛医学院的一个研究团队评估了20几种最先进的AI大型语言模型（LLM）的诊断能力，其中包括ChatGPT、DeepSeek、Gemini和Claude。结果显示，基于患者的初步症状和体征进行“鉴别诊断”（识别可能的疾病）的错误率高达80%。
　　这项研究进一步显示，在患者提供更多检测结果后，大模型可以将“最终诊断”的失败率降至40%左右。研究人员表示，这意味着AI聊天机器人需要通过充分的患者信息，才能对疾病作出更为精准的诊断，患者无法提供完整的健康检测信息时，AI提供的结果并不可靠。
　　研究人员还强调：“人工智能尚未达到无需医疗专业人员干预即可为患者做出诊断决策的水平。”
　　这一研究结果也凸显了人工智能在医疗领域应用时面临的安全挑战。聊天机器人等AI工具若不经过专业人士的严格把关，不仅会误导患者，医学从业者在使用AI作为检索资料的过程中也可能被误导。
　　上周《自然》杂志就刊登了一篇文章，称出现在网上的两篇假论文中的一种不存在的皮肤疾病，被同行评议的文献引用，并且开始出现在Gemini等最常用的大型语言模型聊天机器人的输出中。这些聊天机器人“一本正经”地将一些患者诊断为这种不存在的疾病，并建议人们去看相关的专科医生。
　　Gemini是谷歌的一款聊天机器人。一位谷歌发言人表示，此类结果反映了早期大模型发展的局限性。“我们始终对生成式AI的局限性保持透明，并提醒用户仔细核对信息。对于诸如医疗建议这类敏感事项，Gemini建议用户咨询具有资质的专业人士。”
　　中国科学院院士、复旦大学附属中山医院心内科主任葛均波教授近期多次谈及AI大模型在医疗应用中面临的挑战，其中两个关键问题是患者隐私如何保护，以及AI在医疗过程中一旦出现问题，责任由谁来承担？他表示，目前正在开展的工作包括如何明确AI技术辅助诊疗的边界，强化医生对AI结果的判断能力和责任意识，确保医疗安全。
　　尽管AI大模型仍在不断完善的过程中，但葛均波仍然相信，在不久的将来，随着AI技术的进步以及算法的提升，AI的能力一定会超过最顶尖的医生，从辅助医生逐步走向具有独立思考能力的诊疗工具。

　　全新妙想投研助理，立即体验
（文章来源：第一财经）

小透明

那还用AI诊个毛啊，别误了病情，这是一个人的头等大事！！

小透明

Ai看病很准确啊，我用华为手机小艺试过几次，都很好用，开的药方很准确，很有疗效！这是有人故意唱衰ai医疗

小透明

也就年吧时间，一岁左右，能看对20%的病，很不错了吧？

小透明

你踏马废话，通用大语言模型怎么可能看准病，但如果是专业的医疗大模型，数据质与量都会提升不止一个档次，肯宁准确率就好的多。

哈佛最新研究：用AI大型语言模型看病 80%的初步诊断都是错的

浏览过的版块

最佳新人

活跃会员

热心会员

灌水之王

突出贡献

优秀版主

荣誉管理

论坛元老