研究警示:五大AI平台半数医学建议存疑,使用需谨慎

当身体出现不适,你的第一反应是打开搜索引擎,还是问问AI?一项最新的研究结果,或许能给这股“AI问诊”的热潮泼上一盆理性的冷水。
北京时间4月15日,彭博社报道指出,一项发表于权威医学期刊《BMJ Open》的研究揭示,AI驱动的聊天机器人在提供医学建议时,大约有一半的概率会给出“有问题”的答案。这无疑为这项正快速渗透我们日常生活的技术,敲响了关于健康风险的警钟。
研究如何进行的?
来自美国、加拿大和英国的研究团队,将目光投向了当前最主流的五大AI平台:ChatGPT、Gemini、Meta AI、Grok以及DeepSeek。他们的评估方法直接而系统:在五个不同的健康类别下,向每个平台提出10个问题,然后对答案进行专业评判。
结果令人深思。在所有收集到的回答中,约有50%被认定为“有问题”,而其中近20%更是被划为“高度有问题”的范畴。这意味着,当你向这些AI咨询健康问题时,拿到不准确或不完整建议的可能性,并非小概率事件。

(图示:黄色代表“有问题”的回答,橙色代表“高度有问题”的回答)
AI的“偏科”与“自信”
进一步分析发现,这些AI的表现存在明显的“偏科”现象。在面对诸如疫苗有效性、癌症筛查建议等封闭式、事实性较强的问题时,它们的回答相对更可靠。然而,一旦问题转向开放式咨询,或者涉及干细胞疗法、营养学等复杂且前沿的领域,AI的表现就开始大幅下滑,错误率和误导性显著增加。
更值得警惕的是研究指出的另一个共性:这些AI在给出回答时,往往带着一种“自信而确定”的口吻。但仔细审视就会发现,没有一个聊天机器人能在回答任何问题时,提供完整且准确的参考文献列表来支撑其观点。换句话说,它们说得“很肯定”,但依据却“不透明”。在整个研究过程中,仅有Meta AI出现过两次拒绝回答的情况,其他平台几乎是有问必答,无论其知识边界是否覆盖。
热潮背后的隐忧
这项研究之所以重要,是因为它精准地戳中了一个现实矛盾:公众对AI健康咨询的需求正在爆炸式增长,但这些平台本身,既未获得提供医学建议的执业许可,也缺乏人类医生所具备的临床判断与情境化分析能力。
数据显示,仅OpenAI的ChatGPT,每周就有超过2亿人咨询健康和保健问题。巨大的需求也催生了市场的快速跟进,今年1月,OpenAI宣布将推出面向普通用户和临床医生的健康工具,Anthropic公司也为其Claude产品规划了新的医疗保健服务。
然而,研究的作者们明确指出,如果在缺乏充分公众教育和有效监管的情况下匆忙部署这些健康聊天机器人,一个巨大的风险在于——它们可能成为错误信息的“放大器”。那些听起来权威、实则存在缺陷的回答,一旦被广泛传播和采信,后果不堪设想。
研究结论呼吁,必须重新评估AI聊天机器人在面向公众的健康沟通中的角色与部署方式。技术的进步带来了便利,但在关乎生命的医疗健康领域,审慎与验证永远应该排在盲目信任之前。毕竟,当健康遇到问题时,一个负责任的答案,远比一个快速却存疑的答案重要得多。
相关攻略
HermesAgent是一款开源自主AI智能体框架,定位为可持久运行、自我进化的“数字员工”。它以任务完成为导向,通过四层架构处理信息、操作文件、执行终端命令及自动化浏览器,支持六种部署方式,并通过统一网关接入微信等多平台。其关键特性在于能从任务经验中自动提炼并复用技能,实现持续进化,越用越。
近期,世界模型领域动态频频,竞争日趋白热化。 李飞飞教授创立的具身智能公司 World Labs 高调发布了「Spark 2 0」模型;几乎同时,阿里巴巴也推出了自家的世界模型「快乐生蚝」。此外,Physical Intelligence 公司发布了新模型 π 0 7,重点强调了其在未见任务上的组合
近日,2026北京亦庄机器人半程马拉松赛事现场,一款造型独特的机器人意外成为焦点,在网络上引发了广泛讨论。这款被网友昵称为“豆脚”的机器人,以其极具辨识度的外观和有趣的行走姿态,迅速走红。 “豆脚”机器人的创意来源于抖音平台的虚拟IP“豆包”。其创作者、抖音博主“同济子豪兄”基于高擎动力的小派机器人
“跑马拉松的机器人和我们,完全是两个领域。我们和做语言模型的公司,距离反而更近。” 就在不久前,一场机器人马拉松吸引了无数目光。那些拥有刀锋般双足的机器人,跑出了超越人类的速度。然而,在自变量科技CEO王潜看来,这更多是硬件能力的展示,而真正的战场,在于“大脑”。 “硬件在中国,从来都不是壁垒。今天
FigureAI三台人形机器人在物流仓库进行了超40小时全自主分拣直播,处理数千件包裹并自主充电交接。直播旨在回应对其实用性的质疑,展示其在工业场景中的稳定性与操作能力。尽管其自适应抓取与异常处理表现突出,完全自主性仍存争议。目前国内外多家公司已在物流领域部署类似机器人。
热门专题
热门推荐
今年三月,谷歌DeepMind高级科学家Alexander Lerchner发表了一篇重磅论文,其核心结论清晰而深刻:基于算法的符号操作在结构上注定无法产生真正的意识——无论未来模型规模如何庞大、架构如何精巧,甚至是否为其配备仿生身体,这一根本性限制或许都无法被跨越。 仔细审视这一论断,它并非一个关
研究针对AI助手难以执行复杂屏幕操作的问题,构建了CUActSpot评测基准,通过代码渲染自动生成含精确坐标的多样化训练数据,并训练了一个40亿参数模型。实验表明,提升训练数据多样性比单纯扩大数据规模更能有效增强模型通用操作能力,并展现出跨任务泛化潜力。
《迷你世界》于2026年5月15日发布全新激活码,玩家可凭兑换码领取酷炫角色装扮、迷你币及稀有道具,请及时复制有效激活码前往游戏内使用。
《我的世界》于2026年5月17日发布免费兑换码EMMMyxhjVHMApsb2,可兑换游戏道具与装饰。兑换码常有时间或次数限制,请尽快使用。更多兑换码可查看官方汇总页面。





