BBC评测:Gemini错误率居首,AI工具新闻总结水平排名
10月24日,据外媒Android Authority报道,欧洲广播联盟(EBU)与BBC近日联合评估了ChatGPT、Gemini及Perplexity等多款AI系统在新闻摘要方面的表现。开展这项研究的背景在于,目前约有15%的25岁以下年轻人主要通过AI获取新闻资讯。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
BBC最初通过大规模问卷调查及六场焦点小组访谈,收集公众对AI新闻工具的使用体验与看法,随后EBU将此项研究扩展至国际范围。
研究显示,约42%的英国成年人表示信任AI内容的准确性,而年轻群体的信任度更高。不过,84%的受访者认为,一旦AI系统出现事实性错误,将严重削弱自己对AI的信任。问题的关键在于,这些系统的“不准确度”究竟源于哪些因素,以及用户是否真正察觉到了这些错误。
结果显示,大多数AI生成的内容都存在各种问题。各模型整体表现差距不大,但Gemini成为明显的“异类”——不仅错误数量最多,严重错误的比例也远高于其他系统。
研究进一步指出,Gemini存在的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境支撑,以及错误引用原文等。
在为期六个月的研究周期中,各大AI系统的表现均有改进,新闻摘要的准确率普遍提升,其中Gemini的进步尤为显著。但即便如此,Gemini的整体表现仍明显落后于其他系统。
相关攻略
比特币四年周期走到尽头?Gemini高管:市场“心跳”仍在继续 比特币的四年周期会消失吗?这是近期加密社区热议的核心话题。随着机构资金大规模涌入和市场结构日趋成熟,许多投资者开始质疑,过去由散户情绪主导的周期性波动是否已成为历史。对此,Gemini交易所亚太区负责人萨阿德·艾哈迈德给出了明确判断:比
4月1日消息,随着AI不断深入日常生活,大家有没有发现AI越来越会拍彩虹屁了?近期发表在权威期刊《Science》上的一篇论文,对目前全球最先进的11个大语言模型进行了系统评估,揭露了一个有趣的真相
全球全模态大模型竞赛迎来新变数。3月30日,阿里巴巴正式推出千问系列新一代全模态大模型Qwen3 5-Omni。这款模型在音视频理解、跨模态推理、实时交互等215项第三方评测中拿下SOTA(Stat
谷歌的新思路:用500万篇新闻,为150国预警山洪 山洪暴发,堪称全球最致命的气象杀手之一,每年夺走超过5000人的生命。然而,与温度、风速这些可以大范围持续监测的气象要素不同,山洪来去迅猛、影响范围极其局部,传统的观测网络常常“看”不到它。这正是山洪预测长久以来的核心痛点:数据缺口太大。即便如今深
快科技3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3 5-Omni。据悉,Qwen3 5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。在
热门专题
热门推荐
OPPO A6k手机重磅发布:天玑6300处理器、高清LCD直屏、7000mAh超大电池,售价仅1999元起 OPPO旗下广受欢迎的A系列再添实力新机。近日,备受期待的OPPO A6k正式上市发售。这款新品搭载了备受好评的天玑6300八核处理器,并配备了一块容量高达7000mAh的耐用长寿电池,成为
速览 在《红色沙漠》的广阔世界中,数量丰富的支线任务与主线剧情共同构筑了沉浸式的冒险体验。其中,“熔化锁链的火焰”任务作为瑟金斯家族剧情线的关键环节,其触发机制与主线进程紧密相连。任务并非随时可用,玩家需将主线故事推进到特定阶段后,任务才会自动添加至任务日志。本篇攻略将为你详解此支线任务的接取条件与
《异种航员2》运动机制深度解析 在《异种航员2》(Xenonauts 2)的策略战斗中,对“时间单位”(TU)的高效运用是取胜的核心。每个士兵的移动、射击乃至战术配合,都依赖于玩家对TU的精确规划。操作上手简单:选中单位后,直接使用鼠标左键点击目的地方格,系统便会清晰显示移动所需消耗的时间单位,帮助
速览 在《异种航员2》(Xenonauts 2)的战局中,掌握“战术规避”与精通“火力输出”同等关键。游戏全新设计的掩体系统,是提升你作战小队生存几率的战略性核心。简言之,战场上绝大多数可见的物体都能转化为你的战术屏障。无论是散落的木箱、残缺的矮墙,还是茂密的灌木丛与坚实的建筑物,巧妙地利用它们,就
速览 在开放世界大作《红色沙漠》中,庞大的支线任务系统为玩家提供了丰富的探索体验。其中,“超凡建造物”任务是阿方索家族势力任务线中的重要一环。要成功接取此任务,玩家必须首先完成其前置任务【枪械名门】。在此之后,任务的下一步关键操作是前往游戏中标注的特定建筑地点进行互动调查——这本质上是一个用于快速移





