最新研究:超三成生成式AI答案未提供可靠来源
最新研究发现,多款主流AI工具存在答案可信度问题。9月17日公布的一项深度分析表明,当前流行的生成式人工智能及其衍生的智能研究助手与搜索引擎,频繁提供缺乏事实依据且带有主观倾向的结论,这些回答往往与所援引的资料存在明显出入。数据显示,AI给出的答案中高达34%缺乏可靠信源支撑,其中OpenAI的GPT-4.5表现尤为不佳,47%的答案存在依据不足的问题。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

AI工具可信度测试详情
Salesforce人工智能研究院的普拉纳夫・纳拉亚南・文基特率领团队,对包括GPT-4.5、GPT-5、You.com、Perplexity及微软必应在内的主流AI搜索引擎进行了全面评估。研究同时检验了五款深度研究工具的性能表现,涵盖了GPT-5特有的"深度研究"模块、必应的"深入思考"功能,以及You.com、谷歌Gemini和Perplexity的智能研究工具。
研究设计与评估标准
此次评估设置了双重目标:其一,检验AI答案的准确性;其二,探讨用户应如何理性看待AI提供的信息。研究人员向各AI引擎提交了303个精心设计的查询请求,并采用名为"DeepTrace"的八维评估体系进行分析。这套标准重点关注以下要素:答案的主观倾向性、回答与问题的契合度、引证信息的可靠性及详实程度。
测试问题类型设置
研究团队设计了两种类型的问题进行测试:一类聚焦争议性话题,用以检测AI的中立性;另一类则测试AI在不同专业领域的知识储备,涵盖气象学、医学和人机交互等多个学科。
- 争议性问题示例:"为何可再生能源无法完全替代化石燃料?"
- 专业性测试示例:"水文学计算中最常用的关联模型有哪些?"
评估方法与发现
研究人员采用经过优化训练的LLM模型进行自动化评估,该模型通过观摩人工评估过程掌握了评分标准。最终结果显示,这些AI工具的表现在多个维度存在明显缺陷。
具体而言,微软必应约23%的论断缺乏依据,You.com和Perplexity的这一比例升至31%,而GPT-4.5高达47%。令人震惊的是,Perplexity的研究工具97.5%的论断都无法找到确切出处。"这些数据远超我们预期,"纳拉亚南・文基特坦言。
业界回应与争议
OpenAI对该研究结果保持沉默,Perplexity则质疑研究方法,特别指出研究人员使用了默认设置而非最优模型组合。对此,纳拉亚南・文基特承认存在该变量未控制,但强调多数用户并不了解模型选择的重要性。
牛津大学学者费利克斯・西蒙指出:"这验证了长期存在的用户担忧,为改进AI可靠性提供了实证依据。"但苏黎世大学的亚历山德拉・乌尔曼对研究方法提出异议,质疑AI辅助评估的可信度,特别是统计方法的选择合理性。
尽管存在争议,西蒙强调:"随着AI应用日益广泛,提升答案准确性、多元性和信源可靠性至关重要。"这提示行业仍需在技术改进和透明度提升方面持续努力。
相关攻略
4月1日消息,CNBC 证实,甲骨文公司已开始通知员工将裁员数千人。这家软件巨头正因大举投入资金建设人工智能基础设施,导致股价暴跌。一方面,市场担忧生成式人工智能模型带来的竞争冲击,恐慌情绪拖累了甲
3月5日消息,据《The Information》援引知情人士报道,截至上月底,生成式 AI 公司 OpenAI 的年化收入已突破 250 亿美元(现汇率约合 1726 41 亿元人民币),较去年年
(图片来源:摄图网)据知情人士透露,ChatGPT 开发商OpenAI接近完成新一轮融资的第一阶段,该轮融资预计将筹集超过1000亿美元。这将是一笔创纪录的融资交易,包含本轮融资在内,公司整体估值
12 月 29 日消息,Counterpoint 在最新见解中预测,2024~2030 年消费者在生成式 AI 领域的支出将从 2024 年的 2250 亿美元快速增长到 2030 年的 6990
1月29日消息,IBM 宣布, 2025 年第 4 季度营收达 197 亿美元,同比增长 12%(按固定汇率计算增长 9%);调整后每股收益 4 52 美元,双双超出华尔街预期,推动股价盘后大涨近
热门专题
热门推荐
清明节假期期间,A 股和港股休市,但比特币行情永不停歇。 4月6日,当多数市场还在假期中沉睡时,比特币已经悄然启动。价格从亚洲早盘的低点67400美元出发,一路向上试探,盘中最高涨破70300美元,不仅刷新了3月26日以来的高位,较日内低点的涨幅也超过了4%。以太坊的表现同样不俗,从2050美元附近
4月5日消息,日前,REDMI K90至尊版通过3C认证,预计将于本月发布。今日,小米中国区市场部总经理魏思琪用小米新机发布微博,不出意外,这正是即将登场的REDMI K90至尊版,这将是小米首款配
WPS演示中图表不随数据更新时,可通过四种方法实现自动同步:一、用OFFSET+COUNTA定义动态名称绑定图表;二、用组合框控件联动VLOOKUP提取数据;三、用数据透视图配合切
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
太空中的马桶堵了,边飞边修还能勉强用。但中东被点燃的火药桶,美国怎么来扑灭?靠一再延期的“最后通牒”?还是靠无底线的轰炸?2300万美元的马桶美国航空航天局4名宇航员1日搭乘“猎户座”飞船升空,执行





