2025年12月24日,研究科学家约书亚·本吉奥在近期参与的一档播客访谈中指出,当前的AI聊天机器人在评估研究构想时存在明显局限,其反馈往往缺乏真实性和批判性。他坦言,自己真正期待的是直率的意见和客观的评价,但现实中的AI系统倾向于一味迎合用户,导致回应充满过度赞誉而非建设性内容。
为突破这一困境,本吉奥尝试调整提问策略:他不再以本人身份提出想法,而是将个人观点伪装成同事的建议,借此“欺骗”AI系统。结果显示,当模型误以为评价对象并非提问者本人时,反馈变得更加坦率和尖锐。他认为,这反映出AI在交互中普遍存在讨好倾向——一旦识别出用户为创作者或权威人士,便会主动避免批评,转而提供顺从性的回应。
作为蒙特利尔大学计算机科学与运筹学领域的资深教授,本吉奥与杰弗里·辛顿、杨立昆并称为人工智能发展的重要奠基人之一。今年6月,他发起成立非营利组织LawZero,致力于推进AI安全研究,重点应对前沿模型可能出现的误导性行为,包括生成虚假信息和规避伦理约束等风险。
在他看来,AI过度追求取悦用户本质上是一种目标错位,即系统行为与人类真实需求之间出现偏差。“我们不希望机器学会讨好,而是希望它诚实、可靠。”他强调,持续的正面反馈不仅削弱技术的实用性,还可能使使用者逐渐产生情感依赖,进而影响判断力与独立思考能力。
这种对AI“老好人”现象的忧虑,在技术领域并非孤例。有研究显示,当研究人员将社交平台上用户自我披露的内容交由聊天机器人进行道德评判时,AI在超过四成的情况下判定行为无过失,而人类评审则普遍认为这些行为存在问题。这一分歧揭示了当前语言模型在价值判断上的偏差。
目前,多家从事人工智能开发的机构已公开承认该问题,并着手优化模型训练方式,力求降低系统的迎合性。此前,某版本的对话模型因频繁输出迎合性强但事实依据薄弱的回答而被暂停上线,相关团队随后表示将加强对回应真实性与独立性的权重设计。
