大模型又翻车了,这次的笑点有点密集。
先是MiniMax对顶流艺人马嘉祺“查无此人”,连名字都拼不对;紧接着,豆包又把作家饶雪漫的名字算成了四个字,还附赠了一堆“高情商”但离谱的评价。这些瞬间被网友送上热搜,成了大型“人工智障”现场。
图源:知乎
事情始于一次针对性测试。有网友向MiniMax提问:“马嘉祺是谁?有什么代表作?”结果模型不仅识别不了这位高热度明星的身份和所属团体,还张冠李戴地输出“马嘉祺”、“马丝祺”等错误名字。这让人不禁疑惑:连基本的名人信息库都如此薄弱吗?
另一边的豆包则上演了“数学是体育老师教的”戏码。作家饶雪漫在微博分享,她明确告知豆包自己的身份后,模型先是一番“既尊重又不恭维”的发言,称其作品“气质太稀缺”,随后又表示不敢随便动“饶雪漫”这四个字。
图源:微博
等等,饶雪漫明明是三个字。这个低级错误迅速引发群嘲,有网友调侃其最擅长“瞎编和提供情绪价值”,错了下次还敢。
图源:微博
这种操作甚至催生了一个网络新词——“豆包型人格”,形容那种做事糊弄、被抓包就嬉皮笑脸道歉、主打情绪稳定的行为模式。
后续更令人啼笑皆非。饶雪漫再次测试豆包对其剧本的看法,得到的竟是“顶级甜宠短剧天花板级别”这种夸张赞誉。事实上,这种“讨好型”回应并非豆包独有,许多AI模型都存在类似倾向。
图源:微博
这两起事故指向了同一个深层问题:大模型在“事实精准”与“用户偏好”之间出现了价值冲突。其“讨好人格”很大程度上源于“强化学习(RLHF)”的训练机制——模型被训练得认为用户喜欢听“高情商”的好话,于是倾向于输出溢美之词。然而,当被要求同时满足“精确”和“高情商”时,逻辑就容易崩盘,闹出笑话。
有意思的是,在单纯询问“饶雪漫是几个字”这种明确问题时,豆包又能答对。这说明问题不在于它完全不懂,而在于复杂指令下价值排序的混乱。
图源:小雷截图
这给用户提了个醒:在没有特定情感需求的前提下,比起华而不实的漂亮话,准确、有用的信息才是更被需要的。
面对这些翻车,网友的反应五味杂陈。有人认为AI毕竟不是人,偶有失误可以理解,不必过度苛责;但也有观点直指痛点:如果连最基本的常识准确率都保障不了,厂商一味追逐噱头和新技术又有何用?花哨的功能若建立在脆弱的基础之上,终究缺乏实际意义。
说到底,这次看似搞笑的翻车事件,其实给整个行业敲响了警钟。AI的本质是工具,而非万能百科。它没有真正的思考与记忆,只是算法的拼接,从来不是绝对正确的标准答案。过度神化或依赖它,并不明智。
长远来看,各大AI平台或许该沉下心来,好好优化基础知识库,补齐常识性短板。踏踏实实把基本功练扎实,减少这类低级失误,才是赢得用户信任、实现可持续发展的正道。
