用过ChatGPT之类AI产品的人大概都注意到了,它特别爱用破折号——不是偶尔用用,而是已经成了AI文的标志性特征。为此,OpenAI甚至专门把“去掉破折号”作为一个正式功能发布出来,可见大家对此有多嫌弃。
那么,问题到底出在哪儿呢?
有博主专门研究了这一现象,发现了一个挺有意思的事:GPT-3.5还一切正常,到了GPT-4就开始破折号成瘾。更奇怪的是,谷歌、Anthropic家的模型也在差不多同一时间出现了同样的问题。
这就不太合逻辑了。如果只是某家公司标注员的个人偏好,为什么大家都集体中招?
类似的例子其实之前也有过。AI对“delve”这个词也格外偏爱,原因已经查清楚了:OpenAI雇佣的标注员主要来自非洲,当地英语里“delve”是常见的礼貌表达,AI学会了用这个词能拿高分。但破折号显然不是这个逻辑——数据显示,非洲英语中破折号使用频率(0.022%)比标准英语(0.25%)还要低得多。
真正的原因可能更简单:AI公司没数据了。
2022年之后,各家都遇到了同一个困境:互联网上的内容快被训练完了。为了获得更高质量的训练素材,同时避开版权纠纷,大家开始大规模扫描旧书,特别是那些已经进入公共领域的19世纪末、20世纪初作品。
问题就出在这儿。那个年代的作家写东西,破折号用得特别多。研究显示,英语文学中破折号的使用在1860年达到峰值(0.35%),比现代英语高出30%多。光是《白鲸记》一本书,就有1728个破折号。

所以现在的情况就是:最先进的AI,学会了1890年代小说家的标点习惯。
Sam Altman倒是给出过另一种说法:标注员觉得破折号让回答更自然,所以“多加了一点”。但这解释不了为什么GPT-3.5好好的,到GPT-4就开始不对劲了。
也还有人提到,学术文本里破折号本来就多,AI为了减少胡说八道,可能确实更喜欢这类“严肃”材料。
不管真相如何,AI的写作风格确实暴露了它“吃什么长大的”。下次再看到满屏破折号,不妨想一想——那可能是某个维多利亚时代作家的风格在悄然复活。
参考:https://www.seangoedecke.com/em-dashes/
