11月10日消息,如今的人工智能已在象棋、数学等多个领域展现出超越人类的能力,并逐渐渗透到编程、广告乃至心理治疗等行业。但研究人员指出,AI仍然有一个领域尚未突破:在互联网上展现真正的恶意。
据外媒PC Mag报道,苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的最新研究表明,各种大语言模型生成的社交媒体帖子都很"容易被区分",识别准确率高达70%至80%,远超过随机猜测的结果。

研究团队测试了来自六个不同模型家族的九个开源大语言模型,参测模型包括Apertus、DeepSeek、Gemma、Llama、Mistral、Qwen以及一个大规模的Llama模型,分别在Bluesky、Reddit和X平台上进行对比。
研究发现,平台上这些帖子显示的"毒性评分"是区分AI生成内容与人类生成内容的关键因素。简而言之,如果在您发布的帖子下有人回复了特别尖锐或搞笑的评论,那很可能是人类写的。
研究人员表示:"这些结果表明,尽管大语言模型能够模仿在线对话的形式,但在捕捉对话的情感本质上仍存在困难:自发且充满感情的表达始终是人类互动的特点。"
研究人员指出,模型在某些特定情境下的表现尤其差劲。例如,在马斯克的X平台上表达积极情感,或是在Reddit上讨论政治话题。总体来看,所有测试的AI模型在模仿X平台的帖子时表现较好,在Bluesky上则稍显逊色,而Reddit是三者中最具挑战性的,因为该平台的对话规范更加多样。
研究还表明,大语言模型更擅长模仿社交媒体帖子技术性特征,比如句子长度或字数,而在情感表达方面则显得较弱。在所有三个平台上,AI回复的"毒性"评分普遍低于人类的评论回复。
研究人员还发现,Llama-3.1-8B、Mistral-7B和Apertus-8B等未经人类指令微调的AI模型,反而比经过微调的模型表现得更好。这一结果表明,过度校正训练会引入过于一致的风格,导致文本变得机械呆板。
参考
https://arxiv.org/pdf/2511.04195
