AI社媒帖子易识别？大模型缺失情感表达成主因

时间：2025-11-28 19:33

11 月 10 日消息，当前的 AI 已经在象棋、数学等领域超越了人类，且正在逐步渗透到编程、广告乃至心理治疗等行业。然而，研究人员认为，AI 仍有一个尚未突破的领域：在互联网上展现真正的恶意。当

11月10日消息，如今的人工智能已在象棋、数学等多个领域展现出超越人类的能力，并逐渐渗透到编程、广告乃至心理治疗等行业。但研究人员指出，AI仍然有一个领域尚未突破：在互联网上展现真正的恶意。

据外媒PC Mag报道，苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的最新研究表明，各种大语言模型生成的社交媒体帖子都很"容易被区分"，识别准确率高达70%至80%，远超过随机猜测的结果。

研究称 AI 在社交平台发的帖子仍易被识别，只因大模型不擅长情感表达

研究团队测试了来自六个不同模型家族的九个开源大语言模型，参测模型包括Apertus、DeepSeek、Gemma、Llama、Mistral、Qwen以及一个大规模的Llama模型，分别在Bluesky、Reddit和X平台上进行对比。

研究发现，平台上这些帖子显示的"毒性评分"是区分AI生成内容与人类生成内容的关键因素。简而言之，如果在您发布的帖子下有人回复了特别尖锐或搞笑的评论，那很可能是人类写的。

研究人员表示："这些结果表明，尽管大语言模型能够模仿在线对话的形式，但在捕捉对话的情感本质上仍存在困难：自发且充满感情的表达始终是人类互动的特点。"

研究人员指出，模型在某些特定情境下的表现尤其差劲。例如，在马斯克的X平台上表达积极情感，或是在Reddit上讨论政治话题。总体来看，所有测试的AI模型在模仿X平台的帖子时表现较好，在Bluesky上则稍显逊色，而Reddit是三者中最具挑战性的，因为该平台的对话规范更加多样。

研究还表明，大语言模型更擅长模仿社交媒体帖子技术性特征，比如句子长度或字数，而在情感表达方面则显得较弱。在所有三个平台上，AI回复的"毒性"评分普遍低于人类的评论回复。

研究人员还发现，Llama-3.1-8B、Mistral-7B和Apertus-8B等未经人类指令微调的AI模型，反而比经过微调的模型表现得更好。这一结果表明，过度校正训练会引入过于一致的风格，导致文本变得机械呆板。

参考

https://arxiv.org/pdf/2511.04195

来源：https://www.ithome.com/0/896/337.htm

社交媒体大语言模型

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

继续查看同栏目最近更新的文章。

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。