游乐游手机版
首页/AI热点日报/热点详情

弱智吧语料成最受欢迎中文AI训练数据库登上中科院研究论文

类型:热点整理2026-07-02
中科院研究发现,百度贴吧“弱智吧”的双关、谐音等幽默语料经筛选后用于训练大模型,评估结果优于小红书等平台数据。这些蕴含逻辑陷阱的内容成为高质量中文指令微调数据,有助于提升AI理解人类语言的能力。

在中文互联网的隐秘角落,“弱智吧”始终是一个独具特色的存在。这个百度贴吧旗下的子论坛,表面看似是“胡言乱语”的聚集地,实则是双关语、多义词、因果倒置与谐音梗激烈交锋的竞技场。那些乍看毫无逻辑的帖子,往往暗藏精妙的语言陷阱,有时连人类都需要反复推敲,更不用说人工智能了。

今年4月,中国科学院的一篇研究论文让这个社区意外出圈。团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中发现,通过“弱智吧标题+GPT-4回答”微调后的大模型评估结果,竟然超越了来自小红书、豆瓣、知乎等平台收集的有监督微调指令集数据。换言之,这群“段子手”的奇思妙想,意外成为了AI训练的高质量养料。

“弱智吧”成最受欢迎中文AI训练数据库,语料投喂大数据登上中科院研究论文

图说:论文截图 图源:网络

“幽默是区别人类与机器的分水岭”

文章走红,既在意料之外,又在情理之中。吧主公孙闬告诉纵相新闻记者,其实去年12月互联网上就已涌现大量“AI大战弱智吧”的内容,但他们确实没料到中科院会用它来训练AI。

在视频平台上,不少网友把弱智吧的问题抛给AI,测试其理解与逻辑分析能力。这类视频流量始终居高不下,但公孙闬笑着说,他们自己的视频账号反而鲜有人关注。当然,做这些并非为了流量,“重要的是我们自己玩得开心。”

“一个半小时是几个半小时?”“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“救火是在灭火”“我最新的照片其实是我最老的照片”……这些看似无厘头的创作,细品之下透着对现实世界的解构与重构。创作者们以幽默为外壳,包裹着逻辑、哲学与语言的深层思考。称他们为段子手、诗人乃至哲学家,都不为过。

“弱智吧”成最受欢迎中文AI训练数据库,语料投喂大数据登上中科院研究论文

图源:弱智吧截图

弱智吧成立于2004年。五年后,14岁的公孙闬开始在这里发文互动,没想到有朝一日自己会成为这个贴吧的吧主,更没想到能让那么多人了解到这个地方。“当时的贴吧更像聊天室,社区氛围很轻松,大家在一起分享自己的奇思妙想。”

在公孙闬看来,“幽默是区别人类与机器的重要分水岭”。从轻松活泼的社区氛围,到如今成为大数据语料库,他希望通过这种“玩”的方式,探底AI能在多大程度上理解人类的幽默。“现在的AI没有人味儿,太正经了。我发一个梗,它只会一板一眼地解释,瞬间没了沟通的兴致。”

“大模型变聪明,有我一份贡献”

幽默是人类稀缺又珍贵的能力,这或许也为脱口秀成为大众喜剧增添了一个注脚。弱智吧成员胡萝北毕业于天津理工大学数学系,“守护最好的谐音梗”是他另一个更为人熟知的身份——一名脱口秀演员。上个月他举办个人单口喜剧专场,知名脱口秀演员李雪琴进行了推荐。

至于为什么叫胡萝北?他的回答很“数学”:“因为一搜胡萝卜显示的都是食物,而胡萝北具有唯一性。”

2019年,胡萝北看到弱智吧的精选帖子,当时对“生鱼片是死鱼片”这句印象特别深。“觉得我也能写,这地儿能发我写的东西。”从此,他逐渐在社区内发布自己的创作。像“种什么因得什么果,种咖啡因得咖啡果”这样出圈的梗,就是出自他手。他坦言,没想到弱智吧的内容会成为大数据语料投喂给AI。“AI看似与普通人无关,但其实我们每天的日常,从某种程度而言都在为未来的AI投喂数据。”

“弱智吧”成最受欢迎中文AI训练数据库,语料投喂大数据登上中科院研究论文

图源:外滩大会

9月7日,胡萝北将在外滩大会创新者舞台进行《关于我在外滩演讲的‘内’摊事》分享。工作人员告诉记者,外滩大会今年首度推出创新者舞台,希望向大家介绍更多有趣、多元的科技创新者,给他们提供展示的机会。

“山是地质年代极其缓慢的浪”“空中的垃圾袋装满了没人要的风”……弱智吧成员饭希向纵相新闻介绍了吧友们的创作。他喜欢运用修辞艺术进行创作,“诗的创作需要跳脱常人的固定思维,但又需要有一定的关联性,寻找一种适合的意向。”

不难发现,表达人类复杂情感的文学语言,大量运用了修辞艺术。从某种意义上来说,修辞打破了语言的固定逻辑。这就导致一板一眼的AI难以处理这类表达,更不用说与人类进行互动了。

“弱智吧”成最受欢迎中文AI训练数据库,语料投喂大数据登上中科院研究论文

图源:网络

而弱智吧中看似无厘头的语料内容,通过研究者的筛选收集,构建出具有挑战性、真实的中文语料互动数据。对于训练和评估大语言模型理解和执行中文指令的能力而言,价值不言而喻。通俗来说,用户在与AI互动时,大模型在回答中会减少那些不符合事实或常识的差错。

饭希说自己虽然是一个普通人,但希望能为AI更好地理解人类做出努力。他举了一个例子:如果一位母亲得知孩子所在的城市降温了,她会想孩子是否添衣保暖——但她只是想知道孩子穿暖了吗?

“不是的,她思念孩子。”饭希说,“如果哪天AI能读懂我们的言外之意,我相信它就能更好地为人类服务。”

来源:https://www.1ai.net/19631.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。