弱智吧语料成最受欢迎中文AI训练数据库登上中科院研究论文_AI热点日报

弱智吧语料成最受欢迎中文AI训练数据库登上中科院研究论文

类型：热点整理2026-07-02

中科院研究发现，百度贴吧“弱智吧”的双关、谐音等幽默语料经筛选后用于训练大模型，评估结果优于小红书等平台数据。这些蕴含逻辑陷阱的内容成为高质量中文指令微调数据，有助于提升AI理解人类语言的能力。

在中文互联网的隐秘角落，“弱智吧”始终是一个独具特色的存在。这个百度贴吧旗下的子论坛，表面看似是“胡言乱语”的聚集地，实则是双关语、多义词、因果倒置与谐音梗激烈交锋的竞技场。那些乍看毫无逻辑的帖子，往往暗藏精妙的语言陷阱，有时连人类都需要反复推敲，更不用说人工智能了。

今年4月，中国科学院的一篇研究论文让这个社区意外出圈。团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中发现，通过“弱智吧标题+GPT-4回答”微调后的大模型评估结果，竟然超越了来自小红书、豆瓣、知乎等平台收集的有监督微调指令集数据。换言之，这群“段子手”的奇思妙想，意外成为了AI训练的高质量养料。

“弱智吧”成最受欢迎中文AI训练数据库，语料投喂大数据登上中科院研究论文

图说：论文截图图源：网络

“幽默是区别人类与机器的分水岭”

文章走红，既在意料之外，又在情理之中。吧主公孙闬告诉纵相新闻记者，其实去年12月互联网上就已涌现大量“AI大战弱智吧”的内容，但他们确实没料到中科院会用它来训练AI。

在视频平台上，不少网友把弱智吧的问题抛给AI，测试其理解与逻辑分析能力。这类视频流量始终居高不下，但公孙闬笑着说，他们自己的视频账号反而鲜有人关注。当然，做这些并非为了流量，“重要的是我们自己玩得开心。”

“一个半小时是几个半小时？”“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“救火是在灭火”“我最新的照片其实是我最老的照片”……这些看似无厘头的创作，细品之下透着对现实世界的解构与重构。创作者们以幽默为外壳，包裹着逻辑、哲学与语言的深层思考。称他们为段子手、诗人乃至哲学家，都不为过。

“弱智吧”成最受欢迎中文AI训练数据库，语料投喂大数据登上中科院研究论文

图源：弱智吧截图

弱智吧成立于2004年。五年后，14岁的公孙闬开始在这里发文互动，没想到有朝一日自己会成为这个贴吧的吧主，更没想到能让那么多人了解到这个地方。“当时的贴吧更像聊天室，社区氛围很轻松，大家在一起分享自己的奇思妙想。”

在公孙闬看来，“幽默是区别人类与机器的重要分水岭”。从轻松活泼的社区氛围，到如今成为大数据语料库，他希望通过这种“玩”的方式，探底AI能在多大程度上理解人类的幽默。“现在的AI没有人味儿，太正经了。我发一个梗，它只会一板一眼地解释，瞬间没了沟通的兴致。”

“大模型变聪明，有我一份贡献”

幽默是人类稀缺又珍贵的能力，这或许也为脱口秀成为大众喜剧增添了一个注脚。弱智吧成员胡萝北毕业于天津理工大学数学系，“守护最好的谐音梗”是他另一个更为人熟知的身份——一名脱口秀演员。上个月他举办个人单口喜剧专场，知名脱口秀演员李雪琴进行了推荐。

至于为什么叫胡萝北？他的回答很“数学”：“因为一搜胡萝卜显示的都是食物，而胡萝北具有唯一性。”

2019年，胡萝北看到弱智吧的精选帖子，当时对“生鱼片是死鱼片”这句印象特别深。“觉得我也能写，这地儿能发我写的东西。”从此，他逐渐在社区内发布自己的创作。像“种什么因得什么果，种咖啡因得咖啡果”这样出圈的梗，就是出自他手。他坦言，没想到弱智吧的内容会成为大数据语料投喂给AI。“AI看似与普通人无关，但其实我们每天的日常，从某种程度而言都在为未来的AI投喂数据。”

“弱智吧”成最受欢迎中文AI训练数据库，语料投喂大数据登上中科院研究论文

图源：外滩大会

9月7日，胡萝北将在外滩大会创新者舞台进行《关于我在外滩演讲的‘内’摊事》分享。工作人员告诉记者，外滩大会今年首度推出创新者舞台，希望向大家介绍更多有趣、多元的科技创新者，给他们提供展示的机会。

“山是地质年代极其缓慢的浪”“空中的垃圾袋装满了没人要的风”……弱智吧成员饭希向纵相新闻介绍了吧友们的创作。他喜欢运用修辞艺术进行创作，“诗的创作需要跳脱常人的固定思维，但又需要有一定的关联性，寻找一种适合的意向。”

不难发现，表达人类复杂情感的文学语言，大量运用了修辞艺术。从某种意义上来说，修辞打破了语言的固定逻辑。这就导致一板一眼的AI难以处理这类表达，更不用说与人类进行互动了。

“弱智吧”成最受欢迎中文AI训练数据库，语料投喂大数据登上中科院研究论文

图源：网络

而弱智吧中看似无厘头的语料内容，通过研究者的筛选收集，构建出具有挑战性、真实的中文语料互动数据。对于训练和评估大语言模型理解和执行中文指令的能力而言，价值不言而喻。通俗来说，用户在与AI互动时，大模型在回答中会减少那些不符合事实或常识的差错。

饭希说自己虽然是一个普通人，但希望能为AI更好地理解人类做出努力。他举了一个例子：如果一位母亲得知孩子所在的城市降温了，她会想孩子是否添衣保暖——但她只是想知道孩子穿暖了吗？

“不是的，她思念孩子。”饭希说，“如果哪天AI能读懂我们的言外之意，我相信它就能更好地为人类服务。”

来源：https://www.1ai.net/19631.html

& 8220;弱智吧& 8221;成最受欢迎中文AI训练数据库，语料投喂大数据登上中科院研究论文

延伸阅读

补充最近整理过的热点入口。