游乐游手机版
首页/AI热点日报/热点详情

MIT发布维基百科AI智能编辑系统

类型:热点整理2026-06-30
维基百科,这部以“人人皆可编辑”著称的在线百科全书,其背后依靠着规模庞大的志愿者编辑团队,他们日复一日地维护着海量词条的准确性与实时性。然而,坦率地说,每天成千上万个页面需要更新,单纯依赖人工审核已显得力不从心——即便志愿者人数再多,也无法完全覆盖如此庞大的工作量。 幸运的是,麻省理工学院的研究团队

维基百科,这部以“人人皆可编辑”著称的在线百科全书,其背后依靠着规模庞大的志愿者编辑团队,他们日复一日地维护着海量词条的准确性与实时性。然而,坦率地说,每天成千上万个页面需要更新,单纯依赖人工审核已显得力不从心——即便志愿者人数再多,也无法完全覆盖如此庞大的工作量。

MIT推出维基百科AI编辑系统

幸运的是,麻省理工学院的研究团队近期开发出一套人工智能系统,专门用于检测维基百科中的过时信息并自动进行更新,堪称人类编辑们的得力助手。

项目领导者、麻省理工学院计算机科学与人工智能实验室的博士生Darsh Shah直言不讳:“维基百科的文章需要持续更新,每一条内容都依赖数百人手动修改。如今AI能够自主完成编辑任务,效率得到了显著提升。”

这套文本系统的核心功能在于精准识别维基百科句子中已过时的信息,并以接近人类写作风格的语言,用最新内容将其替换。具体操作方式为:用户只需输入一条包含更新信息的不完整句子,AI便会自动在维基百科中检索对应页面,定位过时句子,然后生成一段读起来像人写的新文字。

事实上,过去已有不少能够自动编辑维基百科的机器人,但Shah指出了它们的局限性:“那些工具大多基于固定规则——只能将有限的新信息填入预定义模板。然而,真正的编辑任务往往需要推理两个句子之间的逻辑矛盾,再生成连贯的文本。我们这套模型恰恰解决了这一痛点:输入一条非结构化新信息,它就能像人类一样自动完成句子的修改。”

AI识别矛盾信息

识别两个句子之间相互矛盾的信息,并将其融合——这对人类来说几乎不费吹灰之力,但对机器学习而言,却是一项相当新颖的挑战。

举例来说:原始句子是“基金A认为活跃运营公司中的42种少数股权中有28种对集团特别重要”,而最新信息则是“基金A认为43个少数股权中有23个意义重大”。系统收到这两个句子后,会先定位维基百科中关于“基金A”的相关文本,然后自动删除过时的数字28和42,替换为最新的23和43。

更新、纠错、识别虚假信息——MIT推出的这套维基百科AI编辑系统,正是承担了这些关键任务。

从技术层面看,该系统在包含大量句子对的数据集上进行训练。每个句子对由一条声明和一条维基百科相关句子组成,并被标记为三种状态之一:“一致”(句子匹配)、“矛盾”(存在冲突信息)或“中立”(信息不足)。系统的目标是将所有过时句子修改至“一致”状态,这需要利用单独的模型生成所需输出。

该模型本质上是一个事实核查分类器,先对每个句子对进行预分类,分为“一致”、“矛盾”或“中立”,随后重点关注那些被标记为“矛盾”的句子对。分类器旁还配备了一个自定义的“中性屏蔽器”模块,能够找出过时句子中与声明信息冲突的词语,并在过时句子上生成一个二进制“掩码”——0代表最可能需要删除的词,1代表保留的词。

完成屏蔽后,系统利用两个编码器-解码器框架处理过时句子中需要删除的单词(即被0覆盖的词),并结合不同信息进行融合与填补。

与传统的文本生成方法相比,这套模型在更新事实信息时准确率更高,输出结果也更贴近人类写作风格。在一项测试中,研究人员从事实更新准确度和语法匹配度两个维度对模型进行评分(1至5分),结果显示事实更新平均得分4.0,语法匹配3.85——两项指标均超越了所有传统方法。

研究团队还展望了未来愿景:希望AI能够实现全流程自动化——即自主上网搜索某一主题的最新新闻,然后直接替换维基百科中的过时信息,彻底解放人力。

扩充数据集,消除误差

这项研究还有一个有趣的应用方向:在训练“假新闻”检测器时,该系统可用于增强数据集,从而消除偏见。

所谓“假新闻”,即故意传播虚假信息、吸引眼球、误导读者甚至操纵舆论的宣传内容。传统假新闻检测器通常在“一致-矛盾”对的数据集上训练,将声明与维基百科中的支持证据进行对比,模型通过学习反驳证据,将假句子标记为“假”。但问题在于,数据集常常带有意想不到的偏差。Shah解释道:“训练过程中,模型可能仅凭人类书面语言的某些特征,直接将某些句子标记为假,而并未依赖对应的证据语句。这样一来,模型在实际应用中的准确性会下降,因为它根本没有进行真正的事实核查。”

为此,研究人员采用相同的删除与融合技术来平衡数据集中的“矛盾”对,帮助减轻偏差。具体做法是:在某些“矛盾”对中,利用修改后句子中的虚假信息重新生成伪造的“证据”支持句,并让一些短句同时出现在“一致”和“矛盾”句子中。这样一来,模型能够分析更多特征,数据集也得到了有效扩充。

实际效果如何?研究人员利用该方法,将某一流行假新闻检测器的错误率降低了13%。

维基百科部署AI编辑

事实上,早在2015年,维基百科就已搭建过一个人工智能引擎,用于自动分析维基百科的内容变更。原因很简单——既然任何人都能编辑维基百科,也就意味着任何人都可能掺入虚假信息或进行破坏。早期维基百科不得不建立严格的审核制度,但这同时也将许多新手挡在了门外。

维基百科资深研究科学家Halfaker当时开发了一款AI引擎来识别破坏行为,目的既是为了保护站点安全,也是为了提高新手的参与度。不过他坦言:“这项服务无法抓住所有破坏行为,但至少能抓住大部分。”

Halfaker项目的初衷是提升人们对维基百科的参与度。五年后的今天,新的文本系统应运而生——它能够自动更新维基百科信息,极大减轻了志愿编辑者的负担。与此同时,编辑者隐隐感受到了被机器替代的趋势。

机器日益智能化,自动化取代人类工作的现象越来越普遍。“人类是否会被机器替代”早已成为热议话题。有人预测,AI和机器人技术将在未来20年内取代我们多达47%的工作;但也有人认为,AI将创造大量全新的岗位。究竟谁对谁错,或许只有时间才能给出答案。

来源:https://m.elecfans.com/article/1254677.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。