首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
开源模型有效降低AIGC生成内容重复率

开源模型有效降低AIGC生成内容重复率

热心网友
22
转载
2026-05-27

毕业季来临,许多同学都在询问同一个问题:如何有效降低论文的AI生成检测率?

不少毕业生正面临学校对毕业设计的严格审查,知网、维普等查重系统普遍要求将AI疑似比例控制在30%以下。有朋友因AI率过高被退回修改两次,十分焦急,希望找到可靠的方法应对。

面对这一需求,我们首先需要思考:这类AI检测机制是否可靠?是否存在简便方法能够规避检测?

回顾两年前,我曾用知乎数据训练过一个口语化模型,但它在学术场景中完全不适用。学术文本改写有其特殊性:过于口语化的表达容易被导师识破;改动幅度不足则仍会被检测系统标记。

深入分析后发现,真正的挑战在于,主流平台的AI检测模型都是“黑盒”:其训练数据、特征工程、阈值策略均不公开,更未提供稳定的API接口。若想使用PPO或GRPO等强化学习方法直接对抗某个检测器,连设计奖励函数都无从下手,因为你无法获取检测模型本身。

因此,我们转换了思路:能否利用五一假期,训练一个模型,在保持学术规范的前提下,显著降低文本的AI疑似率?

最终,我们成功实现了这一目标。

下文将记录实验过程中的关键试错与最终可行的方案。模型与合成数据均已开源,链接见文末。

不进行模型训练是否可行?

在着手训练前,我们尝试了两条更便捷的路径。

第一条是寻找现成的Prompt或改写工具。在GitHub上搜索发现,英文领域有可用仓库(如github.com/blader/humanizer),但中文领域几乎空白。有一个中文改写项目采用了传统NLP方法检测AI率(github.com/voidborne-d/humanize-chinese),但其改写依赖规则替换,检测手段较为粗糙,参考价值有限。

第二条思路是使用冷门模型生成文本。其逻辑在于:检测模型本质上是判断文本的统计分布是否接近主流大模型的输出分布。如果使用一个极其冷门的模型,其输出分布天生远离被检测的主流模型,是否就能自然规避检测?

想法虽好,但很快被否定:过于冷门的模型对中文支持通常较差,生成质量难以保证。而且,若未进行针对性微调,其底层语言分布与主流模型的差异可能并不显著。

两条路径均行不通,我们决定从头开始训练一个专用模型。

训练数据与流程详解

第一步:监督微调(SFT)——获得初步可用但欠佳的版本

在数据构建上,我们采用了逆向构造的思路:收集一批人类撰写的文本,用AI将其改写成“AI风格”显著的版本,然后训练模型学习逆向操作——将AI味重的文本还原为人类风格。

关键在于原始文本的选择。

前期尝试使用互联网网页数据,遇到了两个难题。一是数据清洗极其繁琐,需要处理大量XML标签、网页跳转链接等噪声。另一个更严重的问题是:训练出的模型过于口语化,完全无法应用于学术场景。

因此,必须将数据范围限定在学术类文本。

最初考虑使用Wikipedia,但维基数据在预训练语料中占比通常很高,效果可能不理想。直接下载arxiv论文进行切分?那主要是理工科英文论文,缺乏人文社科及中文内容,模型泛化能力将受限。

最终,我们找到了一个合适的数据集:CSL(github.com/ydli-ai/CSL),它收录了大量中文论文摘要。虽然仅是摘要,但其语言分布与论文正文段落的差异相对较小。

我们构建了约18000条训练样本,格式统一为“指令 + 输入 + 输出”。指令是“将文本改写得更像自然人写作,保持原意与事实”,输入是AI改写后的摘要,输出是原始的人类撰写的论文摘要。

基座模型选择了Qwen3.5-9B,收敛效果良好,Loss曲线平滑,并实施了早停策略。

我们开源了一个可以降低 AIGC 率的模型

来看一个改写案例。原文类似:

今天没什么特别的,和平常一样。早上起床玩了会手机,中午随便吃了点东西,下午出去买了杯咖啡。桂花开了,闻着挺香的。在公园坐了十来分钟,看了一会儿狗和小孩。然后就回家了。这一天就这么过去了,不坏也不好,就是普通的一天。

模型处理后变为:

今日平平淡淡,与往日无异。晨起时翻阅了些许手机资讯,午间随意进食,午后外出购得一杯咖啡。恰逢桂子飘香,漫步公园约莫十分钟,观览孩童嬉戏与犬只闲逛,随后便归家。一日就此落幕,并无甚波澜,既非佳日亦非恶日,不过寻常时日罢了。

这个SFT版本确实能完成改写任务,并保留了学术术语。但其问题在于,对学术场景的改写过于保守——毕竟学术文本改写前后的差异本就微小,且学术语言天然严肃。同时,它对日常场景的改写又显得过于文雅。

这导致两个直接问题:改写程度不足,检测系统依然可能识别;模型通用性差,仅适用于学术场景。

第二步:DPO第一阶段——一个关键错误与修正

SFT之后,自然想到使用DPO来提升效果。为何不用PPO?原因如前所述:各家检测模型不一,且无法获取API。与其破解某个具体检测器,不如找到一种让文本更接近人类语言分布的通用方法,这样更可能具备跨检测器的泛化能力。

但在DPO的首次实验中,我们犯了一个错误。

当时沿用了SFT的数据构造思路:chosen样本是人类原文,rejected样本是AI改写版。听起来合理,对吗?但实际运行问题很大。因为AI改写后的文本通常更书面、更严谨,而人类原文相比之下反而更口语化。结果模型学到的信号变成了“越口语化越好”,而非“越接近人类分布越好”。这个版本完全不可用。

意识到问题后,我们立即调整了数据构造方式,改为双向构造:

一边是2000条formal-rejected数据,AI改写保持正式书面语气不变;另一边是2000条casual-rejected数据,AI改写时加入各种口语化变体,如调整长度、增减信息。

我们开源了一个可以降低 AIGC 率的模型

这种构造方式让模型真正领悟了“人类文本”的感觉。

此次处理后的效果如下:

今天平平淡淡,和往常一样。早晨醒来玩了一会儿手机,中午胡乱塞了几口食物,下午出门买杯咖啡。桂花开了,闻起来很香。在公园里坐十几分钟,看了看狗和小孩。然后便回家。这一天就这样过去了,不糟糕也不出色,就是平凡的一天。

它不再简单认为口语化就是好的,也不再认为书面化就是坏的,而是学会了一种更接近真人写作的自然风格。

第三步:DPO第二阶段:自博弈与信号纯度的教训

有了更稳固的DPO版本,我们尝试通过自博弈进一步提升效果。

这里又犯了一个错误:将自博弈数据与一部分口语化rejected数据混合训练。本意是为模型设置“围栏”,防止其偏离方向。但自博弈产生的学习信号较弱,而口语化rejected数据的区分信号过强。模型很快就能分辨哪些是口语化数据,如果一个batch中采样到较多口语化数据,梯度就会暴涨,导致整个训练过程剧烈波动。

于是,我们果断放弃了该版本。

随后重新开始:去除所有口语化数据,确保学习信号的单一性。没有了“围栏”,我们将学习率调整为之前的一半,以更慢的速度防止模型跑偏,同时将自博弈数据扩展至2000条,重新训练。

我们开源了一个可以降低 AIGC 率的模型

这个版本训练完成后,终于接近可用状态。

此次处理后的文本效果如下:

一切如常,今天没有什么特别之处。起床后玩了一会儿手机,中午胡乱吃了一些东西,下午去外面买咖啡喝。桂花开了,闻着很香。在公园里坐了一刻钟左右,看了会儿狗和小孩子。随后就回家。就这样,一天过去了,不好也不差,就是普通的一天。

我们使用两篇论文进行了批量改写测试:第一篇的AI率从50%降至24%,第二篇从30%降至8.9%。同时,人工抽查了数十个段落,语义和事实信息均基本保留无误。

我们开源了一个可以降低 AIGC 率的模型

当然,该模型远非完美,但作为可行性验证,其效果已相当可观。我们相信,扩展数据量和数据类型后,效果还能进一步提升。

延伸思考与总结

整个实验在一个五一假期内完成。使用单张RTX 5090显卡,思路理清后,实现本身已非难点。

随后,我们将模型与合成数据一并开源:https://github.com/XiangJinyu/humanize-zh

我们开源了一个可以降低 AIGC 率的模型

模型训练完成后,对比不同版本的改写案例,发现一个有趣现象:

SFT版本在学术场景尚可,但若输入一段日常文字,它会将随意一段话改得颇具文言文色彩。例如“今天没什么特别的,和平常一样,早上起床玩了会手机”,它会改为“今日平平淡淡,与往日无异,晨起时翻阅了些许手机资讯”。

而DPO Stage-2版本,即使训练数据全部来自学术论文,在日常场景中也展现出良好的可用性。同一段话它会改为“一切如常,今天没有什么特别之处。起床后玩了一会儿手机”,非常自然流畅。

这说明DPO阶段所学的内容,确实更接近底层的“人类分布对齐”,而不仅仅是学术文本的表面特征。通过在学术论文上的训练,模型竟泛化出了一部分通用的文本改写能力。这一发现表明,整条技术路径值得持续投入探索。

在项目推进过程中,我们产生了一些感触:当前的检测系统究竟拦住了谁?或许是那些不愿深入钻研的人。真正有意规避者,花费一个假期便能构建出可用的方案。随着此类工具日益增多,反检测的产业链只会愈发成熟。

或许,更值得深思的是:教育系统究竟在检测什么?步入职场后,从未有人询问你文档的AI率是多少。大家只关注你能否解决问题、交付成果。

在AI工具无处不在的时代,与其将精力集中于检测学生是否使用AI,不如思考如何教导学生有效利用AI。AI时代已然来临,如何让学生在AI的辅助下获得更佳学习效果,如何设计一套全新的评估体系来衡量真实的学习成效,这或许是高校真正值得投入时间与精力去探索的课题。

来源:https://www.aitntnews.com/newDetail.html?newId=25530
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

开源模型有效降低AIGC生成内容重复率
AI资讯
开源模型有效降低AIGC生成内容重复率

针对降低论文AI生成检测率的需求,开源了一个专门模型。该模型通过SFT和DPO两阶段训练,使用学术文本数据,使AI生成文本在保持原意和学术规范的前提下,更接近人类写作风格,从而有效降低检测系统的AI疑似比例。实验表明,模型具备一定泛化能力,并已公开相关代码与数据。

热心网友
05.27
一人公司OPC注册流程与条件详解
AI资讯
一人公司OPC注册流程与条件详解

AI技术正重塑工作方式,使个人借助智能工具与自动化系统即可达成过去团队的生产力水平,这种模式被称为OPC一人公司。它不同于传统创业对人力规模的依赖,更强调效率与成本控制,核心是个人能力通过AI杠杆放大。AI降低了创业门槛,让更多人能构建微型商业体系,未来竞争力在于高效利用AI。

热心网友
05.27
AIGCPanel 2.0.0 更新 工作流引擎实现数字人一键创作
AI资讯
AIGCPanel 2.0.0 更新 工作流引擎实现数字人一键创作

在本地AI数字人创作领域,工具碎片化问题长期困扰着从业者。创作者往往需要在多个独立软件、脚本和平台之间频繁切换,手动整合文本、语音与视频素材,流程不仅繁琐,还极易出错。近期,备受瞩目的本地化创作工具AIGCPanel正式发布了其2 0 0版本。官方将此次更新定义为“史上改动最大的一次”,其核心使命,

热心网友
05.26
AI检测工具催生降重服务 学术诚信如何应对技术挑战
科技数码
AI检测工具催生降重服务 学术诚信如何应对技术挑战

多所高校要求本科毕业论文进行AIGC检测并设定比例阈值,以维护学术诚信。但现有技术误判频发,催生付费降重等产业链,导致防AI规则可能异化为降低文本质量或增加成本的博弈。高校需建立更精细的人工研判机制,超越单一数字判定,引导学生回归研究与写作本源。

热心网友
05.25
AIGC与传统内容创作的区别及优势解析
AI资讯
AIGC与传统内容创作的区别及优势解析

AIGC指人工智能通过学习数据生成全新内容,其创作基于模型对内在规律的理解。与传统专业内容创作相比,AIGC主体是模型,依赖提示词触发生成,版权归属尚不明确。与用户生成内容不同,AIGC需人工指挥与校验。它区别于过去判别式AI,具备创造能力。目前AIGC主要作为协作工具提升效率,而非取代人类创作。

热心网友
05.24

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

PPT制作技巧提升指南,打造专业演示魅力
AI教程
PPT制作技巧提升指南,打造专业演示魅力

掌握核心技巧可显著提升PPT专业度。使用模板奠定视觉基调,插入相关多媒体元素吸引注意力,运用动画效果引导视线强调重点。合理排版需确保信息密度适中、清晰易读。最后,反复练习演讲以熟练内容、把控节奏,让演示更具魅力。

热心网友
05.27
广东汇天航空航天科技公司信息查询与工商数据
AI资讯
广东汇天航空航天科技公司信息查询与工商数据

该公司经营范围显示其专注于高端制造与智能科技。核心业务包括智能出行与高端装备、机器人与智能制造、人工智能与数字技术,并具备技术贸易与全球市场视野。整体构建了以人工智能为核心,涵盖研发、制造、销售及服务的综合性高科技产业生态。

热心网友
05.27
免费AI PPT生成器如何高效提升演示文稿质量
AI教程
免费AI PPT生成器如何高效提升演示文稿质量

一、如何利用AI写PPT生成器免费提升你的演示效果 在信息爆炸的时代,演示文稿的质量直接决定了沟通的成败。免费的AI写PPT生成器,正成为职场人士、教育工作者提升效率、优化演示效果的智能伙伴。你可能尚未察觉,这类工具已深度融入各行各业的工作流中。 AI写PPT生成器免费的应用领域 那么,这些免费的A

热心网友
05.27
Hyperliquid链上USDC供应量突破65亿美元 全链网DeFi流动性创新高
web3.0
Hyperliquid链上USDC供应量突破65亿美元 全链网DeFi流动性创新高

Hyperliquid平台USDC供应量突破65亿美元,反映大量资本正涌入该生态,体现用户对其需求与信任。资金规模与生态活跃度、DeFi应用丰富度及基础设施成熟度紧密相关。供应增长为平台在公链竞争中增添筹码,关键在将资金转化为生态护城河,吸引核心应用形成正向循环。

热心网友
05.27
AI分析用户反馈提升产品开发效率的Kraftful工具
AI教程
AI分析用户反馈提升产品开发效率的Kraftful工具

Kraftful产品介绍:AI驱动的用户反馈分析平台 在当今竞争激烈的产品开发领域,如何从海量的用户反馈中高效提取有价值的洞察,是产品经理和开发团队面临的核心挑战。近期,一款名为Kraftful的智能分析平台备受瞩目,它不仅精准解决了这一痛点,更因其被行业领先的产品分析平台Amplitude收购,而

热心网友
05.27