游乐游手机版

AI 热词解释

首页/AI热词解释/热词详情

BLEU:机器翻译的自动评分员

类型:评估指标2026-06-02
BLEU是一种自动评估机器翻译质量的指标,通过比较候选译文与参考译文中n-gram的重叠程度来打分,广泛应用于翻译系统开发和学术研究。

本次查询:BLEU

中文解释:双语评估替补

常见场景:用于自动比较机器翻译结果与人工参考译文的相似度 / 快速评估翻译系统性能

一句话解释

BLEU(Bilingual Evaluation Understudy,双语评估替补)是一种自动评估机器翻译质量的指标,通过计算候选译文与人工参考译文中n-gram(连续词序列)的重叠比例来给出0到100之间的分数,分数越高表示译文与参考越接近。

为什么会被关注

机器翻译发展初期,评估翻译质量主要依赖人工打分,成本高且难以复现。BLEU的出现首次提供了一种低成本、自动化的评估方法,让研究者可以快速对比不同模型的效果。

它虽不完美,但因计算简单、与人类判断有一定相关性,成为了机器翻译领域事实上的标准评估指标,几乎所有论文和开源项目都会报告BLEU得分。

核心逻辑

BLEU计算候选译文中每个n-gram(通常n=1到4)在参考译文中出现的次数,并计算这些匹配的精确率。为避免短译文分数虚高,它还加入了“短句惩罚因子”(Brevity Penalty),当候选译文长度明显短于参考时降低得分。

最终BLEU分数是不同n-gram精确率的几何平均再乘以惩罚因子,因此它能同时衡量词汇和短语级别的匹配程度,但又完全忽略语法和语义正确性。

常见场景

在机器翻译模型的训练和调参阶段,研究人员会定期用BLEU验证集评估模型性能,选择分数最高的检查点作为最终模型。

论文中对比不同翻译系统时,BLEU是必备的指标;在工业部署中,它也常用于质量监控,比如将线上翻译结果与标准参考对比,发现异常波动。

容易混淆的点

很多人误以为BLEU高分就等于翻译质量好,但其实它只衡量词汇重叠,不关心语法是否通顺、语义是否准确。一个用大量同义词堆砌的译文可能BLEU很低,而一个语法错误但词汇匹配的译文分数反而高。

BLEU与ROUGE(常用于文本摘要)原理相似但侧重点不同:BLEU更注重精确率(翻译结果是否准确),而ROUGE注重召回率(参考译文的信息是否都被覆盖)。两者不能混用。

来源:AI 热词解释频道整理
上一篇Exact Match 精确匹配 下一篇ROUGE:自动摘要评估的黄金指标

相关热词

继续查看关联概念解释。

最新热词

最近新增和整理过的热词内容。