游乐游手机版
首页/AI热点日报/热点详情

哈工大团队首篇DeepSeek R1多语言能力全面分析

类型:热点整理2026-06-30
DeepSeek-R1最近的热度有目共睹,但很多人关注的是它的推理能力,多语言表现反倒成了盲区。哈尔滨工业大学团队最新发布的一项研究,正好填补了这个缺口——他们对o1-Like模型(包括DeepSeek-R1、OpenAI o1等)做了一次系统的多语言翻译能力评估,结果既有惊喜,也暴露了新的问题。

DeepSeek-R1最近的热度有目共睹,但很多人关注的是它的推理能力,多语言表现反倒成了盲区。哈尔滨工业大学团队最新发布的一项研究,正好填补了这个缺口——他们对o1-Like模型(包括DeepSeek-R1、OpenAI o1等)做了一次系统的多语言翻译能力评估,结果既有惊喜,也暴露了新的问题。

哈工大团队:首篇DeepSeek R1的多语言能力全面分析!

传统大模型的多语言能力已经相当成熟,而加入深度推理链的o1-Like模型,能否在翻译这个老行当上更进一步?实验给出了明确答案:在一些任务上确实做到了,但代价是推理成本激增,甚至出现了“漫谈”这种新毛病。这对于实际选型(是直接用传统模型还是上推理模型)有直接参考价值。

1. 背景介绍

类o1模型(包括OpenAI o1、QwQ、Marco-o1、DeepSeek-R1等)以深度推理见长,能模拟人类一步步思考的过程。多语言机器翻译(MMT)则是一项难度很高的任务,要兼顾语义、文化、术语等多方面。此前大模型在翻译上已经表现不错,但类o1模型在这方面的能力还没被系统研究过。本研究主要回答两个问题:相比传统LLM,类o1模型在各种翻译任务中表现如何?哪些因素影响了它们的翻译质量?

2. 类o1模型在多语言翻译任务中的表现

研究选取了多个闭源和开源的类o1模型,与ChatGPT、GPT-4o等传统LLM做对比测试。

2.1 多语言翻译能力

在Flores-200数据集上的测试结果(表1)显示:闭源类o1模型整体表现最优,其中OpenAI o1的BLEU得分最高提升了34.5。平均而言,类o1模型的BLEU分数比其他模型高出11.14分。开源模型里,DeepSeek-R1表现最好,平均BLEU得分提升约16.92。有趣的是,参数量较小的Marco-o1(7B)和DRT-o1(14B)在某些指标上接近闭源模型,这意味着用小参数开源模型做多语言翻译是个值得关注的方向。

另外,实验还发现一个有意思的现象:类o1模型在COMET和BLEURT指标上的提升比BLEU明显得多,甚至在有些数据集上BLEU低于传统模型,但COMET和BLEURT却更高。这是因为深度思考让输出更加多样化,会使用不同的词汇和句式,但意思保留得很好。而BLEU过于依赖参考译文的字面匹配,不适合评价这类模型;COMET和BLEURT则更客观,未来应该作为主要评估指标。

2.2 常识推理类翻译

在CommonsenseMT数据集上,Lexical任务中OpenAI o1继续领先,COMET和BLEURT分别比GPT-4o高2.00和3.89。但在Contextless和Contextual任务中,传统LLM反而更好。原因在于:缺乏上下文来源文本时,类o1模型在思考过程中容易产生幻觉,而传统模型直接翻译反而更可靠。所以,要提升常识翻译中的可靠性,需要设计外部模块来抑制思考过程中的幻觉。

2.3 特定文化类翻译

在Culture MT数据集上,以英语为源语言时,类o1模型相比GPT-4o在BLEU、COMET、BLEURT上平均最大提升分别为4.71、6.88、7.23。在以英语为目标语言的任务中,Marco-o1(7B参数)在BLEURT上甚至比OpenAI o1还高1.80。案例分析发现,类o1模型在思考过程中会自然融入对文化术语的本地化理解,翻译更地道。

2.4 专有术语翻译

在RTT数据集上,传统LLM反而更强。ChatGPT在COMET和BLEURT上比类o1模型高约7.67和8.49。原因是类o1模型在推理中容易引入错误信息,影响到专有名词的翻译。未来通过设计外部知识结构来提升专有名词翻译水平,是个不错的方向。

3. 影响翻译性能的因素分析

3.1 推理成本

与传统LLM相比,类o1模型需要的输出token多约10倍,时间成本多8到40倍。思考过程产生的额外输出大幅降低了推理速度。在翻译质量和实时性能之间找到平衡点,是个难点。

3.2 指令遵循能力

使用CommonsenseMT中的Contextless任务测试发现,类o1模型尽管经过复杂的思维链训练,仍有3%到10%的概率不遵循指令。其中QwQ的问题尤其严重,会生成一组与源句相关但不直接翻译的句子——研究团队称这一现象为“漫谈”(rambling)。这不仅增加了计算开销,还降低了翻译质量(见图2和图5)。保持和改进指令遵循能力是提升类o1模型性能的关键方向。

3.3 参数规模影响

实验显示,在10B到20B参数范围内,增大参数量能带来明显提升;超过这个范围,继续增加参数带来的边际收益很小,甚至在个别任务上还会下降。说明不是越大越好,存在一个“甜区”。

3.4 温度参数影响

用DeepSeek-R1-671B在Flores-200上测试不同温度(0.0到1.0),结果发现:较低的温度更有利于产生稳定、准确的翻译。不同任务的最佳温度略有不同。在评价指标方面,BLEU和COMET对温度变化更敏感,而BLEURT受影响较小,这也印证了BLEURT更适合评估多样化翻译。

附:一个完整的模型漫谈(Rambling)问题的例子

(图5展示了完整例子,此处省略具体内容)

来源:https://www.53ai.com/news/LargeLanguageModel/2025022212904.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。