哈工大团队首篇DeepSeek R1多语言能力全面分析_AI热点日报

哈工大团队首篇DeepSeek R1多语言能力全面分析

类型：热点整理2026-06-30

DeepSeek-R1最近的热度有目共睹，但很多人关注的是它的推理能力，多语言表现反倒成了盲区。哈尔滨工业大学团队最新发布的一项研究，正好填补了这个缺口——他们对o1-Like模型（包括DeepSeek-R1、OpenAI o1等）做了一次系统的多语言翻译能力评估，结果既有惊喜，也暴露了新的问题。

哈工大团队：首篇DeepSeek R1的多语言能力全面分析！

传统大模型的多语言能力已经相当成熟，而加入深度推理链的o1-Like模型，能否在翻译这个老行当上更进一步？实验给出了明确答案：在一些任务上确实做到了，但代价是推理成本激增，甚至出现了“漫谈”这种新毛病。这对于实际选型（是直接用传统模型还是上推理模型）有直接参考价值。

1. 背景介绍

类o1模型（包括OpenAI o1、QwQ、Marco-o1、DeepSeek-R1等）以深度推理见长，能模拟人类一步步思考的过程。多语言机器翻译（MMT）则是一项难度很高的任务，要兼顾语义、文化、术语等多方面。此前大模型在翻译上已经表现不错，但类o1模型在这方面的能力还没被系统研究过。本研究主要回答两个问题：相比传统LLM，类o1模型在各种翻译任务中表现如何？哪些因素影响了它们的翻译质量？

2. 类o1模型在多语言翻译任务中的表现

研究选取了多个闭源和开源的类o1模型，与ChatGPT、GPT-4o等传统LLM做对比测试。

2.1 多语言翻译能力

在Flores-200数据集上的测试结果（表1）显示：闭源类o1模型整体表现最优，其中OpenAI o1的BLEU得分最高提升了34.5。平均而言，类o1模型的BLEU分数比其他模型高出11.14分。开源模型里，DeepSeek-R1表现最好，平均BLEU得分提升约16.92。有趣的是，参数量较小的Marco-o1（7B）和DRT-o1（14B）在某些指标上接近闭源模型，这意味着用小参数开源模型做多语言翻译是个值得关注的方向。

另外，实验还发现一个有意思的现象：类o1模型在COMET和BLEURT指标上的提升比BLEU明显得多，甚至在有些数据集上BLEU低于传统模型，但COMET和BLEURT却更高。这是因为深度思考让输出更加多样化，会使用不同的词汇和句式，但意思保留得很好。而BLEU过于依赖参考译文的字面匹配，不适合评价这类模型；COMET和BLEURT则更客观，未来应该作为主要评估指标。

2.2 常识推理类翻译

在CommonsenseMT数据集上，Lexical任务中OpenAI o1继续领先，COMET和BLEURT分别比GPT-4o高2.00和3.89。但在Contextless和Contextual任务中，传统LLM反而更好。原因在于：缺乏上下文来源文本时，类o1模型在思考过程中容易产生幻觉，而传统模型直接翻译反而更可靠。所以，要提升常识翻译中的可靠性，需要设计外部模块来抑制思考过程中的幻觉。

2.3 特定文化类翻译

在Culture MT数据集上，以英语为源语言时，类o1模型相比GPT-4o在BLEU、COMET、BLEURT上平均最大提升分别为4.71、6.88、7.23。在以英语为目标语言的任务中，Marco-o1（7B参数）在BLEURT上甚至比OpenAI o1还高1.80。案例分析发现，类o1模型在思考过程中会自然融入对文化术语的本地化理解，翻译更地道。

2.4 专有术语翻译

在RTT数据集上，传统LLM反而更强。ChatGPT在COMET和BLEURT上比类o1模型高约7.67和8.49。原因是类o1模型在推理中容易引入错误信息，影响到专有名词的翻译。未来通过设计外部知识结构来提升专有名词翻译水平，是个不错的方向。

3. 影响翻译性能的因素分析

3.1 推理成本

与传统LLM相比，类o1模型需要的输出token多约10倍，时间成本多8到40倍。思考过程产生的额外输出大幅降低了推理速度。在翻译质量和实时性能之间找到平衡点，是个难点。

3.2 指令遵循能力

使用CommonsenseMT中的Contextless任务测试发现，类o1模型尽管经过复杂的思维链训练，仍有3%到10%的概率不遵循指令。其中QwQ的问题尤其严重，会生成一组与源句相关但不直接翻译的句子——研究团队称这一现象为“漫谈”（rambling）。这不仅增加了计算开销，还降低了翻译质量（见图2和图5）。保持和改进指令遵循能力是提升类o1模型性能的关键方向。

3.3 参数规模影响

实验显示，在10B到20B参数范围内，增大参数量能带来明显提升；超过这个范围，继续增加参数带来的边际收益很小，甚至在个别任务上还会下降。说明不是越大越好，存在一个“甜区”。

3.4 温度参数影响

用DeepSeek-R1-671B在Flores-200上测试不同温度（0.0到1.0），结果发现：较低的温度更有利于产生稳定、准确的翻译。不同任务的最佳温度略有不同。在评价指标方面，BLEU和COMET对温度变化更敏感，而BLEURT受影响较小，这也印证了BLEURT更适合评估多样化翻译。

附：一个完整的模型漫谈（Rambling）问题的例子

（图5展示了完整例子，此处省略具体内容）

来源：https://www.53ai.com/news/LargeLanguageModel/2025022212904.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。