如何微调推理大模型？以Qwen3/DeepSeek-R1为例

首页/手机教程/文章详情

如何微调推理大模型？以Qwen3/DeepSeek-R1为例

时间：2025-07-04 12:39

前言首先先简单介绍下两个系列的模型：刚好最近在做一个推理训练任务，现在有现成的训练集，推理模型这么强的情况下，怎么把之前传统对话大模型+指令微调训练模式转变成推理大模型+指令微调

前言

首先先简单介绍下两个系列的模型：

刚好最近在做一个推理训练任务，现在有现成的训练集，推理模型这么强的情况下，怎么把之前传统对话大模型+指令微调训练模式转变成推理大模型+指令微调任务？

后训练广义可能范围比较大，包括微调、强化学习等。可能我们构造强化学习数据集或者思维链数据集的成本比较高的，所以今天咱们就聊一聊怎么偷懒地将把之前的指令数据集或者指令微调的工作推演到推理大模型训练上呢？有没有比较省事或者比较规范的做法呢？

方法1：通过推理大模型将指令数据集蒸馏为推理数据

通过能力比较强的推理大模型底座将之前指令数据集蒸馏为思维链数据集，然后进行筛选过滤。

具体做法我们可以参考刘聪大佬开源的Chinese-DeepSeek-R1-Distill-data-110k，大致流程是调用企业版满血R1 API，然后数据生成结果进行了二次校验，并保留了评价分数：

针对Math和Exam数据，先利用Math-Verify进行校对，无法规则抽取结果的数据，再利用Qwen2.5-72B-Instruct模型进行打分，正确为10分，错误为0分。针对其他数据，直接利用Qwen2.5-72B-Instruct模型从无害性、有用性、正确性/完整性三个角度进行打分，分值范围为0-10分。方法2：使用COT数据集构造推理大模型训练数据

下面以一个推理数据集为例，

以下面模板为例：

代码语言：javascript代码运行次数：0运行复制

train_prompt_style = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request. Before answering, think carefully about the question and create a step-by-step chain of thoughts to ensure a logical and accurate response.### Instruction:You are a medical expert with advanced knowledge in clinical reasoning, diagnostics, and treatment planning. Please answer the following medical question. ### Question:{}### Response:{}{}"""

登录后复制

有了模板下面我们直接通过占位符填充COT字段即可

代码语言：javascript代码运行次数：0运行复制

EOS_TOKEN = tokenizer.eos_token# Must add EOS_TOKENdef formatting_prompts_func(examples):inputs = examples["Question"]cots = examples["Complex_CoT"]outputs = examples["Response"]texts = []for input, cot, output in zip(inputs, cots, outputs):text = train_prompt_style.format(input, cot, output) + EOS_TOKENtexts.append(text)return {"text": texts,}

登录后复制

方法3：直接使用指令数据集微调推理大模型

那么还有一种方式就是，我们是不是也可以直接通过比较"素"的指令数据集训练R1类似模型呢，答案是可以！

笔者实测过，这样微调出来的效果是丢失了思考过程，但是效果发现是没问题，设置32B推理模型超过了72B对话模型。

关于DeepSeek-R1微调，LLaMA Factory有些讨论或者踩坑，我下面直接贴了链接，有兴趣大家可以看下：

LLaMA Factory：微调DeepSeek-R1-Distill-Qwen-7B模型实现新闻标题分类器deepseek r1微调 #7027实测

针对下游任务，如果我们不想要思考过程，可以直接采用第三种方法，这种微调简单粗暴，效果也比传统同参数对话模型好一些。如果想要思考过程，可以参考方法1和方法2来准备数据，然后采用微调的方式进行训练即可。

来源：https://www.php.cn/faq/1384939.html

ai red deepseek JavaScript math llama

上一篇DeepSeek发布全新开源版本R1，性能直追OpenAI顶级o3模型！ 下一篇运维数据与知识：从 “原始记录” 到 “智能燃料” 的蜕变

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

如何微调推理大模型？以Qwen3/DeepSeek-R1为例

相关推荐

同类最新

百度街景功能详解与实景地图应用场景指南

中羽论坛备用入口稳定访问方式完整指南

TapTap老版本官方下载方法历史版本降级详细教程

百度街景多久更新一次实景拍摄频率解析

小米商店查看并删除应用购买记录的方法

如何微调推理大模型？以Qwen3/DeepSeek-R1为例

相关推荐

同类最新

百度街景功能详解与实景地图应用场景指南

中羽论坛备用入口稳定访问方式完整指南

TapTap老版本官方下载方法 历史版本降级详细教程

百度街景多久更新一次实景拍摄频率解析

小米商店查看并删除应用购买记录的方法

TapTap老版本官方下载方法历史版本降级详细教程