游乐游手机版
首页/手机教程/文章详情

如何微调推理大模型?以Qwen3/DeepSeek-R1为例

时间:2025-07-04 12:39
前言首先先简单介绍下两个系列的模型:刚好最近在做一个推理训练任务,现在有现成的训练集,推理模型这么强的情况下,怎么把之前传统对话大模型+指令微调训练模式 转变成推理大模型+指令微调

前言

首先先简单介绍下两个系列的模型:

刚好最近在做一个推理训练任务,现在有现成的训练集,推理模型这么强的情况下,怎么把之前传统对话大模型+指令微调训练模式 转变成推理大模型+指令微调任务?

后训练广义可能范围比较大,包括微调、强化学习等。 可能我们构造强化学习数据集或者思维链数据集的成本比较高的,所以今天咱们就聊一聊怎么偷懒地将把之前的指令数据集或者指令微调的工作推演到推理大模型训练上呢?有没有比较省事或者比较规范的做法呢?

方法1:通过推理大模型将指令数据集蒸馏为推理数据

通过能力比较强的推理大模型底座将之前指令数据集蒸馏为思维链数据集,然后进行筛选过滤。

具体做法我们可以参考刘聪大佬开源的Chinese-DeepSeek-R1-Distill-data-110k,大致流程是调用企业版满血R1 API,然后数据生成结果进行了二次校验,并保留了评价分数:

针对Math和Exam数据,先利用Math-Verify进行校对,无法规则抽取结果的数据,再利用Qwen2.5-72B-Instruct模型进行打分,正确为10分,错误为0分。 针对其他数据,直接利用Qwen2.5-72B-Instruct模型从无害性、有用性、正确性/完整性三个角度进行打分,分值范围为0-10分。 方法2:使用COT数据集构造推理大模型训练数据

下面以一个推理数据集为例,

如何微调推理大模型?以Qwen3/DeepSeek-R1为例

以下面模板为例:

代码语言:javascript代码运行次数:0运行复制
train_prompt_style = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request. Before answering, think carefully about the question and create a step-by-step chain of thoughts to ensure a logical and accurate response.### Instruction:You are a medical expert with advanced knowledge in clinical reasoning, diagnostics, and treatment planning. Please answer the following medical question. ### Question:{}### Response:{}{}"""
登录后复制

有了模板下面我们直接通过占位符填充COT字段即可

代码语言:javascript代码运行次数:0运行复制
EOS_TOKEN = tokenizer.eos_token# Must add EOS_TOKENdef formatting_prompts_func(examples):inputs = examples["Question"]cots = examples["Complex_CoT"]outputs = examples["Response"]texts = []for input, cot, output in zip(inputs, cots, outputs):text = train_prompt_style.format(input, cot, output) + EOS_TOKENtexts.append(text)return {"text": texts,}
登录后复制
如何微调推理大模型?以Qwen3/DeepSeek-R1为例
方法3:直接使用指令数据集微调推理大模型

那么还有一种方式就是,我们是不是也可以直接通过比较"素"的指令数据集训练R1类似模型呢,答案是可以!

如何微调推理大模型?以Qwen3/DeepSeek-R1为例

笔者实测过, 这样微调出来的效果是丢失了思考过程,但是效果发现是没问题,设置32B推理模型超过了72B对话模型。

如何微调推理大模型?以Qwen3/DeepSeek-R1为例

关于DeepSeek-R1微调,LLaMA Factory有些讨论或者踩坑,我下面直接贴了链接,有兴趣大家可以看下:

LLaMA Factory:微调DeepSeek-R1-Distill-Qwen-7B模型实现新闻标题分类器deepseek r1微调 #7027实测

针对下游任务,如果我们不想要思考过程,可以直接采用第三种方法,这种微调简单粗暴,效果也比传统同参数对话模型好一些。如果想要思考过程,可以参考方法1和方法2来准备数据,然后采用微调的方式进行训练即可。

来源:https://www.php.cn/faq/1384939.html
上一篇DeepSeek发布全新开源版本R1,性能直追OpenAI顶级o3模型! 下一篇运维数据与知识:从 “原始记录” 到 “智能燃料” 的蜕变
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
手机教程 · 2026-06-30

百度街景功能详解与实景地图应用场景指南

出门前想确认酒店门口好不好停车、餐厅招牌挂在哪一边、或者提前“走一遍”陌生地铁站的出口——这些需求,百度街景功能都能满足。它不是静态图片,而是一张可拖拽、可缩放、带时间戳的360度实景地图,直接把真实街道拉到手机屏幕上。不过,这个功能默认是隐藏的,需要手动打开。 打开街景的三种常用路径 方法一:图层

手机教程 · 2026-06-30

中羽论坛备用入口稳定访问方式完整指南

相信不少羽毛球爱好者都遇到过这样的情况:常逛的羽毛球论坛突然打不开,或者域名更换后一时找不到新入口,心里难免着急。中羽论坛作为国内羽毛球圈重要的社区平台,它的备用入口稳定访问方式在哪里?直接给出答案:https: www badmintoncn com,这个网址是目前最可靠的稳定入口。解决了访问“

手机教程 · 2026-06-30

TapTap老版本官方下载方法 历史版本降级详细教程

想恢复 TapTap 老版本界面、规避新版本强制推送与社区限流,却找不到官方历史安装包入口?这是许多用户遇到的常见问题——目前 TapTap 官网及应用商店已全面下架旧版 APK 下载渠道。实际上,在豌豆荚「历史版本大全」专题页面中,仍可获取完整的老版本资源。只需认准 wandoujia com 域

手机教程 · 2026-06-30

百度街景多久更新一次实景拍摄频率解析

你是否好奇,家楼下新开的奶茶店是否已被百度街景收录?或者导航地图上那个施工围挡,究竟是上周刚竖起的,还是去年拍摄的旧画面?这个问题的答案,直接取决于百度的街景更新策略——官方虽未公布统一周期,但如果你住在北上广深的核心城区,主干道每三个月重采一次已是常态;而换到县城的一条小巷,五年未更新的老数据也毫

手机教程 · 2026-06-30

小米商店查看并删除应用购买记录的方法

小米应用商店的购买记录并没有独立设置一个“查看入口”,而是整合在小米账户的订单体系之中。若想删除这些记录,需要先打开小米商城App,依次进入“我的→全部订单→筛选‘应用 服务’→选择对应订单→删除”。至于设备本地显示的购买标识,可以通过清除应用存储来强制刷新。而对于自动续费类的订阅服务,则必须前往小