首创无服务器强化微调：十几个数据点实现3倍性能_AI热点日报

首创无服务器强化微调：十几个数据点实现3倍性能

类型：热点整理2026-07-04

Predibase发布业界首个无服务器强化微调平台RFT，采用奖励函数驱动和端到端架构，无需大量标注。在Kernelbench上，微调Qwen2 5-Coder-32B-instruct正确率比DeepSeek-R1和OpenAIo1高3倍，比Claude3 7Sonnet高4倍，仅需十几个数据点。

AIGC领域再次迎来重大突破！Predibase于今日凌晨正式推出业界首个无服务器强化微调平台RFT，直接对标当前最热门的大模型性能提升方案。

先来看几个关键判断：

第一，RFT采用端到端设计，数据管理、训练到部署全流程在一个平台内完成。第二，它无需大量标注数据，而是通过奖励函数驱动持续强化学习。第三，支持无服务器架构——用户只需一个浏览器，设定微调目标、上传数据，即可完成以往极其复杂的大模型微调流程。

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点，

为了验证RFT的真实性能，Predibase使用阿里的Qwen2.5-Coder-32B-instruct进行了一次实战：微调出一个专门将PyTorch代码转换为Triton的模型。坦白说，这个任务对大多数大语言模型来说都是硬骨头——需要深入理解两个框架，同时具备复杂的推理能力来权衡计算效率。而Qwen2.5-Coder-32B-instruct在微调之前的准确率……确实不太理想。

结果如何？通过RFT，Predibase在训练过程中巧妙融合了冷启动监督式微调、强化学习和课程学习，并且仅使用了十几个标记数据点。最终在Kernelbench数据集上，微调后的Qwen2.5-Coder-32B-instruct正确率比DeepSeek-R1和OpenAI的o1高出3倍，比Claude 3.7 Sonnet高出4倍以上——别忘了，这个模型的参数量远小于那三个模型。

那么，RFT究竟强在哪里？

核心在于它彻底改变了微调的游戏规则。传统监督式微调需要海量标注数据来指导模型学习，这些数据往往依赖人工标注，成本高、周期长。RFT则用奖励函数替代标注数据——你可以根据任务需求自定义评估标准，让模型自主探索最优路径。例如在代码生成任务中，奖励函数可以验证代码能否正常运行；在问答任务中，奖励函数能评估答案的相关性和准确性。

这种机制的另一大优势是灵活性。传统方法一旦标注数据质量欠佳或数量不足，模型性能就会陷入瓶颈。RFT则不同，你可以随时调整奖励函数，灵活定义优化目标，适配不同的任务场景。

更重要的是持续改进能力。传统微调通常是一次性操作，训练完成后便固定不变。RFT支持持续学习——随着奖励函数不断优化、反馈数据持续积累，模型可以持续进化，适应不断变化的任务需求。

在训练和推理效率方面，RFT的优势同样显著。传统方法要么在本地运行，对硬件要求极高，要么需要手动管理训练和部署流程。Predibase提供的是完全托管的无服务器平台——用户无需关心底层服务器或基础设施，平台自动处理训练、部署和推理全过程。再加上多LoRA框架和流式微批处理技术，训练效率和推理速度都相当可观。

还有一点值得强调：课程学习。复杂任务如果一开始就让模型硬啃，效果往往不佳。RFT支持从简单到复杂的渐进式训练，帮助模型逐步掌握更复杂的能力。这在需要深度推理的任务中尤为有效。

部署方面同样省心。传统方法部署模型需要额外工具和配置，性能还不一定有保障。Predibase的推理引擎原生支持RFT训练的模型，提供高性能的无服务器部署方案，训练好的模型可以直接投入生产环境运行。

最后说说泛化能力。传统微调容易让模型过度拟合标注数据，遇到未见过的场景就会失效。RFT通过奖励函数引导学习，模型学到的不是死记硬背的套路，而是真正的能力——这意味着在实际应用中的鲁棒性更强。

Predibase也承认，DeepSeek开源R1之后，全球AI圈都意识到了强化学习微调的价值。受此启发，他们打造了这个端到端无服务器强化微调平台。从目前的成果来看，这条路确实走得通。

来源：https://www.53ai.com/news/finetuning/2025032064750.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。

首创无服务器强化微调：十几个数据点实现3倍性能

相关热点

延伸阅读