AIGC领域再次迎来重大突破!Predibase于今日凌晨正式推出业界首个无服务器强化微调平台RFT,直接对标当前最热门的大模型性能提升方案。
先来看几个关键判断:
第一,RFT采用端到端设计,数据管理、训练到部署全流程在一个平台内完成。第二,它无需大量标注数据,而是通过奖励函数驱动持续强化学习。第三,支持无服务器架构——用户只需一个浏览器,设定微调目标、上传数据,即可完成以往极其复杂的大模型微调流程。

为了验证RFT的真实性能,Predibase使用阿里的Qwen2.5-Coder-32B-instruct进行了一次实战:微调出一个专门将PyTorch代码转换为Triton的模型。坦白说,这个任务对大多数大语言模型来说都是硬骨头——需要深入理解两个框架,同时具备复杂的推理能力来权衡计算效率。而Qwen2.5-Coder-32B-instruct在微调之前的准确率……确实不太理想。
结果如何?通过RFT,Predibase在训练过程中巧妙融合了冷启动监督式微调、强化学习和课程学习,并且仅使用了十几个标记数据点。最终在Kernelbench数据集上,微调后的Qwen2.5-Coder-32B-instruct正确率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上——别忘了,这个模型的参数量远小于那三个模型。
那么,RFT究竟强在哪里?
核心在于它彻底改变了微调的游戏规则。传统监督式微调需要海量标注数据来指导模型学习,这些数据往往依赖人工标注,成本高、周期长。RFT则用奖励函数替代标注数据——你可以根据任务需求自定义评估标准,让模型自主探索最优路径。例如在代码生成任务中,奖励函数可以验证代码能否正常运行;在问答任务中,奖励函数能评估答案的相关性和准确性。
这种机制的另一大优势是灵活性。传统方法一旦标注数据质量欠佳或数量不足,模型性能就会陷入瓶颈。RFT则不同,你可以随时调整奖励函数,灵活定义优化目标,适配不同的任务场景。
更重要的是持续改进能力。传统微调通常是一次性操作,训练完成后便固定不变。RFT支持持续学习——随着奖励函数不断优化、反馈数据持续积累,模型可以持续进化,适应不断变化的任务需求。
在训练和推理效率方面,RFT的优势同样显著。传统方法要么在本地运行,对硬件要求极高,要么需要手动管理训练和部署流程。Predibase提供的是完全托管的无服务器平台——用户无需关心底层服务器或基础设施,平台自动处理训练、部署和推理全过程。再加上多LoRA框架和流式微批处理技术,训练效率和推理速度都相当可观。
还有一点值得强调:课程学习。复杂任务如果一开始就让模型硬啃,效果往往不佳。RFT支持从简单到复杂的渐进式训练,帮助模型逐步掌握更复杂的能力。这在需要深度推理的任务中尤为有效。
部署方面同样省心。传统方法部署模型需要额外工具和配置,性能还不一定有保障。Predibase的推理引擎原生支持RFT训练的模型,提供高性能的无服务器部署方案,训练好的模型可以直接投入生产环境运行。
最后说说泛化能力。传统微调容易让模型过度拟合标注数据,遇到未见过的场景就会失效。RFT通过奖励函数引导学习,模型学到的不是死记硬背的套路,而是真正的能力——这意味着在实际应用中的鲁棒性更强。
Predibase也承认,DeepSeek开源R1之后,全球AI圈都意识到了强化学习微调的价值。受此启发,他们打造了这个端到端无服务器强化微调平台。从目前的成果来看,这条路确实走得通。
