先说说这个最新的动态:OpenAI悄悄放了个大招——正式推出GPT-4o的定制化微调功能。这事儿要是放在几年前,想都不敢想。简单来说,就是允许企业客户用自己的数据来“调教”这款最强大的AI模型,让它更懂你的业务,干起活来也更顺手。
这项技术在业内通常被称为“微调”。原理很简单:就像让一个已经成熟的专家再去深造某个细分领域。比如,一家生产滑板的公司,对GPT-4o进行微调后,它就能化身专业的客服机器人,从轮子的材质到滑板的保养,聊得头头是道。
在这个所有AI初创公司都在红海里拼刺刀的节骨眼上,企业迫切需要看到真金白银的投资回报。此时推出GPT-4o的微调功能,意义不言而喻。更要留意的是,这不仅是GPT-4o的“第一次”,OpenAI还同时开放了包括GPT-4o mini在内的多款模型的微调权限,给了大家更经济实惠的选择。
面对市面上众多科技公司都在争抢的模型定制服务这块蛋糕,OpenAI的API产品主管奥利维尔·戈德蒙说得挺直白:我们就是要通过直接合作,让客户调整顶级模型的过程更简单、更快速,免得他们跑到别家去,或者只能用那些性能差一些的替代品。他特别强调了一句话:“我们的目标就是降低技术门槛,减少操作障碍,让大家启动和调整模型这件事儿变得不那么费劲。”
具体操作上,客户需要把自己的数据传到OpenAI的服务器上。负责定制工作的工程师约翰·阿拉德透露,这个过程平均大约需要一两个小时。不过要注意,初期只支持文本数据,图片或视频暂时还不行。
这边OpenAI慷慨地发放免费Token,那边它正面临着激烈的价格战。对手既有谷歌、Anthropic这样的专有模型供应商,也有Nous Research的Hermes 3、Meta的Llama 3.1这类开源模型。但话说回来,如果你选择OpenAI这种闭源/专有模型,好处也是实实在在的:你不需要自己搞服务器来搞推理或训练,既可以直接用OpenAI的服务器,也可以通过API对接你自己用着顺手的服务器。
不过,凡事都有两面。有研究表明,微调模型可能会带来风险,比如偏离原有的安全护栏和性能保障,从而影响整体效果。这个风险值不值得冒,还得企业自己掂量。但OpenAI显然觉得这事儿值,并且鼓励大家把微调当作优化模型的一个好路子。
另外还有个值得关注的消息:OpenAI同一天宣布,将在自己的产品中展示来自《Vogue》、《纽约客》和《连线》等知名品牌的内容。这意味着,OpenAI不仅能使用这些媒体巨头的内容来训练自己的模型,也标志着它正在加大与媒体公司拉关系的力度,而不是整天为了版权问题打嘴仗。至于交易的金额,双方都没有透露。
下面,我们来仔细看看OpenAI官方发布的公告里,到底都说了些什么。
今天,我们正式推出了GPT-4o的微调功能。这是开发者们呼声最高的功能之一。作为福利,到9月23日之前,我们每天给每家企业免费提供100万个训练Token。
简单来说,开发者现在可以用自己的独家数据集对GPT-4o进行微调。这样做的好处是,能在成本更低的情况下,让模型针对特定任务表现得更好。微调技术的厉害之处在于,它能让模型学会调整回复的结构和语气,甚至能遵循那些复杂又高度专业化的指令。有时候,只需要几十个训练样本,效果就立竿见影。
从写代码到写文章,微调的应用范围很广,能深刻影响并提升模型的整体表现。这还只是个开始,我们还会继续为开发者投资,扩展咱们的模型定制选项。
即日起,GPT-4o微调功能对所有付费开发者全面开放。操作很简单:打开微调仪表板,点“创建”,然后在基础模型下拉列表里选“GPT-4o -2024-08-06”就行。至于费用,GPT-4o微调训练成本是每百万Token 25美元,推理成本是每百万输入Token 3.75美元,每百万输出Token 15美元。
同样,GPT-4o mini的微调功能也向所有付费开发者开放了。选基础模型的时候,记得选“GPT-4o-mini-2024-07-18”。而且有个特别优惠:为了庆祝上线,给GPT-4o mini用户每天免费提供多达200万个训练Token,这个优惠一直到9月23日。
微调到底能带来什么?看看这几个例子
在过去的几个月里,我们和不少值得信赖的伙伴合作,对GPT-4o进行了微调测试,也了解到了他们的具体用法。下面几个成功案例,或许能给你一些启发。
1. Cosine在SWE-bench基准测试中成绩惊人

初创公司Cosine打造了一款名叫Genie的人工智能软件工程助手。它能自己识别并修复漏洞、构建功能,还能高效地和开发者协作,对代码进行重构。更重要的是,它能对复杂的技术问题进行推理,并且用更少的Token实现更高的准确性。
Genie背后的动力,就是经过微调的GPT-4o模型。它融入了真人软件工程师的实战经验,还学会了将输出格式化为易于集成到代码库的补丁。你看,这就不仅仅是简单的“问答”了。
在上周二公布的SWE-bench验证基准测试中,Genie拿下了43.8%的SOTA(最先进水平)分数。尤其是在Full测试中,30.08%的SOTA得分,比之前的最佳成绩19.27%提升了一大截,堪称这个测试历史上的一次重大突破。
2. Distyl在BIRD-SQL基准测试中排名第一

Distyl是一家为财富500强公司提供人工智能解决方案的合作伙伴。它在BIRD-SQL基准测试中排名第一,这是目前业界最领先的文本到SQL基准测试。经过微调的GPT-4o在排行榜上的执行准确率达到了71.83%。它在查询重新表述、意图分类、思维链和自我纠正等任务上都非常出色,尤其是在SQL生成方面,表现更是突出。
数据和隐私,永远是第一位的
微调模型完全在你的掌控之中。你对业务数据拥有绝对的所有权,包括所有输入和输出。这意味着,你的数据绝不会被共享,也不会被拿去训练其他模型。
此外,我们还为微调模型部署了多层次的安全防护机制,严防滥用。比如,我们会不断在微调模型上运行自动安全评估,并监控使用情况,确保所有的应用都符合我们的使用政策。
我们非常期待看到你通过微调GPT-4o能创造出什么成果。如果你还想探索更多模型定制的可能性,随时可以联系我们的团队。我们随时都在,竭诚为你提供支持。
