原PyTorch成员爆料:为何AI巨头坚持选择PyTorch开发大模型?
不知道你有没有留意到,当前与你对话的各类聊天机器人,背后几乎都由PyTorch提供核心支撑。可以说,它已然成为主流大语言模型研发链路中实际采用的标准框架。
编辑 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
PyTorch已稳操胜券。
无论是国外的OpenAI与Anthropic,还是国内的智谱、阿里、月之暗面,这些顶尖企业发布的大模型或开源实现,都提供或倾向于选择PyTorch作为基础架构。
早在2020年,OpenAI就在最新声明中明确表示,将研究标准化平台定位在PyTorch之上,以此提升科研迭代效率。
图片
而从OpenAI出走的Anthropic,同样公开表明了对PyTorch框架的偏爱。其研究团队使用PyTorch定义、训练和推理其Transformer模型(涵盖Claude 1~3系列)。更令人惊讶的是,Claude甚至从未发布过TensorFlow版本,也未提供兼容的推理接口——其整个生态系统完全围绕PyTorch与CUDA构建。
图片
即便是拥有TensorFlow与JAX的谷歌,也毫不避讳地在最新文档中发布了Gemma模型运行于PyTorch的详细教程。
图片
国内各大模型领军企业同样紧随这一趋势。阿里的Qwen、智谱的ChatGLM、月之暗面的Kimi等,社区中几乎找不到对应的TensorFlow版本,最新的技术说明文档甚至不再提及TensorFlow。
图片
可以说,除了谷歌系模型(其最新产品采用JAX而非TensorFlow),几乎所有头部模型公司都已将PyTorch作为首选框架。而TensorFlow目前更多活跃于移动端、教材和教学视频领域。
那么,PyTorch究竟凭什么脱颖而出?
这个问题,相信每位使用过PyTorch的开发者心中都有各自的答案。
不过要深入探讨这个问题,由最早参与PyTorch开发的团队成员来解答再合适不过。
上周,在旧金山举行的PyTorch 2025年度大会上,PyTorch基金会技术顾问委员会主席Luca Antiga发表了关于PyTorch长远发展的重要观点。作为最早参与撰写PyTorch论文的团队成员之一,Luca还合著了《Deep Learning with PyTorch》这本经典著作。
接下来,让我们梳理一下Luca发言的核心内容。
面向研究者的“Pythonic”设计理念
拥有生物医学工程学术背景的Luca指出,PyTorch之所以能迅速流行,关键在于它对研究者极其友好。许多早期用户来自学术界的研究人员,后来他们进入工业界,也将PyTorch一同带入。
它非常符合Python语言风格。过去虽然很多框架号称使用Python,但实际上你需要编写一种‘元语言’,在代码和问题本身之间额外增加了一层隔阂,调试过程也更加困难。
而PyTorch在这方面具有革命性意义——它将Python的易用性、快速迭代能力,以及“先动手尝试”的理念精神,真正带入了神经网络、反向传播和GPU计算的世界。
从神经网络到生成式AI,PyTorch始终屹立潮头
PyTorch诞生之初,行业焦点仍在神经网络,主要用于图像识别或情感分析。直到ChatGPT的出现,生成式AI才让公众真正认识到人工智能的潜力。但Antiga认为,PyTorch从未“过时”。
无论经历多少次技术变革,你总能看见PyTorch的身影。
当然,还有像JAX这样的强劲对手。但相比之下,PyTorch已发展成整个产业的基石,支撑起整个生态系统。
如今,PyTorch不再仅是训练模型的工具,它也成为了模型推理阶段的核心组件。
看看当前最流行的推理框架——vLLM与SGLang,它们都在生产环境中使用PyTorch。
今天你与任何一个聊天机器人互动时,后台运行的很可能就是PyTorch。
强化学习让PyTorch再度领先
近期PyTorch人气再度攀升的另一个重要原因,在于强化学习的广泛应用。强化学习通过“奖励正确行为、纠正错误行为”的方式,来微调预训练的大语言模型,而PyTorch对这类任务表现出天然的契合度。
强化学习鼓励模型在面对环境时,做出能带来更大奖励的决策。
PyTorch的灵活性特别适合在这种动态、交互式的场景下使用。
PyTorch基金会的最新动向
至于PyTorch基金会本身,值得注意的是,几个月前它开始接纳更多项目,首先是vLLM与DeepSpeed。如今随着分布式计算框架Ray的加入,基金会旗下已有四个重要项目。
但Luca强调,基金会并不打算变成一个“巨型伞形组织”。
我最关心的是生态系统中的用户——当他们进入由PyTorch基金会“背书”的生态系统时,会经历怎样的历程?
我的目标是帮助他们成功。
个人最关注的AI突破方向:LLM微缩化
当大模型狂飙向前之际,哪些研究方向最值得关注?
Luca对此给出了明确的看法:当前的大型模型虽然可用,但结构过于臃肿,资源消耗巨大。
我们其实在做一件惊人的事:我们正在训练一种“类比机器”,一种不需要精确指令、能通过模式和类比自我推理的机器。
但我们现在的这台“飞行机器”,更像是靠一堆齿轮和螺旋桨驱动的庞然大物——能飞,却笨重不堪。真正的“飞行证明”其实来自鸟类。
人类大脑才是我们的“对照组”——我们大脑思考时消耗的能量极低,却能完成复杂的推理。
未来的突破方向,在于能否将LLM那种庞大结构“微缩化”,让模型能从头到尾学习,而不需要如此多的显存与能耗。
PS:这一点毫不夸张,现在就连个体开发者都能在代码工具上进行价值上万美元的优化。
“这让我非常着迷。我不确定PyTorch基金会是否会朝这个方向发展,但我个人对此充满热情。”
对于这个方向,Luca也正在身体力行地持续投入。作为Lightning AI的首席技术官,他带领团队打造了一个对PyTorch友好的训练推理平台,其中许多客户的核心诉求正是:优化每一份资源的使用效率。
因此,我们特别关注训练与推理的全链路优化——从GPU核心层到数据加载、任务调度与流式处理,每一个环节都可能成为瓶颈。
有时瓶颈在于数据加载,有时是计算没有充分并行,有时又是模型本身未经调优。
要真正优化性能,必须从端到端进行分析。
我们也希望帮助开发者提高算力利用率,让他们能够用其所长、尽其所用。
好了,文章到这里就告一段落。目前,PyTorch已成为全球AI模型事实上的“操作系统”。无论是研究者构建模型,还是企业部署模型,它都作为底层框架的当之无愧之选。
大家如何看待PyTorch的未来发展之路呢?
相关攻略
大家可能没注意到,现在每一款与你互动的Chatbot,背后运行的都是 PyTorch。可以说,它已经成为了主流LLM研发链路中事实上的标准。 编辑 | 云昭出品 | 51CTO技术栈(微信号:blo
10 月 30 日消息,据科技媒体 engadget 今天报道,OpenAI 现已为旗下 Sora 更新了角色出镜功能,可让用户将自己的宠物、原创人物甚至物体添加进 AI 视频。据介绍,这项功能已
10 月 29 日消息,Adobe 昨天在洛杉矶举行 2025 年度 MAX 大会,宣布与 OpenAI 达成新一轮合作,将旗下 Photoshop 和 Adobe Express 整合进 Cha
10 月 30 日消息,科技媒体 NeoWin 昨日(10 月 29 日)发布博文,报道称 OpenAI 公司推出 gpt-oss-safeguard-120b 和 gpt-oss-safegua
10 月 30 日消息,北京时间今天上午,路透社援引三位知情人士消息称,OpenAI 正在为 IPO 做准备,估值最高可能达到约 1 万亿美元(注:现汇率约合 7 1 万亿元人民币)。这次将是史上
热门专题
热门推荐
在新能源汽车领域,自主品牌长期占据主导地位,合资品牌曾一度被边缘化,甚至被部分消费者视为“杂牌”。然而,近年来合资品牌开始加速转型,逐渐适应中国市场的新能源需求。广汽丰田铂智3X、日产N7等车型凭借
10月31日消息,今天,小米汽车向大家汇报小米汽车开店新进展。10月新增22家门店,全国125城已有424家门店。11月计划新增17家门店,预计覆盖吉安、临汾、南阳、十堰、渭南、宜宾6座新城市。据了
AI赋能区块链在DeFi、安全与数据分析领域实现突破:1 在DeFi中,AI实现智能投顾、风险管理、流动性优化与跨链互操作性;2 在安全方面,AI提升智能合约审计、节点行为检测、零知识证明效率与链上身份认证;3 在数据应用中,AI推动链上洞察、资产定价、网络监测与反洗合规,全面增强区块链系统的智能化水平。
关于在vivo手机上获取应用的几点思考 前几天帮亲戚调试新买的vivo手机,遇到个挺有意思的情况。他想安装某个特定用途的应用,但在官方应用
保卫萝卜4胡桃夹子第七十二关是一个颇具挑战性的关卡。要顺利通关,需要精心规划布局,合理运用各种道具和炮塔。开局时,场上有一些初始的道具和炮塔。我们首先要利用好这些资源,在怪物出现的





