OpenAI前CTO押注赛道,中国团队如何抢先布局AI下半场
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

机器之心发布
在大公司一路高歌猛进的 AI 浪潮里,小创业者和高校研究者正变得越来越迷茫。就连前段时间谷歌创始人谢尔盖・布林回斯坦福,都要回答「大学该何去何从」「从学术到产业的传统路径是否依然重要」这类问题。
AI,真的只是大公司的游戏吗?被算力掣肘的其他研究者、创业者,机会在哪里?在「强化学习」后训练引领「下半场」的当下,这个问题变得愈发重要。
好在,国内外都有专业团队在关心这个问题,比如前 OpenAI CTO Mira 创办的 Thinking Machines Lab,前段时间就推出了一个叫「Tinker」的产品,专注于解决后训练 Infra 的复杂性。
而在国内,一群由 95 后青年科学家组成的团队做出了足以对标甚至超越 Tinker 的竞品,成为世界第一家能够对标 Thinking Machines Lab 的公司
这个研究中心叫Mind Lab,是 Macaron AI 背后的实验室。1 月 1 日,他们发布了亮相以来的第一款产品——Mind Lab Toolkit(MinT)。这是一个用 CPU 的机器就能高效训练万亿参数模型的后训练平台,且成本优化了十倍,一天即可轻松完成一轮训练。此外,它比 Thinking Machines 更早实现了 1T LoRA-RL,是业界在万亿参数模型上进行高效强化学习的第一个成果。

如果你是 Agent 领域创业公司或高校顶尖实验室的成员,并且被算力限制了想象力,那你将是 MinT 的首批受益者。它的应用场景涵盖基础研究到垂直行业的广泛领域,已经在圈内做出了一些成果。
细看一下,Mind Lab 的创始团队也堪称豪华。创始人 Andrew 毕业于 MIT,目前担任深圳清华大学研究院的研发中心主任,代表工作有和姚顺雨合作的 Agent 微调的经典工作之一 FireAct。
首席科学家马骁腾博士则毕业于清华大学自动化系,常年深耕强化学习领域。团队成员来自清华、MIT、CMU等高校,并有OpenAI、DeepMind、Seed 等顶尖实验室的工作经历。
团队累计发表论文超 100 篇,总引用量超 3 万次
这样一个团队打造的 MinT,正以极致的工程效率,将 AI 下半场的入场券交还到每一位研究者手中。
预训练时代结束
AI 下半场开启
过去几年,预训练一直是 AI 领域的主旋律 —— 更大的模型、更多的数据、更长的训练周期。
如今,这一阶段已趋于饱和:开源社区已经拥有万亿参数级别的模型,能够编写代码、总结文档、通过标准化考试。
但当这些系统被部署到真实产品中,新的瓶颈开始显现。模型一旦完成训练,参数就被 ' 冻住 ' 了,不停重复着相同的错误,也无法适应不断变化的用户需求,实际使用效果只能靠抽卡。
强化学习,正是破局的关键。
DeepSeek R1 的发布更是向业界证明,强化学习能够带来惊人的泛化性和样本效率 —— 模型不再只是 “记住” 数据,而是学会了在复杂任务中进行推理。
在 Gemini、DeepSeek V3.2、Kimi K2 等多个前沿模型的技术报告中都反复强调:后训练仍是一片蓝海,强化学习还没看到天花板。
2026 年的主旋律,是后训练。
后训练时代的基础设施
强化学习这么重要,为什么没普及?答案是:算法太复杂,训练太不稳定。
为了解决这个问题,前 OpenAI CTO Mira 创立的 Thinking Machines 发布了 Tinker,定义了后训练 API 的新范式,迅速获得美国学界和硅谷创业公司的热捧。
在 OpenAI 经历了 Sam Altman 被解雇又回归的内部动荡后,Mira 选择离开,并迅速组建了一支 “梦之队”—— 核心成员包括 OpenAI 前研究副总裁 John Schulman、Lilian Weng 等业界顶尖人才。资本市场对这家公司的追捧堪称疯狂。2025 年 7 月,Thinking Machines 完成了硅谷历史上最大的种子轮融资 ——20 亿美元,估值120 亿美元
他们押注的,正是后训练赛道。2025 年 10 月,Thinking Machines 发布了首款产品 Tinker,12 月面向所有用户开放。如果说 OpenAI 定义了大模型的推理 API 范式,那么 Tinker 定义的就是模型的训练 API 范式,让所有模型训练共享。
Tinker 已经获得了学术界和工业界的广泛认可,成为了硅谷和美国顶尖高校的训练新范式。

Mind Lab 与 MinT
国产后训练基础设施的崛起
Tinker 在海外大火的同时,国内也涌现出了对标甚至超越的力量 ——Mind Lab 推出的 MinT(Mind Lab Toolkit)。
Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念,致力于让 AI 系统能够从真实世界的经验中不断成长。
在他们看来,当前大模型最大的问题是:训练完就 "冻住",无法从真实交互中持续学习进化。
MinT,正是为解决这个问题而生。
MinT 和 Tinker 是什么关系?可以从两个层面理解:
兼容性上,MinT 做到了模型够大够全、接口完全一致—— 与 Tinker API 完全兼容。这意味着使用 Tinker 的开发者可以几乎零成本地迁移到 MinT,享受国产基础设施带来的便利。
技术领先性上,MinT 不是简单的 “国产替代”。事实上,早在 2025 年 12 月 1 日,Mind Lab 就比 Thinking Machines 更早实现了 1T LoRA-RL,是业界在万亿参数模型上进行高效强化学习的第一个成果。
相关实现方案已经开源,并获得了Nvidia 最新转载
具体方案详见 Mind Lab 的技术报告:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus

MinT 解决了什么问题?
MinT 的核心价值可以用一句话说清:不论模型是1B还是1T,需要调度多少GPU,你只管数据和算法,基础设施的复杂工程全交给平台。
具体来说:用户只需在本地 CPU 机器上写几行 Python 代码,MinT 就会自动把计算任务分发到大规模 GPU 集群执行。集群调度、资源管理、容错恢复,这些让开发者和研究人员头疼的工程问题,统统由 MinT 搞定。切换不同的模型,只需修改代码中的一个字符串。
技术路线上,MinT 采用 LoRA 技术,使多个训练和推理任务可以共享同一计算资源池,从而显著降低成本。LoRA 在选择最优学习率的情况下,训练进程与全参数微调几乎完全一致,这为大规模高效后训练奠定了理论基础。
目前,MinT 已支持Kimi K2 Thinking(万亿参数级别的 MoE 推理模型)Qwen3-VL 系列视觉语言模型等前沿开源模型,并全面兼容 Tinker API。值得一提的是,MinT 还优先支持了π0 等具身 VLA 模型,这也体现出了中国公司在具身智能上的领先优势。

为什么需要 1T LoRA-RL?
强化学习被视为让大模型从 “背题” 走向 “推理” 的关键,但现实里有三大难题:训练不稳,小模型难以收敛,算力成本高。LoRA 提供了一条低成本路径,只训练少量低秩适配器即可显著提升下游任务表现,且在 RL/Agent 训练上几乎不损失性能。
Mind Lab 在 Kimi K2(万亿参数 MoE)上实现了端到端 LoRA 强化学习,带来三点突破
成本:仅用常规全参 RL 约 10% 的 GPU 资源,64 块 H800 即可完成训练。稳定性:奖励与任务成功率平稳提升,无灾难性发散;在 held-out 基准上既提升特定任务,又保持基座模型通用能力。系统:统一调度张量 / 流水线 / 专家 / 序列并行,针对 MoE 路由不均衡与通信压力做了专项优化。相关技术已贡献至 NVIDIA Megatron-Bridge 与火山引擎 verl 等开源项目。

为什么选择 MinT?
MinT 的产品设计围绕一个核心目标:把后训练和强化学习的门槛打下来。
验证成本上:MinT 允许开发者仅用 CPU 机器进行训练验证,告别配置 GPU 驱动和 OOM 的烦恼。这让团队可以在投入大规模 GPU 资源前,先低成本验证算法可行性。工程效率上:MinT 将采样、训练、回写与发布无缝串联,减少了工程拼装成本。并行策略、权重管理、optimizer state 管理、滚动训练、日志与可复现性等,都按工程标准打通。开发体验上:MinT 完全兼容 Tinker API,现有代码可快速适配,切换不同模型只需一行代码。目前已支持 Qwen、Kimi 等先进的开源大模型。迭代速度上:采用 LoRA-RL 技术让模型迭代周期从“按周” 缩短到 “按天”,真正服务于快节奏的产品开发需求。

谁是 MinT 最大的受益者?
第一批使用 MinT 的受益者,一定是 Agent 领域的创业公司和研究模型的高校顶尖实验室。
它们共同的特点是:掌握核心的数据和问题的设定。他们并非不了解前沿算法,而往往是被算力与训练框架难住了。
据 Mind Lab 正式介绍,目前 MinT 已经获得了顶尖高校和多个创业公司的认可,应用场景涵盖基础研究到垂直行业的广泛领域。
在学术机构方面:
清华大学人工智能学院黄高副教授团队(CVPR best paper 以及 NeruIPS best paper runner up 获得者)利用 MinT 开展了 RL 如何突破 Base model 知识边界的研究。上海交通大学副教授、上海创智学院全时导师蔡盼盼的 RoPL 实验室使用 MinT 在具身决策大模型和决策世界模型方面展开研究。
在行业应用方面:
硅谷创业公司Eigen AI合作探索运用 MinT 和 Data Agent 合成数据在 1T 模型上进行 agentic RL 训练。脑机接口公司姬械机利用 MinT 支持了他们的脑机接口 AgentBCI-Love,可以进行情感交互对话。瑞铭医疗利用 MinT 对医疗编码模型进行了基于 RL 的后训练,显著提升了医疗编码的准确率,并落地到数十家三甲医院
这些案例展现了 MinT 的通用性 —— 从基础研究到垂直行业,都能用。
中国团队引领后训练浪潮
如何让模型真正 “理解” 而非只是 “记住”,是众多创业团队与科研工作者共同面对的核心问题。强化学习被视为解决这一问题的关键路径,但其高门槛、高成本与不稳定性,长期限制了它在真实产品和中小团队中的落地。
2025 年,中国团队在开源模型上大放异彩。
2026 年,后训练将是中国 AI 弯道超车的下一个关键战场。
Mind Lab 选择了 LoRA-RL 这一技术路径,在超大规模模型上完成了万亿参数级别的探索与验证,再次证明了中国团队在前沿研究上的工程能力与原创实力。MinT 正是 Mind Lab 希望将这些研究成果系统化、工具化的产物 —— 让后训练和强化学习不再只属于少数头部机构,而是成为更多公司与实验室可以日常使用的能力。
这正是 Mind Lab 真正布局的方向:让先进研究转化为可用工具,让中国团队在模型后训练与强化学习这一关键技术浪潮中,实现自主可控。
可以访问以下链接了解更多:
Mind Lab 正式:https://macaron.im/mindlab相关文档:https://mint.macaron.im/doc
相关攻略
封面新闻记者 欧阳宏宇“对于人形机器人而言,规模化本身,便是最难攻克的技术课题之一。”3月30日,智元机器人联合创始人、总裁兼CTO彭志辉宣布,智元第10000台通用具身机器人远征A3已于3月28日
北京商报讯(记者 陶凤 王天逸)3月29日,无界动力对外宣布,夏中谱正式加入公司,担任联合创始人兼联席CTO,全面负责世界模型原生具身智能多模态大模型研发,以及数据闭环、云端仿真等核心技术基础设施建
新京报贝壳财经讯(记者陈维城)3月29日,无界动力宣布,夏中谱正式加入公司,担任联合创始人兼联席CTO,全面负责基于世界模型的原生具身智能多模态大模型研发,以及数据闭环、云端仿真等核心技术基础设施的
既要、又要、还要的 AI 管理难题。文丨 陈佳惠 管艺雯 贺乾明 程曼祺编辑丨程曼祺林俊旸提交离职引发一系列后续:阿里数名管理层连夜紧急讨论;第二天(3 月 4 日) Qwen 召开全员会;昨天(3
编辑:元宇 KingHZ【新智元导读】硅谷最离谱宫斗:Ilya因嫉妒Jakub的「震撼突破」而点燃OpenAI火药桶,奥特曼被董事会踢出,引发高管离职潮。算力不足和预算挤压是根源,2026年文件曝光
热门专题
热门推荐
绿联充电头爆炸事件全解析:用户险遭毁容,品牌售后方案为何引发不满? 近来,数码配件安全领域爆出一桩令人担忧的事件。知名3C品牌绿联旗下的一款USB充电器在正常使用过程中突然发生爆炸,火花飞溅,险些造成用户眼部受伤。这起安全事故迅速在社交平台发酵,引发广大网民对消费电子产品质量与售后服务的集中讨论。
红色沙漠中断的研究任务怎么做?完整通关流程与奖励详解 《红色沙漠》中的“中断的研究”是斯科拉斯敦学会势力任务线的关键支线之一。许多玩家在推进学会声望时都会遇到这个任务,本文将为你整理最新、最全的任務攻略,助你顺利完成并获取丰厚回报。 红色沙漠中断的研究任务有哪些 一 任务基本信息与前置要求 任务类
从通信到算力:商业卫星的「百万颗」狂飙之路与星空危机 近期,全球天文学界向美国联邦通信委员会(FCC)提交的一份联合意见书,引发了巨大震动。细看署名便可感知其分量——这份文件由美国天文学会(AAS)牵头,联合了国际天文学联合会(IAU)、英国皇家天文学会(RAS)、欧洲南方天文台(ESO)等几乎所有
iPhone 18系列全面前瞻:性能巨变下的取舍与市场战略新布局 最新产业链动态显示,下一代iPhone 18标准版很可能在外观设计上延续前代风格,仅对屏幕尺寸进行小幅优化。这一消息迅速引发科技爱好者热议,许多用户纷纷评论:苹果在创新节奏上似乎再次进入“挤牙膏”模式。 回顾去年亮相的iPhone 1
龙胤立志传先天功怎么获得 一、先天功获取途径总览 作为一本标注为“江湖”的无门派顶级橙色内功心法,《先天功》的获取方式多样,能满足不同阶段玩家的需求。总体而言,主要可通过以下四个核心途径入手: 首推 皇家宝库奇遇,此途径充满机遇,有机会在探索宝库深处时直接获得。其次是 拍卖行竞拍购买,只需备足银两,





