TML 成立7个月首发声：揪出大模型随机元凶，开源方案终结 LLM 推理乱象

首页/科技数码/文章详情

TML 成立7个月首发声：揪出大模型随机元凶，开源方案终结 LLM 推理乱象

时间：2025-09-11 18:01

用 AI 检查同一份合同，两次给出的风险提示可能不同；向智能客服咨询同样问题，得到的答案可能不一致。这种随机性是 AI 行业长期存在的技术痛点。 OpenAI 前 CTO Mira Mur

用 AI 检查同一份合同，两次给出的风险提示可能不同；

向智能客服咨询同样问题，得到的答案可能不一致。

这种随机性是 AI 行业长期存在的技术痛点。

OpenAI 前 CTO Mira Murati 创办的 Thinking Machines Lab（简称 TML），正针对这一问题开展研究，其最新进展或为 AI 可靠性提升提供解决方案。

Thinking Machines Lab：未出产品已获资本关注

2025 年 2 月，Mira Murati 离开 OpenAI 四个月后，正式成立 Thinking Machines Lab。

该公司成立七个月，未发布任何产品，已完成 20 亿美元种子轮融资，估值达 120 亿美元。

领投方为硅谷风投 a16z，英伟达、AMD、思科等科技企业参与投资。

TML 团队共 30 人，三分之二来自 OpenAI，包括 OpenAI 联合创始人 John Schulman、前研究副总裁 Barret Zoph，二人均为 ChatGPT 核心技术开发者。

AI 安全专家 Andrew Tulloch 拒绝扎克伯格 15 亿美元回聘邀请，选择加入 TML。

Murati 创办 TML 的思路，与她在 OpenAI 期间的思考一致。

推动 ChatGPT 面向公众开放时，她发现 AI 技术越强，越需要解决可靠性问题。

Murati 在一次采访中表示，当前 AI 的输出结果存在不可控性。

TML 的使命不是追求更强模型，而是填补 AI 能力与人类需求间的差距。

AI 随机性的核心成因：批次处理引发计算差异

9 月 11 日，TML 在研究博客 Connectionism 发布首篇文章，明确 AI 随机性的成因。

此前部分观点认为，AI 对同问题输出不同答案是因 “随机种子” 设置差异，但 TML 研究显示，核心原因是 “批次处理” 技术细节。

更为关键的发现是，并行计算策略的变化，才是导致输出不确定的根本原因。

简单来说，当服务器处理大家的 AI 请求时，会把不同用户的需求打成大小不一的 “包裹” 进行处理。

而不同的批量大小、序列长度，还有 KV 缓存状态，会影响 GPU 内核的选择策略，进而改变计算执行顺序。

再加上计算机算小数的时候，类似 (a+b)+c 和 a+(b+c) 这样的计算，结果可能会有细微差别。

这些小差别在 AI 的神经网络里会像滚雪球一样越积越大，最后就导致同一个问题，AI 给出的答案却不一样。

TML 的解决方案：批次不变内核实现结果稳定

为了攻克这个难题，TML 团队拿出了 “批次不变内核” 这个创新方案。

简单来说，这个方案规定，不管处理的数据量大小、怎么分组，AI 系统里的关键计算部分，都得按照同样的步骤算出一样的结果。

针对 AI 模型中特别重要的 RMSNorm、矩阵乘法、注意力机制这三个模块，团队也设计了专门的优化办法，就是为了让 AI 不管遇到多少数据，计算流程都能保持稳定。

光有方案还不够，团队用有 2350 亿参数的 Qwen3-235B-A22B-Instruct-2507 模型做了严格测试。

以前的 AI 系统，同样的问题每次算出来的答案都不太一样，测 1000 次能得到 80 种不同结果。

但用了 batch-invariant 方案后，只要输入的内容一样，AI 每次输出的答案就完全相同，这在大语言模型发展史上尚属首次。

刚开始，新方案让 AI 计算速度慢了将近一半，但经过优化后，现在这点性能损耗已经在可接受范围了。

这项技术突破对关键行业的实际价值尤为显著。

在医疗诊断场景下，AI 辅助系统若对同一患者的 CT 影像产生前后矛盾的分析结论，极易干扰临床医生的诊疗决策；

金融风控领域同样面临挑战，AI 模型对相同贷款申请的评估结果波动，不仅可能引发风险误判，更可能触及合规红线。

TML 研发的新技术，就像给高风险行业的 AI 上了一把 “安全锁”，让它们用起来更靠谱、更让人放心。

不同行业的突破点：让AI决策不再“玄学”

Murati 目前带领的团队研究方向，和大部分 AI 企业不太一样。

在其他公司都在努力扩大模型规模，思考如何让 AI 能生成更多东西的时候，TML 反其道行之，研究怎样才能让 AI 的表现更稳定，让大众能理解它是怎么 “思考” 的。

这其实和 Murati 在 OpenAI 的工作经历有关，

作为人工智能领域的从业者，她既了解大模型的强大之处，也明白技术失控的风险后果。

团队的研究博客取名 "Connectionism"（联结主义）颇有深意，这是 1980 年代研究神经网络与生物大脑相似性的 AI 子领域名称。

Murati 想通过这些基础研究，把 AI 的 “底细” 摸清楚，让大家不再觉得 AI 像个神秘莫测的 “黑匣子”。

目前，TML 还没有公布具体的商业化计划，但金融和医疗行业已经表现出浓厚兴趣。

让机器思维具备可预测性，虽不涉及 AI 能力边界的突破，但对 AI 技术安全融入社会至关重要。

Murati 表示，行业不需要 AI 输出不可控的结果，而是需要 AI 输出稳定可靠。

来源：https://36kr.com/p/3462089870611848

上一篇RTX 50 SUPER系列延后发布，性能升级引关注 下一篇刚刚，ChatGPT支持MCP了，一句Prompt即可全自动化

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-06

国内首批智能体国标发布，AI应用从验证迈向规模化

国内首批智能体国家标准正式发布，这一消息在人工智能领域引发广泛关注。简单来说，这份标准为智能体技术确立了 "定义 "，明确了分类体系、技术指标与测试方法，相当于为整个行业制定了统一规范。这意味着什么？这意味着智能体技术将告别 "野蛮生长 "，迎来标准化发展，加速其在工业制造、智慧服务、智能家居等场景的落地应

科技数码 · 2026-07-06

微星40周年限量游戏本开售 5090+96GB 55999元起

值得关注的是，微星在成立40周年之际，特别推出了限量典藏版机型——泰坦18 Ultra龙魂典藏版2026款游戏本，已于昨日零点正式开售，官方定价为55999元。此外，部分地区还可叠加国家补贴，实际到手价可低至54499元。作为40周年专属纪念款，其外观设计自然独具匠心。机身正面采用金属蚀刻与阳极氧

科技数码 · 2026-07-06

墨刀原型强调交互高保真真机演示，产品流程从草图到协作评审

原型工具究竟在解决什么问题？这个问题其实很值得探讨。不少人听到“原型设计”，第一反应往往是绘制几张静态页面、添加几个页面跳转链接，但实际的产品流程远比这复杂。墨刀在“墨刀原型”的官方说明中，将重心放在原型设计、交互、高保真和真机演示这几个核心能力上。换句话说，它并不满足于让团队只输出页面静态图，而是

科技数码 · 2026-07-06

保时捷Taycan最后两款旅行车宣告停产

保时捷正式为两款纯电旅行车系列画上终止符。据海外汽车媒体motor1报道，Taycan Sport Turismo与Taycan Cross Turismo已经停止生产。随着2027款全新纯电Taycan的推出，这两款衍生车型将从产品阵容中完全移除。保时捷官方确认，此次停产的根本原因非常明确——实际

科技数码 · 2026-07-06

墨刀白板助力市场洞察需求梳理，多工具看板服务产品评审共创

首先提出一个关键判断：在产品经理的工作流程中，原型工具通常是最为熟悉的环节。此次，墨刀将“墨刀白板”功能的定位明确聚焦在市场洞察、产品规划与需求梳理三大领域——即进入具体原型设计之前的上游协作空间。与原型工具不同，白板不侧重页面与交互细节。它更适合承载早期“发散—整理—讨论—共创—评审”的过程。简