首页 游戏 软件 资讯 排行榜 专题
首页
AI
讯飞星火X2硬核亮相:行业深度升级,神仙打架+1

讯飞星火X2硬核亮相:行业深度升级,神仙打架+1

热心网友
57
转载
2026-02-12

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

今天,国产大模型再次迎来硬核进阶!

科大讯飞小年放出推理王炸——星火大模型X2。

什么概念呢?从星火X1.5到星火X2,仅仅间隔3个月,推理性能直接飙升50%~

不仅快,而且猛。更重要的是,完全基于国产算力。



一方面,模型通用能力突出,Benchmark评测稳居行业一流水平,即使是和GPT-5.2、Gemini-3-Pro这些国际顶尖模型同台竞技也毫不逊色。

尤其是在数学计算、逻辑推理等核心能力上表现亮眼;同时130多种语言综合能力依旧稳稳在线,继续保持“国家队”水准。



另一方面,星火X2将升级的重点放在了场景落地上。

依靠深度优化的算法、高质量垂域数据和行业专家的参与,三位一体推动行业大模型更进一步,为各行各业提供更精准、更具实操性的支持。

正如科大讯飞董事长刘庆峰在1024开发者节所说——做更懂你的AI,满血归来的星火X2现在用通用底座+行业专才双轮驱动,再次印证了其在国产大模型赛道的实践底气。

通用能力全面升级

星火大模型作为讯飞AI架构的底层基石,按照惯例,每一次升级,都有着显著的能力跃迁。

这一次更甚:直接将深度推理训练效率再度提升50%。

众所周知,随着Scaling Laws边际效益递减,越到后期,大模型性能提升就越难。即使是1%的能力跃迁,都意味着算力和算法的指数级倍增。

而在行业普遍面临增长瓶颈的当下,星火X2能够实现50%的性能跃迁实属不易。

其背后释放的信号,比数字本身更值得深思,这透露出科大讯飞在模型核心架构和技术上有了更深层次的突破。

具体先看核心能力对比。

横向对比来看,星火X2 Thinking的各项评分已经稳居国产第一梯队,在多个维度上也与GPT-5.2 (xhigh)和Gemini-3-Pro非常接近。

其中,在多语言和翻译能力上显著优于友商模型,在数学和逻辑推理上也紧随GPT和Gemini其后。



再看星火X2在高难度基准测试中的表现,可以说含金量杠杠的。

比如在AIME 2025测试中,星火X2斩获95.7分,仅次于GPT-5.2 (xhigh),展现出其处理竞赛级数学的顶尖能力。

在MMLU Pro里,星火X2的87.3分不仅在国产模型中夺冠,且与GPT-5.2持平,说明其知识广度和深度已达国际一流水准。

在代表未来方向的智能体维度上,星火X2也是再度领跑国产模型,验证了它在理解复杂指令和调用工具方面的进阶。



总的来说,星火X2在数据上的亮眼表现,不仅彰显了讯飞在数学和逻辑推理领域的领先地位,更标志着其通用智力已足以比肩国际顶尖模型。

接下来咱们还是实测见真章。

先来一道去年11月哈佛-麻省理工数学锦标赛(HMMT)里的英文题目试试水~

之所以选择这个题目,一则是避免数据污染,题目比较新,能够避免模型“见”过该题目;其二是HMMT是全球难度最高的数学竞赛之一,能够更好地考验星火X2的即时逻辑推理能力。

A positive integer n is imbalanced if strictly more than 99 percent of the positive divisors of n are strictly less than 1 percent of n. Given that M is an imbalanced multiple of 2000, compute the minimum possible number of positive divisors of M.



果不其然非常出色,星火X2迅速给出了详细的解答过程和正确答案。换言之,它彻底吃透了英文数学题目的底层逻辑,而非简单依赖中文语境。



再试试西班牙语:



同样也是流畅给出了正确结果。



那么它是如何做到的呢?

首先,星火X2在模型架构上继承了星火X1.5的MoE稀疏架构,参数同样为293B。

但与之不同的是,在星火X1.5的基础之上,星火X2结合权重量化、低精度KVCache、VTP(Virtual Tensor Parallel)、分层通信进行了针对性技术创新:

训推采样校准强化学习算法:

在大模型,尤其是MoE架构中,往往存在训推分布不一致的问题,这会导致模型在训练阶段学到的规律无法直接适用到实际推理应用中,甚至会出现模型性能坍塌。

为此,星火X2提出训练与推理概率重采样自适应校准算法,让算法能够根据训练的实时进度,自动调整校准力度,确保专家模型能够时刻保持逻辑闭环。

递归式高难数据合成方法:

在模型训练中,由于深度推理数据极度匮乏,星火X2专门设计了多轮迭代式推导的数据合成方案。

通过多轮迭代和递归修正,能够最终形成一套从问题到正确推导过程的高质量语料,完成对模型深度推理准确率的提升。

多阶段RL高吞吐采样方法:

在突破国产算力瓶颈上,星火X2设计了P/D(Prefill/Decoder)两阶段分离的多阶段推理采样方案。

他们将大模型推理过程中物理特性完全不同的两个阶段——Prefill(预填充)和Decoding(解码),从硬件执行层面进行彻底分离,直接解决了国产化平台在高吞吐采样下的效率干扰,训练效率提升10%。

服务高性能部署优化算法:

这一步是让星火X2推理性能大幅度提升的关键。

通过对模型进行轻量化压缩,可实现单台服务器内部的批量专家并行,也就是单机大EP并行部署。

充分解决了国产算力平台的关键瓶颈——轻量化落地和高效推理,让模型不仅能跑,还能跑得快。

带动行业大模型实现突破

除了通用能力的全面释放,星火大模型此次升级的重中之重,在于深度场景化。

这是科大讯飞从星火大模型诞生之初,就始终强调的核心逻辑:要在发展技术力的同时,更注重技术与用户体验、场景落地的结合。


图片源自智能超参数

具体体现在医疗、教育、汽车和智能体四个方面:

赋能医疗领域,持续保持业界领先

依托星火X2底座的算力优化与推理跃迁,星火医疗大模型的核心能力也得到了全面进化,继续保持行业翘楚。

在基于居民健康档案的智能健康分析、智能报告解读、运动饮食建议、辅助诊疗、智能用药审核等高精度核心场景中,星火大模型更是显著优于GPT-5.2和另外两款国产大模型,树立了医疗专业大模型的新标杆。



此外,星火医疗大模型也已率先通过上海市医疗大模型应用检测验证中心评测验证。

这是国内首个专门针对医疗大模型的评测平台,代表了目前国内最顶尖、最权威的标准,说明讯飞已经在医疗AI合规上走到了行业前列。

而在面向用户的C端,“讯飞晓医”APP也同步完成升级,包括多轮主动问诊、多轮咨询问答、问用药、检查检验单解读、体检报告单解读等多任务。



可见,“讯飞晓医”在星火X2的加持下,已经成为了普通用户可用的且能力业界顶尖的数字医生。

赋能教育领域,实现个性化教学

而在教育领域,星火大模型也让原先基础的搜索工具,进化为一对一特级老师。

其率先上线错因贯穿的个性化学习能力,能够通过你的整张卷子、整道题的解题思路,精准捕捉到你的知识点黑洞,比如是定理没记牢呢,还是运算粗心大意了。

同时它能够像阅卷老师一样,在错误之处精准批注,实现步骤级批改。

这种模式下,AI更符合苏格拉底式的教学理念,也就是通过不断提问,引导学生自己思考并得出结论。

它不是直接告诉学生答案,而是教会学生如何进行思维拆解、如何自己悟出来。而这类启发式讲解,也是未来AI教育的主导路线。



体现在硬件上,就是科大讯飞的AI学习机。它在1对1精准学、答疑辅导和互动课等多功能上,持续领先同行业,能够帮助学生更精准地提高学习效率,以及增强学习兴趣。

赋能汽车领域,全面升级智能座舱交互系统

与此同时,星火大模型在多尺寸中小模型上也同步进行了升级,并精准将其应用在汽车智能座舱交互系统中。

过去用户必须说出精准指令才能实现交互,比如调低空调至24度。但如果说“我有点冷”或者“风太大”这类模糊指令,系统往往只会回复“对不起,我没有听懂”。

但现在这个问题随着星火X2的到来迎刃而解。

模型在人人/人机对话判断、模糊意图理解、高情商回复等方面的交互体验显著提升,尤其是在模糊意图上实现了跨越式突破,终于具备了实际可用的语义联想和推理能力。



赋能智能体平台和精品智能体新升级

另外值得关注的是,智能体的突破。

星火X2从根本上解决了智能体在工作环境中长期以来的痛点,在长时复杂任务规划、多工具组合调用以及长上下文等方面均实现了显著提升。

其中星辰Agent平台,整合了语音识别、语音交互、图像理解等百余种能力,集成超130万个智能体,在星火X2帮助下,进一步强化了智能体在思考和执行上的表现,更能支撑起复杂的企业场景。

比如面向企业采购场景的招采智能体,核心场景效率提升超3倍,还能像搭积木一样定制专用智能体,开发时间从原先的几天直接缩短至分钟级。

目前讯飞开放平台已正式上线星火X2 API,平台新注册开发者可直接领取100万Tokens免费额度。

在讯飞星火网页版和APP均可体验,星火APP 5.2.0新版本也同步上线~

国产算力突围下的讯飞星火

总的来说,星火X2更像是一块国产算力的试金石。

在过去几年里,国内AI行业发展受限的根本原因就在于算力。算力被扼住脖子后,模型性能始终无法突破国际一流水平。

而当所有人都在质疑国产算力时,讯飞咬牙给它做成了。而且是国内主流大模型中,唯一基于全国产算力训练的通用大模型。



模型实现了完全自主可控,一是算力自主,模型的训练和推理过程完全基于全国产算力平台;二是技术自主,整个模型框架均由讯飞自研,在此基础上构建起特有的研发生态。

核心原因就在于讯飞走了最务实的一条路:不再单纯追求实验室里的高分,而是依据自己深耕多年的行业经验一举扎根在最难的场景应用中。

讯飞顺势提出了“1+N”战略,即1个通用底座大模型,和N个底座大模型赋能的多领域行业大模型,然后通过软硬一体化,让大模型搭载到硬件上,以看得见摸得着的方式迅速落地转化。

简单来说,讯飞的差异化路径就是底座自主、硬件协同、场景为王。

而星火X2反向证明了这条路值得继续探索,即使是在算力重压下,单靠算法创新和场景优化也能补足当中的差距,换来中国AI在全行业的先发优势。

显然,国产大模型已步入应用红利期,而讯飞率先摘到了果实。

来源:https://www.163.com/dy/article/KLHA9OT10511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

具身智能研发框架Dexbotic重塑机器人开发流程
AI
具身智能研发框架Dexbotic重塑机器人开发流程

近日,开源具身智能原生框架Dexbotic宣布正式支持以RLinf作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着VLA模型研发中长期存在的「SFT与RL割裂」问题,正在被真正打通。 这是一种典型的「乐高式协作」:双方不强行Fork、不粗暴揉合代码,而是保持清晰边

热心网友
05.13
RMS-MoE模型通过检索记忆优化专家路由调度效率
AI
RMS-MoE模型通过检索记忆优化专家路由调度效率

随着大模型参数规模不断增长,混合专家(Mixture-of-Experts, MoE)架构因其稀疏激活特性,成为平衡模型性能与计算开销的主流方案。然而,在实际的Web级应用部署中,一个关键挑战日益凸显:传统MoE的路由机制通常是“无记忆”的。 试想,在搜索引擎、智能问答或多轮对话等高并发场景下,用户

热心网友
05.12
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程初学者入门指南与核心思维解析
编程语言
编程初学者入门指南与核心思维解析

引言 编程,是一门实践科学。这意味着,学习它的最佳方式就是动手去敲代码。但这是否意味着,我们可以因此轻视理论的学习呢? 入门编程 如果你去各大技术社区提问“该如何入门编程”,五花八门的答案会瞬间涌来。 不过,仔细梳理一下,无外乎以下几种流派: 学院派 他们推荐从C语言入手,并辅以数据结构、操作系统等

热心网友
05.07
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”
科技数码
Agent 需要“油表”和“刹车”:一篇论文,扒光了 Agent 的“糊涂账”

想象一下这个场景: 你让 AI Agent 帮你修一个代码 Bug。它打开项目,读了 20 个文件,改了改,跑了一下测试,没过,又改,又跑,还是没过……来回折腾了十几轮,终于——还是没修好。 你关掉电脑,松了口气。然后收到了 API 账单。 上面的数字可能让你倒吸一口凉气——AI Agent 自主修

热心网友
05.06

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14