游乐游手机版
首页/科技数码/文章详情

AI研究者解析AI分词:从Token到词元的演进与分位量化

时间:2026-03-27 20:52
  日前,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏明确将Token称为“词元”,并将它定义为“结算单位”。作为一名长期跟踪人工智能发展的研究人员,我一下子就捕捉到这个表述的变化。这个


  日前,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏明确将Token称为“词元”,并将它定义为“结算单位”。作为一名长期跟踪人工智能发展的研究人员,我一下子就捕捉到这个表述的变化。这个变化背后的分量很重。

  它意味着,我国人工智能正在从“能力布局”迈向“能力结算”,从模型好不好,转向智能服务如何计量、如何定价、如何交易。过去,很多企业采购软件,买的是许可证、账号数和部署周期;如今,越来越多企业采购的,是可调用、可核算、可复盘的智能服务量。

  词元,正是那个把智能服务折算成成本与价值的刻度。真正值得重视的,不只是一个译名,而是一个计量体系正在成形。

  数据显示,2024年初,中国日均词元调用量为1000亿;到2025年底,跃升至100万亿;到2026年3月,已突破140万亿,两年增长超过1000倍。自2026年1月底以来,有的模型企业创下20天收入超过2025年全年总收入的业绩纪录。

  短短两组数据,已经足以说明一个事实:词元不再只是技术指标,而正在成为人工智能商业化速度、应用深度和产业景气度的重要观测值。

  中文语境下,给Token定名为“词元”,格外有意义。它比“词”更准确,也比“令牌”“标记”更贴近语言处理场景。特别是强调了“基础单元”这个属性,既方便公众理解,也有助于产业、媒体和政策口径统一。

  但如果把2026年3月23日看成“词元”横空出世的时刻,也并不准确。事实上,Token并不是大模型爆红后才临时冒出来的新词。

  往前追溯,在学理脉络上,它可追溯至20世纪初研究者提出的type-token区分,随后进入语言学、计算语言学和自然语言处理领域,成为文本处理的基础概念。在中文规范体系,2018年已有计算机学科术语规范工具书,将相关场景下的Token译为“词元”。

  词元本质上是大模型处理信息的最小信息单元。人类说出一句话之后,模型要先把文本切分成词元,再把词元映射成编号,随后才能完成关联、推断和生成。

  这也是为什么同样一句中文,在不同模型里,词元数量往往并不相同。切分规则不同,成本就不同,速度就不同,可容纳的上下文长度也会不同。

  为何词元调用量快速攀升到140万亿?答案不是简单的“聊天变多了”,而是应用形态变了。对话应用消耗词元,长流程任务更消耗词元,调用工具、读取文档、连续规划、多轮反馈,同样都要反复吃进上下文、生成新输出。表面看,用户只是让模型“帮我做件事”,而系统内部,实际上是一次次高密度的信息拆分、调用和结算。

  正如刘烈宏在同一场演讲中所说的:人工智能正从“对话”走向“决策执行”,智能体正在驱动中国大模型应用规模爆发式增长。

  另一方面,词元调用增长越快,越说明数据供给体系正在跟上模型推理与应用消耗的节奏,也说明数据、模型、场景与商业闭环开始贯通,“词元经济”雏形正在显现,“数据供给—价值释放”的良性循环已初现端倪。

  但词元多,并不自动等于智能强。

  我在和企业交流时,常会碰到一种误解:是不是词元消耗得越多,模型就越聪明、答案就越好?

  事实并非如此。词元更像水表和电表,负责记录消耗,不负责保证质量。真正决定结果的,仍然是模型能力、数据质量、任务设计和提示组织方式。

  一句话:没有高质量数据,词元只是空转;没有合适场景,再便宜的词元也难以转化出真正的生产力。

  词元像是一块很小的砖,却可能正在垫高一个时代的门槛。很多人第一次听见“词元”时,会觉得它抽象、陌生。但从此刻起,词元正像“字节”“流量”“千瓦时”那样,成为普通人必须逐步理解的新单位。这也意味着人工智能开始被纳入更成熟的经济叙事。


  2025年8月28日,参展商与观展者在2025中国国际大数据产业博览会会场交流城市数智化实践情况。新华社记者陶亮 摄

  我第一次强烈意识到词元的这种叙事改变,不是在实验室,而是在一张预算表前。

  前段时间,我和几位企业负责人讨论大模型接入方案。大家谈完模型能力、幻觉率、知识库召回率,财务负责人忽然指着一行费用问我:为什么这套系统不是按账号数收费,也不是按调用次数收费,而是按“月度词元消耗量”核算?

  那一刻,我意识到,词元已经像工业时代的度电、互联网时代的流量一样,成为企业理解人工智能时代“成本”的新度量衡。它不只服务于技术研发,也会越来越多地出现在预算表、采购单、报价单和监管语境里。

  我们当然不能把一个时代的变化,全部压缩进一个术语里。但有些时候,一个术语的正式定名,恰恰标志着一个产业阶段已经悄然切换。今天的词元,也许就站在这样的节点上。

  等到更多人读懂词元,人工智能的落地方式也会被重新理解。以后再听到“这个模型很费词元”“上下文又超了”“本月词元预算不够了”时,我们不妨少一点陌生感。这也在提醒我们:人工智能已经不只是在展示聪明,它正在像水、电、网络和云资源一样,被精确计量,被持续调度,被大规模交易。 

  真正变化的,也从来不只是一个中文名字。(作者系赛迪研究院人工智能研究中心副研究员钟新龙)

来源:https://www.163.com/dy/article/KP28LTM005346RC6.html
上一篇蔚来李斌:纯电增长潜力巨大,销售网络将覆盖超210城 下一篇知乎衰落背后:谁还在乎曾经的答案?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。