首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI研究者解析AI分词:从Token到词元的演进与分位量化

AI研究者解析AI分词:从Token到词元的演进与分位量化

热心网友
92
转载
2026-03-27


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

  日前,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏明确将Token称为“词元”,并将它定义为“结算单位”。作为一名长期跟踪人工智能发展的研究人员,我一下子就捕捉到这个表述的变化。这个变化背后的分量很重。

  它意味着,我国人工智能正在从“能力布局”迈向“能力结算”,从模型好不好,转向智能服务如何计量、如何定价、如何交易。过去,很多企业采购软件,买的是许可证、账号数和部署周期;如今,越来越多企业采购的,是可调用、可核算、可复盘的智能服务量。

  词元,正是那个把智能服务折算成成本与价值的刻度。真正值得重视的,不只是一个译名,而是一个计量体系正在成形。

  数据显示,2024年初,中国日均词元调用量为1000亿;到2025年底,跃升至100万亿;到2026年3月,已突破140万亿,两年增长超过1000倍。自2026年1月底以来,有的模型企业创下20天收入超过2025年全年总收入的业绩纪录。

  短短两组数据,已经足以说明一个事实:词元不再只是技术指标,而正在成为人工智能商业化速度、应用深度和产业景气度的重要观测值。

  中文语境下,给Token定名为“词元”,格外有意义。它比“词”更准确,也比“令牌”“标记”更贴近语言处理场景。特别是强调了“基础单元”这个属性,既方便公众理解,也有助于产业、媒体和政策口径统一。

  但如果把2026年3月23日看成“词元”横空出世的时刻,也并不准确。事实上,Token并不是大模型爆红后才临时冒出来的新词。

  往前追溯,在学理脉络上,它可追溯至20世纪初研究者提出的type-token区分,随后进入语言学、计算语言学和自然语言处理领域,成为文本处理的基础概念。在中文规范体系,2018年已有计算机学科术语规范工具书,将相关场景下的Token译为“词元”。

  词元本质上是大模型处理信息的最小信息单元。人类说出一句话之后,模型要先把文本切分成词元,再把词元映射成编号,随后才能完成关联、推断和生成。

  这也是为什么同样一句中文,在不同模型里,词元数量往往并不相同。切分规则不同,成本就不同,速度就不同,可容纳的上下文长度也会不同。

  为何词元调用量快速攀升到140万亿?答案不是简单的“聊天变多了”,而是应用形态变了。对话应用消耗词元,长流程任务更消耗词元,调用工具、读取文档、连续规划、多轮反馈,同样都要反复吃进上下文、生成新输出。表面看,用户只是让模型“帮我做件事”,而系统内部,实际上是一次次高密度的信息拆分、调用和结算。

  正如刘烈宏在同一场演讲中所说的:人工智能正从“对话”走向“决策执行”,智能体正在驱动中国大模型应用规模爆发式增长。

  另一方面,词元调用增长越快,越说明数据供给体系正在跟上模型推理与应用消耗的节奏,也说明数据、模型、场景与商业闭环开始贯通,“词元经济”雏形正在显现,“数据供给—价值释放”的良性循环已初现端倪。

  但词元多,并不自动等于智能强。

  我在和企业交流时,常会碰到一种误解:是不是词元消耗得越多,模型就越聪明、答案就越好?

  事实并非如此。词元更像水表和电表,负责记录消耗,不负责保证质量。真正决定结果的,仍然是模型能力、数据质量、任务设计和提示组织方式。

  一句话:没有高质量数据,词元只是空转;没有合适场景,再便宜的词元也难以转化出真正的生产力。

  词元像是一块很小的砖,却可能正在垫高一个时代的门槛。很多人第一次听见“词元”时,会觉得它抽象、陌生。但从此刻起,词元正像“字节”“流量”“千瓦时”那样,成为普通人必须逐步理解的新单位。这也意味着人工智能开始被纳入更成熟的经济叙事。


  2025年8月28日,参展商与观展者在2025中国国际大数据产业博览会会场交流城市数智化实践情况。新华社记者陶亮 摄

  我第一次强烈意识到词元的这种叙事改变,不是在实验室,而是在一张预算表前。

  前段时间,我和几位企业负责人讨论大模型接入方案。大家谈完模型能力、幻觉率、知识库召回率,财务负责人忽然指着一行费用问我:为什么这套系统不是按账号数收费,也不是按调用次数收费,而是按“月度词元消耗量”核算?

  那一刻,我意识到,词元已经像工业时代的度电、互联网时代的流量一样,成为企业理解人工智能时代“成本”的新度量衡。它不只服务于技术研发,也会越来越多地出现在预算表、采购单、报价单和监管语境里。

  我们当然不能把一个时代的变化,全部压缩进一个术语里。但有些时候,一个术语的正式定名,恰恰标志着一个产业阶段已经悄然切换。今天的词元,也许就站在这样的节点上。

  等到更多人读懂词元,人工智能的落地方式也会被重新理解。以后再听到“这个模型很费词元”“上下文又超了”“本月词元预算不够了”时,我们不妨少一点陌生感。这也在提醒我们:人工智能已经不只是在展示聪明,它正在像水、电、网络和云资源一样,被精确计量,被持续调度,被大规模交易。 

  真正变化的,也从来不只是一个中文名字。(作者系赛迪研究院人工智能研究中心副研究员钟新龙)

来源:https://www.163.com/dy/article/KP28LTM005346RC6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变
科技数码
从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变

从“动口”到“动手”:OpenClaw如何将AI推入“执行时代”? 文|洞见新研社 3月的最后一周,OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众,主角换成了来自蚂蚁、天融信、360等机构的安全研究员,他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。

热心网友
04.22
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍
业界动态
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍

程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时10倍额度 北京时间4月10日凌晨,OpenAI终于落下了重度用户期盼已久的那只靴子:正式推出每月100美元的全新订阅方案。 至此,OpenAI的商业化版图已经清晰地划分为四个核心层级: ·免费版(接入广告) ·每月8美元的G

热心网友
04.22
国内首款“养虾本”来了
科技数码
国内首款“养虾本”来了

2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率

热心网友
04.14
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”
科技数码
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”

AI行业迎来关键转折:从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期,国泰君安国际大幅上调其目标价至245港元 股。多重因素驱动下,迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。 中国AI实现弯道超车:成本优势构筑核心壁垒 全球

热心网友
04.14
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话
AI
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

语言大模型有哪些特点呢
业界动态
语言大模型有哪些特点呢

语言大模型 提到“语言大模型”这个词,大家可能已经不陌生了。它本质上是一类基于深度学习算法,通过海量自然语言数据“喂养”出来的超级神经网络。这些模型在理解和生乘人类语言方面,展现出了惊人的能力。那么,它的核心特征究竟有哪些呢?我们来逐一拆解。 强大的语言生成和理解能力 这无疑是其最引人瞩目的光环。一

热心网友
04.23
数据挖掘的过程包括哪些步骤
业界动态
数据挖掘的过程包括哪些步骤

数据挖掘的完整流程:从问题定义到价值落地 谈及数据挖掘,很多人的第一反应是复杂的算法和代码。但数据挖掘的真正魅力,远不止于此。它应该是一套严谨、系统的方法论,驱动我们从未被充分利用的数据中提取出能指导行动的真知。这个完整的过程,环环相扣,缺一不可。 第一步:定义问题——找准起点,明确方向 万事开头难

热心网友
04.23
企业在RPA方向应该注意的要点
业界动态
企业在RPA方向应该注意的要点

正确认识RPA技术 智能时代的浪潮已经到来,新技术的涌现和发展是不可逆转的趋势。对于财务人员而言,首先要明确一点:RPA技术本质上是一种按预设程序执行重复性业务的信息处理工具。它不具备人类的思维能力、应变能力,更谈不上预测能力和职业判断。换个角度看,这其实是个好消息——财务人员完全可以成为这项技术的

热心网友
04.23
RPA如何处理文本分类任务
业界动态
RPA如何处理文本分类任务

RPA如何处理文本分类任务?深度解析其优势、挑战与未来 提到RPA(机器人过程自动化),都知道它擅长处理规则明确的重复性任务。但如果任务里混入了大量非结构化的文本信息呢?这就不得不请出它的一个重要搭档——文本分类技术。作为自然语言处理的基础任务,文本分类能将这些散乱的文本数据自动归入预设的类别,为后

热心网友
04.23
自动化办公软件对企业有哪些帮助
业界动态
自动化办公软件对企业有哪些帮助

自动化办公软件:企业效率提升的关键引擎 在当今快节奏的商业环境中,自动化办公软件早已不再是一个可选项,而是企业提升竞争力、实现高效运营的标配工具。它的核心价值在于,能够系统性地将人力资源从大量重复、繁琐的事务中解放出来,从而聚焦于更有创造性、战略性的工作。最终,它不仅能显著降低运营成本、提升工作质量

热心网友
04.23