游乐游手机版
首页/web3.0/文章详情

什么是tokens?tokens怎么计算?

时间:2026-04-25 13:02
Tokens是AI模型处理文本的基本单位,可为单词、字或标点;英文中1词约1-2个tokens,中文1字约1-3个tokens,因分词方式不同导致中英文token数量差异。 在人工智能领域,尤其是与大型语言模型打交道时,你总会反复听到一个词:Token。它到底是什么?简单来说,Token是AI理解和

Tokens是AI模型处理文本的基本单位,可为单词、字或标点;英文中1词约1-2个tokens,中文1字约1-3个tokens,因分词方式不同导致中英文token数量差异。

什么是tokens?tokens怎么计算? - php中文网

大家都在用的虚拟币交易平台推荐:

在人工智能领域,尤其是与大型语言模型打交道时,你总会反复听到一个词:Token。它到底是什么?简单来说,Token是AI理解和生成语言时使用的最小“积木块”。模型并非直接处理我们看到的单词或汉字,而是先将所有文本拆解成这些更基础的单元,再进行运算。

2025年虚拟货币主流交易所

币安官网直达:

欧易官网直达:

火币官网直达:

什么是Tokens?

可以把Tokens想象成构建语言大厦的砖块。无论是简单的句子还是复杂的报告,模型都是通过组合和解读这些预定义的Tokens来工作的。这种机制,让AI能够以一种标准化且高效的方式,应对人类语言近乎无限的表达形式。

为什么不直接使用单词?

一个很自然的疑问是:为什么不直接用“单词”作为单位呢?问题在于,直接使用单词会带来两大挑战。首先,词汇表会膨胀到难以管理——想想一个动词的各种时态、名词的单复数,以及无数衍生词,这会让模型变得极其臃肿。其次,模型将完全无法处理训练时从未见过的生僻词或新造词。

而Token化,特别是“子词”(Subword)分词策略,巧妙地解决了这个问题。它允许模型将复杂的单词拆解。例如,“unbelievable”可以被分解为“un”、“believe”和“able”三个部分。这样一来,模型只需要学习这些更小的、可重复使用的部件,就能理解和生成大量词汇,包括许多它从未直接“见过”的词,极大地提升了效率和泛化能力。

Tokens怎么计算?

这里有一个关键点需要明确:Token的计算并非遵循一个放之四海而皆准的数学公式。它完全取决于每个模型背后所使用的分词器(Tokenizer)。不同的模型公司采用不同的分词算法和词汇表,因此,同一段文本在不同的模型那里,可能会被数出不同数量的Tokens。这也就是为什么在使用不同AI服务时,同样的内容消耗的额度可能不一样。

常见的计算方法

目前主流模型大多采用基于子词(Subword)的分词算法,比如BPE(字节对编码)或WordPiece。它们的核心逻辑是数据驱动的统计合并,大致分为三步:

第一步: 对海量的训练文本进行扫描,统计所有相邻字符组合出现的频率。

第二步: 将出现频率最高的那个字符对合并,形成一个全新的Token,并加入词汇表。

第三步: 重复上述合并过程,直到词汇表达到预设的大小。最终,像“the”、“is”这样的高频词会成为一个独立的Token,而像“antidisestablishmentarianism”这样的长词,则会被分解成多个子词Token(如“anti”、“dis”、“establish”、“ment”、“arian”、“ism”)的组合。

中英文Tokens计算的差异

由于语言本质的不同,中英文在Token计算上存在显著差异,这也是导致同样含义的内容消耗量不同的主要原因。

对于英文:

规则相对直观。一个短小的常见单词(如“a”, “go”)通常就对应1个Token。较长的单词则很可能被拆分。有一个粗略的估算比例可供参考:大约100个Tokens对应75个英文单词

举个例子,句子“I love artificial intelligence.” 很可能被分词为:[“I”], [“love”], [“artificial”], [“intelligence”], [“.”],共计5个Tokens。

对于中文:

情况则复杂得多。中文以字为基本单位,且词与词之间没有空格分隔。因此,分词器需要判断如何将连续的汉字串切分成有意义的单元。通常,一个汉字会占据1到3个Tokens。高频汉字如“我”、“的”可能单独成词,占用1个Token;而一些不常见或组合词,则可能被拆解。

以“我爱人工智能。”这句话为例。一种可能的分词结果是:[“我”], [“爱”], [“人工”], [“智能”], [“。”],5个单元对应5个Tokens。但如果模型词汇表中没有“智能”这个组合,它就可能被拆成“智”和“能”两个Tokens,使得总Token数增加。正因为这种不确定性,表达相同的意思,中文文本往往比英文消耗更多的Tokens,这是在计算使用成本时需要特别注意的一点。

来源:https://www.php.cn/faq/1469057.html
上一篇Tokens是什么意思翻译 tokens翻译成中文 下一篇新手如何在OKX交易所买入BTC ​OKX交易所App下载与安装指南
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Archway生态系统功能全解析:应用特点与优势详解
web3.0 · 2026-07-01

Archway生态系统功能全解析:应用特点与优势详解

Archway生态全景:当开发者激励遇上跨链未来 区块链世界从不缺少新故事,但能将开发者激励与多链互通能力巧妙结合的叙事,总能吸引更多目光。Archway生态系统正是这样一个焦点。它并非简单地搭建另一个公链,而是通过一套创新的经济模型,将网络收入的一部分直接回馈给应用构建者,从而为生态的持续扩张注入

Open Standard推出 CRCL币暴跌超17%
web3.0 · 2026-07-01

Open Standard推出 CRCL币暴跌超17%

OpenStandard推出美元稳定币OpenUSD,获Visa、黑石等140家企业支持,采用零铸造赎回费、储备收益归合作伙伴及中立治理模式。消息导致Circle股价单日暴跌超17%,市场担忧其护城河受冲击。

全链网POL销毁量破1.07亿 网络正式通缩
web3.0 · 2026-07-01

全链网POL销毁量破1.07亿 网络正式通缩

Polygon创始人公布,2026年以来POL新增铸造约1 052亿枚,销毁约1 077亿枚,销毁量超发行量,首次实现年度净通缩。支付链交易量大,基础费用持续销毁,5月交易量达1 98亿笔。

HERB币未来价格走势分析及投资前景全面解读
web3.0 · 2026-07-01

HERB币未来价格走势分析及投资前景全面解读

Herb币:连接全球稀有草药市场的区块链桥梁 在加密货币的海洋里,有些项目瞄准的是通用支付,而有些则深耕垂直领域,试图解决特定行业的痛点。Herb币无疑属于后者。它本质上是一种基于区块链技术的加密货币,核心使命是为全球稀有草药市场搭建一个安全、透明的专属交易平台。这个项目由Anton Lorenz创

门罗币与安网在Web3生态中的挖矿软件角色及未来趋势分析
web3.0 · 2026-07-01

门罗币与安网在Web3生态中的挖矿软件角色及未来趋势分析

门罗币、安网与Web3,卓挖矿软件的生态角色与未来展望 当Web3浪潮席卷全球,去中心化技术与加密货币正在重塑整个数字经济的格局。在这场变革中,门罗币(XMR)凭借其“隐私优先”的鲜明特性,已然成为匿名交易领域公认的“硬通货”。而安网(AnWen,此处指代专注于隐私保护的Web3基础设施项目)则为门