游乐游手机版
首页/web3.0/文章详情

什么是tokens?tokens怎么计算?

时间:2026-04-25 13:02
Tokens是AI模型处理文本的基本单位,可为单词、字或标点;英文中1词约1-2个tokens,中文1字约1-3个tokens,因分词方式不同导致中英文token数量差异。 在人工智能领域,尤其是与大型语言模型打交道时,你总会反复听到一个词:Token。它到底是什么?简单来说,Token是AI理解和

Tokens是AI模型处理文本的基本单位,可为单词、字或标点;英文中1词约1-2个tokens,中文1字约1-3个tokens,因分词方式不同导致中英文token数量差异。

什么是tokens?tokens怎么计算? - php中文网

2025年主流加密货币交易所:

在人工智能领域,尤其是与大型语言模型打交道时,你总会反复听到一个词:Token。它到底是什么?简单来说,Token是AI理解和生成语言时使用的最小“积木块”。模型并非直接处理我们看到的单词或汉字,而是先将所有文本拆解成这些更基础的单元,再进行运算。

2025年虚拟货币主流交易所

币安官网直达:

欧易官网直达:

火币官网直达:

什么是Tokens?

可以把Tokens想象成构建语言大厦的砖块。无论是简单的句子还是复杂的报告,模型都是通过组合和解读这些预定义的Tokens来工作的。这种机制,让AI能够以一种标准化且高效的方式,应对人类语言近乎无限的表达形式。

为什么不直接使用单词?

一个很自然的疑问是:为什么不直接用“单词”作为单位呢?问题在于,直接使用单词会带来两大挑战。首先,词汇表会膨胀到难以管理——想想一个动词的各种时态、名词的单复数,以及无数衍生词,这会让模型变得极其臃肿。其次,模型将完全无法处理训练时从未见过的生僻词或新造词。

而Token化,特别是“子词”(Subword)分词策略,巧妙地解决了这个问题。它允许模型将复杂的单词拆解。例如,“unbelievable”可以被分解为“un”、“believe”和“able”三个部分。这样一来,模型只需要学习这些更小的、可重复使用的部件,就能理解和生成大量词汇,包括许多它从未直接“见过”的词,极大地提升了效率和泛化能力。

Tokens怎么计算?

这里有一个关键点需要明确:Token的计算并非遵循一个放之四海而皆准的数学公式。它完全取决于每个模型背后所使用的分词器(Tokenizer)。不同的模型公司采用不同的分词算法和词汇表,因此,同一段文本在不同的模型那里,可能会被数出不同数量的Tokens。这也就是为什么在使用不同AI服务时,同样的内容消耗的额度可能不一样。

常见的计算方法

目前主流模型大多采用基于子词(Subword)的分词算法,比如BPE(字节对编码)或WordPiece。它们的核心逻辑是数据驱动的统计合并,大致分为三步:

第一步: 对海量的训练文本进行扫描,统计所有相邻字符组合出现的频率。

第二步: 将出现频率最高的那个字符对合并,形成一个全新的Token,并加入词汇表。

第三步: 重复上述合并过程,直到词汇表达到预设的大小。最终,像“the”、“is”这样的高频词会成为一个独立的Token,而像“antidisestablishmentarianism”这样的长词,则会被分解成多个子词Token(如“anti”、“dis”、“establish”、“ment”、“arian”、“ism”)的组合。

中英文Tokens计算的差异

由于语言本质的不同,中英文在Token计算上存在显著差异,这也是导致同样含义的内容消耗量不同的主要原因。

对于英文:

规则相对直观。一个短小的常见单词(如“a”, “go”)通常就对应1个Token。较长的单词则很可能被拆分。有一个粗略的估算比例可供参考:大约100个Tokens对应75个英文单词

举个例子,句子“I love artificial intelligence.” 很可能被分词为:[“I”], [“love”], [“artificial”], [“intelligence”], [“.”],共计5个Tokens。

对于中文:

情况则复杂得多。中文以字为基本单位,且词与词之间没有空格分隔。因此,分词器需要判断如何将连续的汉字串切分成有意义的单元。通常,一个汉字会占据1到3个Tokens。高频汉字如“我”、“的”可能单独成词,占用1个Token;而一些不常见或组合词,则可能被拆解。

以“我爱人工智能。”这句话为例。一种可能的分词结果是:[“我”], [“爱”], [“人工”], [“智能”], [“。”],5个单元对应5个Tokens。但如果模型词汇表中没有“智能”这个组合,它就可能被拆成“智”和“能”两个Tokens,使得总Token数增加。正因为这种不确定性,表达相同的意思,中文文本往往比英文消耗更多的Tokens,这是在计算使用成本时需要特别注意的一点。

来源:https://www.php.cn/faq/1469057.html
上一篇Tokens是什么意思翻译 tokens翻译成中文 下一篇新手如何在OKX交易所买入BTC ​OKX交易所App下载与安装指南
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
AVO币是什么?全面解析AVO币投资价值与未来前景
web3.0 · 2026-07-01

AVO币是什么?全面解析AVO币投资价值与未来前景

A VO币:基于BlastChain的借贷协议原生代币解析 在去中心化金融(DeFi)领域,借贷协议始终是构建加密经济基础设施的核心板块。A VO币,作为基于BlastChain的抵押借贷协议A volend发行的原生代币,其设计初衷便是为用户提供一套更透明、更高效的链上信贷解决方案。该协议支持用户

TARAL币值得投资吗 全面解析TARAL币前景与价值
web3.0 · 2026-07-01

TARAL币值得投资吗 全面解析TARAL币前景与价值

Taral币:一个正在崛起的去中心化支付新星 在如今这个数字资产层出不穷的时代,一种名为Taral的加密数字货币正凭借其扎实的技术架构和清晰的生态规划,逐渐进入大众视野。简单来说,Taral币是一个基于区块链技术构建的去中心化支付解决方案,旨在为全球用户提供高效且安全的交易体验。它并非又一个简单的概

币安Web3股权结构解析 生态共建与战略协同的核心价值
web3.0 · 2026-07-01

币安Web3股权结构解析 生态共建与战略协同的核心价值

Web3时代企业新范式:解码“股权+生态”双轮驱动战略 在Web3浪潮席卷全球的当下,一个深刻的商业范式转移正在发生:头部企业不再仅仅依赖传统的股权控制来维系竞争力,而是转向构建一种更为复杂和富有韧性的“股权+生态”双轮驱动模式。这一模式的核心目标,是实现从“所有权控制”到“生态共建”的跃迁。以全球

FDUSD脱锚风波 孙宇晨指控引发稳定币信任危机
web3.0 · 2026-07-01

FDUSD脱锚风波 孙宇晨指控引发稳定币信任危机

市值近24亿美元的稳定币FDUSD于4月2日脱锚,价格一度跌至0 76美元。TRON创始人孙宇晨指控发行方FirstDigitalTrust资不抵债,后者否认并将采取法律行动。储备报告显示资产覆盖流通量,但币安持有94%流通量且信任危机凸显稳定币市场储备透明度与舆论影响力等痛点。

Aave DAO通过2500万美元资助计划 推动Aave Labs生态发展
web3.0 · 2026-07-01

Aave DAO通过2500万美元资助计划 推动Aave Labs生态发展

Aave DAO通过关键资金提案:2500万美元与7 5万枚AAVE支持“取胜”战略 近日,去中心化金融(DeFi)领域迎来标志性事件。Aave DAO以压倒性多数通过了一项关键治理提案,正式启动名为“Aave将取胜”的战略框架。该提案批准向Aave Labs提供总计2500万美元的稳定币资金,并调