什么是tokens?tokens怎么计算?

首页

web3.0

热心网友

转载

2026-04-25

Tokens是AI模型处理文本的基本单位，可为单词、字或标点；英文中1词约1-2个tokens，中文1字约1-3个tokens，因分词方式不同导致中英文token数量差异。

什么是tokens?tokens怎么计算? - php中文网

在人工智能领域，尤其是与大型语言模型打交道时，你总会反复听到一个词：Token。它到底是什么？简单来说，Token是AI理解和生成语言时使用的最小“积木块”。模型并非直接处理我们看到的单词或汉字，而是先将所有文本拆解成这些更基础的单元，再进行运算。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

2025年虚拟货币主流交易所：

币安官网直达：

欧易官网直达：

火币官网直达：

什么是Tokens？

可以把Tokens想象成构建语言大厦的砖块。无论是简单的句子还是复杂的报告，模型都是通过组合和解读这些预定义的Tokens来工作的。这种机制，让AI能够以一种标准化且高效的方式，应对人类语言近乎无限的表达形式。

为什么不直接使用单词？

一个很自然的疑问是：为什么不直接用“单词”作为单位呢？问题在于，直接使用单词会带来两大挑战。首先，词汇表会膨胀到难以管理——想想一个动词的各种时态、名词的单复数，以及无数衍生词，这会让模型变得极其臃肿。其次，模型将完全无法处理训练时从未见过的生僻词或新造词。

而Token化，特别是“子词”（Subword）分词策略，巧妙地解决了这个问题。它允许模型将复杂的单词拆解。例如，“unbelievable”可以被分解为“un”、“believe”和“able”三个部分。这样一来，模型只需要学习这些更小的、可重复使用的部件，就能理解和生成大量词汇，包括许多它从未直接“见过”的词，极大地提升了效率和泛化能力。

Tokens怎么计算？

这里有一个关键点需要明确：Token的计算并非遵循一个放之四海而皆准的数学公式。它完全取决于每个模型背后所使用的分词器（Tokenizer）。不同的模型公司采用不同的分词算法和词汇表，因此，同一段文本在不同的模型那里，可能会被数出不同数量的Tokens。这也就是为什么在使用不同AI服务时，同样的内容消耗的额度可能不一样。

常见的计算方法

目前主流模型大多采用基于子词（Subword）的分词算法，比如BPE（字节对编码）或WordPiece。它们的核心逻辑是数据驱动的统计合并，大致分为三步：

第一步： 对海量的训练文本进行扫描，统计所有相邻字符组合出现的频率。

第二步： 将出现频率最高的那个字符对合并，形成一个全新的Token，并加入词汇表。

第三步： 重复上述合并过程，直到词汇表达到预设的大小。最终，像“the”、“is”这样的高频词会成为一个独立的Token，而像“antidisestablishmentarianism”这样的长词，则会被分解成多个子词Token（如“anti”、“dis”、“establish”、“ment”、“arian”、“ism”）的组合。

中英文Tokens计算的差异

由于语言本质的不同，中英文在Token计算上存在显著差异，这也是导致同样含义的内容消耗量不同的主要原因。

对于英文：

规则相对直观。一个短小的常见单词（如“a”, “go”）通常就对应1个Token。较长的单词则很可能被拆分。有一个粗略的估算比例可供参考：大约100个Tokens对应75个英文单词。

举个例子，句子“I love artificial intelligence.” 很可能被分词为：[“I”], [“love”], [“artificial”], [“intelligence”], [“.”]，共计5个Tokens。

对于中文：

情况则复杂得多。中文以字为基本单位，且词与词之间没有空格分隔。因此，分词器需要判断如何将连续的汉字串切分成有意义的单元。通常，一个汉字会占据1到3个Tokens。高频汉字如“我”、“的”可能单独成词，占用1个Token；而一些不常见或组合词，则可能被拆解。

以“我爱人工智能。”这句话为例。一种可能的分词结果是：[“我”], [“爱”], [“人工”], [“智能”], [“。”]，5个单元对应5个Tokens。但如果模型词汇表中没有“智能”这个组合，它就可能被拆成“智”和“能”两个Tokens，使得总Token数增加。正因为这种不确定性，表达相同的意思，中文文本往往比英文消耗更多的Tokens，这是在计算使用成本时需要特别注意的一点。

来源:https://www.php.cn/faq/1469057.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Tokens是什么意思翻译 tokens翻译成中文下一篇：新手如何在OKX交易所买入BTC OKX交易所App下载与安装指南

相关攻略

娱乐

“财经媒体也在研究我妈追的短剧”，《强影之路》首次聚焦短剧，手机端的“新标配”，你还在低估它吗？

短剧的崛起，不是简单的内容形态变化，而是一场以移动终端为入口、以算法分发为引擎、以即时消费为闭环的结构性变革。 2026年，短剧行业月活用户规模已超过7亿，这意味着每10个网民中就有7人在追短剧。它早已不是当年的“小众风口”，而是跃升为国民级内容，成为与社交、支付并列的手机端“标配”应用。更值得玩

热心网友

04.25

业界动态

2023人工智能计算大会：产业热论大模型与智算力

11月29日,以“智算力就是创新力”为主题的2023人工智能计算大会(AICC)在北京召开一场以“智算力就是创新力”为主题的行业盛会——2023人工智能计算大会(AICC)，于11月29日在北京拉开帷幕。本届大会在北京市科委中关村管委会、北京市经济和信息化局、海淀区政府的支持下，由浪潮信息主办。会

热心网友

04.25

web3.0

什么是tokens?tokens怎么计算?

Tokens是AI模型处理文本的基本单位，可为单词、字或标点；英文中1词约1-2个tokens，中文1字约1-3个tokens，因分词方式不同导致中英文token数量差异。在人工智能领域，尤其是与大型语言模型打交道时，你总会反复听到一个词：Token。它到底是什么？简单来说，Token是AI理解和

热心网友

04.25

业界动态

RPA是人工智能吗

RPA：人工智能家族的效率引擎在智能化浪潮中，RPA（机器人流程自动化）常常被置于聚光灯下。需要明确的是，它并非人工智能本身，而更像是人工智能家族中的一位务实成员，一个专注解决特定效率问题的应用领域或者说子集。精准替代：聚焦重复性劳动 RPA的核心任务很明确：利用自动化和智能化技术，去“接手”那

热心网友

04.25

业界动态

对话式人工智能

对话式人工智能：让机器学会“聊天”的艺术说起人工智能，大家已经不陌生了。但如果有一种AI，不仅能执行命令，还能像朋友一样与你自然地对话、理解你的言外之意，是不是感觉更贴近生活一些？这就是对话式人工智能（Conversational AI）。简而言之，它的目标就是模拟人类的对话行为，实现与人的自然交

热心网友

04.25

热门推荐

web3.0

2025年BTC最佳买入时机分析与操作策略

2025年比特币最佳买入时机分析与操作策略想在2025年的加密市场里找准节奏？这确实是个技术活。市场的高波动性人所共知，影响因素又盘根错节，能否科学地判断买入时机，几乎直接决定了投资的最终回报。今天，我们就来系统性地拆解这个问题。主流交易平台便捷入口工欲善其事，必先利其器。在深入分析之前，先确

热心网友

04.25

电脑教程

松下按摩椅维修手册适用于哪些型号？

松下按摩椅维修手册：一份覆盖主流型号的“通用说明书” 这份维修手册，可以说是松下REAL PRO系列按摩椅的“核心维修指南”。它主要针对EP-MA100、EP-MA101、EP-MA111以及EP-MA03H492这几款主流型号。为什么一份手册能管这么多款？关键在于它们都源自同一个技术平台：全都搭载

热心网友

04.25