游乐游手机版

AI 热词解释

首页/AI热词解释/热词详情

分词器:让AI“读懂”人类语言的第一步

类型:技术组件2026-05-15
分词器是自然语言处理中的基础组件,负责将连续的文本序列切分成有意义的词或子词单元。它是大模型理解、生成人类语言的首要且关键步骤,直接影响模型的性能和效果。

本次查询:分词器

中文解释:分词器

常见场景:自然语言处理 / 大语言模型训练与推理 / 搜索引擎 / 文本分析

一句话解释

分词器是自然语言处理中的“文本剪刀”,它将连续的句子或段落,按照一定规则切割成更小的、有意义的单元(如词或子词),以便计算机能够进行后续的理解和分析。

为什么会被关注

随着大语言模型的爆发,分词器作为模型处理文本的“第一道工序”,其重要性凸显。分词质量直接决定模型“看到”什么,影响模型的理解能力、生成效果和计算效率。不同的分词策略(如按词、按字、按子词)是模型设计的关键选择,也是优化模型性能的重要切入点。

核心逻辑

分词器的核心任务是将文本数字化。它通常内置一个“词汇表”,通过查找匹配,将文本中的词映射为词汇表中的ID(Token ID)。对于新词或稀有词,现代分词器(如BPE、WordPiece)采用“子词”切分策略,将其拆分为更小的、已知的片段(如“playing”拆为“play”和“ing”),从而大幅提升处理未知词汇的能力和词汇表的利用效率。

常见场景

在大型语言模型(如GPT、LLaMA)中,输入文本必须通过分词器转换为Token序列才能被模型处理。在搜索引擎中,分词用于对查询词和文档进行切分,以便进行匹配。在机器翻译和文本分类中,分词是文本预处理的标准步骤,为后续的特征提取和模型训练奠定基础。

容易混淆的点

分词器不等于词典分词。传统中文分词依赖词典,而现代大模型使用的分词器(如BPE)是通过统计学习从数据中自动发现高频子词单元,不依赖预设词典,更能适应网络新词和多样语言。

此外,分词器输出的“Token”不完全等同于“词”。一个Token可能是一个完整的词、一个子词、一个标点,甚至是一个字符(尤其在处理中文时)。Token是模型视角下的基本处理单元,其粒度由训练数据和算法共同决定。

来源:AI 热词解释频道整理
上一篇智能体编排:让AI智能体从单兵作战到协同作战的“指挥家” 下一篇令牌限制:大模型对话的“内存边界”

相关热词

继续查看关联概念解释。

最新热词

最近新增和整理过的热词内容。