从Token到词元：全模态时代的基模与核心交互设计

首页

热心网友

转载

2026-03-27

2026年3月24日，国家数据局首次在最新语境中确立“词元”为Token的标准译名，并披露国内日均Token调用量已突破140万亿。但这仍只是“文本时代主导”的规模。

在语音、视频与实时交互驱动的多模态场景中，随着自主调用工具并交付结果的Agent大量部署，Token的生成与消耗方式正在发生范式性变化——

从离散文本走向连续感知，从低频批量输入走向高频流式输入，其生产方式、组织结构与消耗效率，将直接决定下一代AI系统的能力上限与成本结构。

早在2024年，复旦大学邱锡鹏教授较早明确采用“词元”这一译法，推动其在中文语境下的标准化。他指出，“词元”既避免被简单理解为自然语言中的“词”，又保留了其作为语言处理基本单位的本质内涵。

而随着大模型从文本走向多模态、从模型能力走向Agent系统，“词元”所对应的，也不再只是一个术语问题，而是下一代智能系统的底层组织方式。

在这一趋势下，围绕统一Token结构、全模态与情境智能展开布局的公司，正持续获得资本关注。

近日，模思智能（MOSI）也官宣完成数亿元的天使轮融资，由IDG资本领投，元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金-星连资本及某头部产业投资方联合投资。

这笔融资背后，投资方显然看重的并不只是单点产品能力，而是其对下一代技术路径的提前布局，而多维资本也将担任新一轮独家财务顾问，携手模思智能共同探索通用智能时代的下一步。

非共识路径：从语音到全模态，在统一的Token结构中被表达和计算

早在2024年“百模大战”期间，邱锡鹏便意识到，市场上虽然模型众多，但底层技术路径高度趋同。绝大多数资源持续涌向文本大模型赛道，基础研究的多样性却在萎缩。

某种程度上，这种同质化不仅限制了技术可能性的展开，也压缩了探索新路径的空间。

在这样的背景下，模思智能并未沿着主流的纯文本路线继续加码，而是选择了一条更少人走的道路：从语音切入，走向全模态，在统一的Token结构中表达和计算不同模态的信息。

之所以选择语音作为突破口，原因并不复杂。

相比纯文本，音频的信息密度更高，天然包含语调、节奏、情绪等文本难以完整承载的信号；同时，音频也更容易与环境、动作和上下文形成连续输入流，更接近真实世界中的人机交互方式。

它不仅是交互入口，更是通向“情境理解”的天然起点。

当Token不再只是文本中的离散符号，而成为连续感知信息的离散化表达后，模型要解决的问题也发生了变化：从“理解一句话”转向“理解一个情境”。

模思智能将这一能力概括为“情境智能”（Contextual Intelligence）——以持续感知、动态记忆与环境理解为基础，使AI能够在真实世界中进行自适应交互。

在这一框架下，Token不再只是静态输入单元，而是构成情境的基本信号。

而Agent，正是情境智能走向现实应用的直接载体。

随着以OpenClaw等为代表的基础设施逐步成熟，行业竞争也正在从单一的“模型能力”比拼，转向对交互入口与环境理解能力的争夺。语音、上下文与情境建模能力，正在成为新的技术分水岭。

如果说邱锡鹏代表的是这一路线的学术源头，那么模思智能则是这一方向的产业化载体；而上海创智学院提供的，则是支撑技术快速转化的组织与资源平台。

MOSS之后，真正的布局才刚刚开始

模思智能核心团队长期深耕预训练、大模型与多模态方向，并持续推进统一Token路线的技术演进。

2024年2月，国内首个类ChatGPT对话式大模型MOSS发布，打响了中国“百模大战”的第一枪。但在模思智能团队看来，真正重要的并不是打一场模型发布战，而是提前押注下一阶段的技术结构。

同年5月，团队推出SpeechGPT，在业内较早验证了“离散化端到端语音大模型”这一路径的可行性。

它所解决的核心问题，是首次将连续语音信号拆解并映射为离散Token序列，让语音得以真正进入与文本统一的Token空间。

这意味着，机器理解人“说的话”和理解人“写的话”，第一次有机会在同一套计算框架内完成。

同年8月发布的SpeechTokenizer，则进一步将这一路线工程化，成为融合语义Token与声学Token的音频离散化编码器，为后续语音理解与生成、乃至更广义的多模态统一建模打下了底座。

这条路线一旦走通，向全模态扩展就是自然而然的结果。

2024年2月，AnyGPT发布，首次将语音、文本、图像与视频统一映射至离散Token体系，提出了真正意义上的离散化全模态基座模型架构。

不同模态不再需要彼此割裂、分别训练，而是能够在同一序列结构中完成理解与生成。

至此，团队此前多年的技术布局，第一次呈现出较为完整的轮廓。

从单点突破到能力闭环

此后，相关成果开始加速涌现。

2025年7月，MOSS-TTSD发布，作为国内首个基于百万小时音频训练的开源中英双语对话语音模型，在播客、影视配音等长内容场景中展现出较强竞争力。

视频地址：https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g

同年11月，联合上海创智学院等机构发布的下一代能动性模型体系NEX，在氛围编程、工具使用、后端开发等多项基准测试中进入全球第一梯队水平，将离散化架构的优势进一步延伸至Agent与生产力场景。

进入2026年后，团队以月度推进的节奏持续迭代：

MOSS-Transcribe-Diarize在复杂多说话人场景中实现领先表现；MOVA作为国内首个高性能音视频生成开源模型之一，开源后迅速获得行业关注；MOSS-Audio-Tokenizer在相同比特率下进一步刷新音频重建性能；基于该Tokenizer训练的MOSS-TTS系列模型，则主要面向实际生产场景，在音色克隆相似度等指标上表现突出。

至此，模思智能已经成为国内少数完成“全模态基座模型能力闭环”的初创公司之一。