从Token到词元:全模态时代的基模与核心交互设计
2026年3月24日,国家数据局首次在最新语境中确立“词元”为Token的标准译名,并披露国内日均Token调用量已突破140万亿。但这仍只是“文本时代主导”的规模。
在语音、视频与实时交互驱动的多模态场景中,随着自主调用工具并交付结果的Agent大量部署,Token的生成与消耗方式正在发生范式性变化——
从离散文本走向连续感知,从低频批量输入走向高频流式输入,其生产方式、组织结构与消耗效率,将直接决定下一代AI系统的能力上限与成本结构。

早在2024年,复旦大学邱锡鹏教授较早明确采用“词元”这一译法,推动其在中文语境下的标准化。他指出,“词元”既避免被简单理解为自然语言中的“词”,又保留了其作为语言处理基本单位的本质内涵。
而随着大模型从文本走向多模态、从模型能力走向Agent系统,“词元”所对应的,也不再只是一个术语问题,而是下一代智能系统的底层组织方式。
在这一趋势下,围绕统一Token结构、全模态与情境智能展开布局的公司,正持续获得资本关注。
近日,模思智能(MOSI)也官宣完成数亿元的天使轮融资,由IDG资本领投,元禾控股、上海国投旗下上海科创及上海未来产业基金、奇绩创坛、智谱系基金-星连资本及某头部产业投资方联合投资。
这笔融资背后,投资方显然看重的并不只是单点产品能力,而是其对下一代技术路径的提前布局,而多维资本也将担任新一轮独家财务顾问,携手模思智能共同探索通用智能时代的下一步。
非共识路径:从语音到全模态,在统一的Token结构中被表达和计算
早在2024年“百模大战”期间,邱锡鹏便意识到,市场上虽然模型众多,但底层技术路径高度趋同。绝大多数资源持续涌向文本大模型赛道,基础研究的多样性却在萎缩。
某种程度上,这种同质化不仅限制了技术可能性的展开,也压缩了探索新路径的空间。
在这样的背景下,模思智能并未沿着主流的纯文本路线继续加码,而是选择了一条更少人走的道路:从语音切入,走向全模态,在统一的Token结构中表达和计算不同模态的信息。

之所以选择语音作为突破口,原因并不复杂。
相比纯文本,音频的信息密度更高,天然包含语调、节奏、情绪等文本难以完整承载的信号;同时,音频也更容易与环境、动作和上下文形成连续输入流,更接近真实世界中的人机交互方式。
它不仅是交互入口,更是通向“情境理解”的天然起点。
当Token不再只是文本中的离散符号,而成为连续感知信息的离散化表达后,模型要解决的问题也发生了变化:从“理解一句话”转向“理解一个情境”。
模思智能将这一能力概括为“情境智能”(Contextual Intelligence)——以持续感知、动态记忆与环境理解为基础,使AI能够在真实世界中进行自适应交互。
在这一框架下,Token不再只是静态输入单元,而是构成情境的基本信号。
而Agent,正是情境智能走向现实应用的直接载体。
随着以OpenClaw等为代表的基础设施逐步成熟,行业竞争也正在从单一的“模型能力”比拼,转向对交互入口与环境理解能力的争夺。语音、上下文与情境建模能力,正在成为新的技术分水岭。
如果说邱锡鹏代表的是这一路线的学术源头,那么模思智能则是这一方向的产业化载体;而上海创智学院提供的,则是支撑技术快速转化的组织与资源平台。
MOSS之后,真正的布局才刚刚开始
模思智能核心团队长期深耕预训练、大模型与多模态方向,并持续推进统一Token路线的技术演进。
2024年2月,国内首个类ChatGPT对话式大模型MOSS发布,打响了中国“百模大战”的第一枪。但在模思智能团队看来,真正重要的并不是打一场模型发布战,而是提前押注下一阶段的技术结构。
同年5月,团队推出SpeechGPT,在业内较早验证了“离散化端到端语音大模型”这一路径的可行性。
它所解决的核心问题,是首次将连续语音信号拆解并映射为离散Token序列,让语音得以真正进入与文本统一的Token空间。
这意味着,机器理解人“说的话”和理解人“写的话”,第一次有机会在同一套计算框架内完成。

同年8月发布的SpeechTokenizer,则进一步将这一路线工程化,成为融合语义Token与声学Token的音频离散化编码器,为后续语音理解与生成、乃至更广义的多模态统一建模打下了底座。
这条路线一旦走通,向全模态扩展就是自然而然的结果。
2024年2月,AnyGPT发布,首次将语音、文本、图像与视频统一映射至离散Token体系,提出了真正意义上的离散化全模态基座模型架构。
不同模态不再需要彼此割裂、分别训练,而是能够在同一序列结构中完成理解与生成。
至此,团队此前多年的技术布局,第一次呈现出较为完整的轮廓。
从单点突破到能力闭环
此后,相关成果开始加速涌现。
2025年7月,MOSS-TTSD发布,作为国内首个基于百万小时音频训练的开源中英双语对话语音模型,在播客、影视配音等长内容场景中展现出较强竞争力。

视频地址:https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g
同年11月,联合上海创智学院等机构发布的下一代能动性模型体系NEX,在氛围编程、工具使用、后端开发等多项基准测试中进入全球第一梯队水平,将离散化架构的优势进一步延伸至Agent与生产力场景。
进入2026年后,团队以月度推进的节奏持续迭代:
MOSS-Transcribe-Diarize在复杂多说话人场景中实现领先表现;MOVA作为国内首个高性能音视频生成开源模型之一,开源后迅速获得行业关注;MOSS-Audio-Tokenizer在相同比特率下进一步刷新音频重建性能;基于该Tokenizer训练的MOSS-TTS系列模型,则主要面向实际生产场景,在音色克隆相似度等指标上表现突出。
至此,模思智能已经成为国内少数完成“全模态基座模型能力闭环”的初创公司之一。

视频地址:https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g
这一系列成果背后,并不是若干彼此孤立的技术突破,而是同一个底层命题被不断验证后的自然延展:多模态信息可以通过统一的离散化方式映射到同一Token序列结构中,进而实现统一计算。
离散化带来的,不只是更高的压缩效率,更重要的是赋予不同模态以可组合性与可计算性——而这正是全模态智能与Agent系统真正落地的底层架构前提。
顶尖大模型产业化团队:具备从0到N的全栈能力
支撑模思智能技术路径的,是一支同时具备前沿研究深度与工程落地能力的核心团队。
首席科学家邱锡鹏,复旦大学教授,国家杰出青年科学基金获得者、上海创智学院全职导师,并荣获2024年CCF-ACM AI Award(当年全球唯一获奖人)。
他长期深耕自然语言处理与大模型方向,在端到端语音大模型与全模态基座模型等前沿领域持续保持技术领先,是国内大模型领域兼具学术高度与产业影响力的领军人物,多次入选全球前2%顶尖科学家榜单。
其著作《神经网络与深度学习》被广泛用于高校教学。

CEO李世民出自邱锡鹏门下硕博连读体系,以一作身份发表多篇CCF-A类论文,并深度参与科技部“新一代人工智能2030”重点研发项目,在拟人化人机交互方向实现多项关键技术突破。
对李世民而言,创业并非角色转换,而是其既有研究路径在产业侧的自然延伸。
值得注意的是,模思智能并非传统意义上的“教授带学生创业”,而是由上海创智学院与复旦大学联合孵化的标杆项目。
作为上海市主导设立的新型研发机构,创智学院为公司提供了覆盖算力、人才与产业资源的体系化支持,使其具备远高于常规学术创业项目的起点与迭代速度。
2025年7月,在创智学院“首发八大AI成果”发布会上,邱锡鹏团队联合模思智能发布的MOSS-Audio被评价为“突破语音交互恐怖谷效应,为情境智能奠定基础”。
△图源:上海创智学院官微
同年9月,在一周年成果发布会上,团队提出的规模化全流程大模型可解释框架再次入选七大创新成果,标志着中国在相关方向实现从跟跑到领跑的跃迁。CEO李世民表示:
创智学院的孵化,使我们能够以远超传统学术创业的速度完成技术转化。
公司目前已形成近百人的全栈技术体系,博士占比接近50%,核心成员主要来自复旦大学NLP体系(CS Ranking全球前列),并持续吸引来自多所顶尖高校的研究人才。
随着公司逐步走向产业化落地,团队引入多位具备阿里、字节、理想汽车等背景的关键成员,补齐工程化与商业化能力,为从1到N的规模化扩张奠定基础。
商业化层面,模思智能多模态大模型开放平台已进入全面公测阶段,提供一站式API服务,以高稳定性与高性价比支撑企业级调用需求。
目前,公司已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作,初步验证了技术落地能力与商业转化潜力。
模思智能更强调从基座模型到垂直应用的一体化能力构建,其商业增长飞轮将围绕“词元(Token)的生产、分发与应用”展开,从MaaS能力输出延伸至2B、2B2C与2C多层级场景,逐步形成技术与商业双轮驱动的公司。
谁在定义下一代智能
国家数据局首次官宣“词元”译名,在某种程度上标志着大模型产业正从早期野蛮生长走向更高程度的规范化。
这背后意味着,单纯依赖参数堆叠与算力外推的阶段正在逐步过去,未来模型能力的差距,可能越来越取决于架构创新、系统组织方式以及顶尖人才密度。
模思智能试图回答的,正是一个尚无定论的问题:当大模型进入深水区,真正的护城河究竟是什么?
答案或许已不再只是参数规模或算力投入本身,而在于是否能够更早识别并押注下一代智能的核心结构。
对模思智能而言,这种结构体现为:统一的Token表达、面向情境的持续理解能力,以及能够调用工具、交付结果、与用户建立长期关系的Agent系统。
当“词元”进入最新语言,真正值得关注的,或许已不只是一个术语被定名,而是谁能够率先定义:词元将如何被生产、组织与使用。
某种意义上,这也正是在定义下一代智能系统的边界。
相关攻略
驾车经过惠山隧道入口时,许多驾驶员都曾对那组特殊的信号灯感到困惑。请务必注意——这并非传统的红绿灯,而是一套基于数字分车道的智能交通协调系统。 此处是惠钱路匝道与古华山匝道的交汇节点,以往两股车流同时汇入隧道时,极易因抢道引发交织冲突与安全隐患。为彻底解决这一交通瓶颈,交管部门在此创新部署了这套带有
想象一下,你正在学习投篮。一位经验丰富的教练站在场边,他关注的远不止“球进没进”,而是你手腕的角度、起跳的时机、身体重心的控制。这种对“动作完成质量”的直觉判断,是人类教练数十年经验的结晶,但对计算机而言,却曾是一个近乎无解的难题。 长期以来,计算机视觉的研究重心在于让机器识别“人在做什么”,例如区
隐式Null检查优化是JIT编译器提升性能的一种技巧,它通过CPU内存保护异常替代显式判空指令,减少分支开销。该优化需满足对象稳定、偏移固定等条件,依赖操作系统快速异常处理。虽能提升性能,但可能增加调试难度,并在某些安全环境中失效。
毛吉富团队研发出免缝合三维导电心肌补片,表面微米级导电“倒刺”可快速锚定心脏并重建电信号通路,动物实验中三天内改善心功能。团队还开发无线供电智能敷料等医用纺织材料,通过纤维材料创新解决心梗、慢性伤口等临床难题。
ADA 走强:鲸鱼交易频现与看涨信号浮现 最近,Cardano(ADA)的表现相当抢眼。一边是价格节节攀升,另一边则是链上大额交易异常活跃。这种“量价齐升”的局面,很难不让人多看几眼,市场信心似乎正在凝聚,未来的上升空间或许值得期待。 鲸鱼交易活跃度飙升 链上数据不会说谎。最新数据显示,Cardan
热门专题
热门推荐
备受瞩目的MG07,现已正式登陆工信部新车公告目录。这标志着,这款全新轿跑距离正式上市发售,又迈出了关键一步。 仅从外观设计审视,MG07便展现出令人过目不忘的视觉冲击力。其造型极具张力与未来感,辨识度极高。前脸配备的锐利修长大灯组,造型已接近高性能跑车的经典风格,视觉攻击性十足。车身侧面,流畅而舒
5月15日,彭博社的一则爆料,给硅谷的科技圈投下了一颗不大不小的石子。据知情人士透露,苹果与OpenAI那场曾被视为“天作之合”的战略联姻,在持续两年后正面临破裂危机。核心矛盾点在于,OpenAI方面认为商业回报远未达预期,甚至已开始考虑采取法律手段。 由于相关讨论尚未公开,消息人士要求匿名。他们指
XPL币是Plasma生态系统的原生代币,主要用于网络治理、交易费用支付和节点激励。Plasma项目旨在构建一个高效、可扩展的区块链基础设施,其技术背景涉及分片与Layer2解决方案。XPL币的使用场景覆盖了网络治理投票、Gas费抵扣、节点质押奖励以及生态内服务支付,其价值与Plasma网络的实际采用率和生态发展紧密相连。
OpenAI成立独立咨询公司DeployCo,并获40亿美元投资。新公司将通过派驻前线工程师和收购等方式,帮助企业部署AI应用。此举标志着其战略重心从研发转向大规模企业赋能,旨在弥合AI能力与企业实际应用之间的差距。面对万亿美元规模的系统集成市场,OpenAI将与现有咨询机构形成竞合关系。
5月13日,全球跑车行业迎来战略级转向:英国传奇性能品牌路特斯(Lotus)正式公布其“Focus 2030”全新战略规划。核心决策引发广泛关注——品牌宣布调整此前激进的全面电动化路线,重启燃油及混合动力跑车的研发,未来将采取燃油、混合动力与纯电动“三线并行”的产品发展路径。 路特斯集团首席执行官冯





