坦白说,企业实现AI转型的窗口期正迅速收窄。预计在两年内,相关变革必须完成,否则将面临严峻挑战。

盈米基金高级技术总监梁仲智指出,那些率先完成AI整合的企业,将获取显著的成本与效率优势,从而牢牢锁定所在领域的增量市场。在他看来,AI转型已不再是单纯的发展问题,而是关乎企业存亡的“生死关键”。
困境:当组织形态难以匹配技术升级
然而,当前多数企业的AI落地实践正陷入重重困境。大量厂商与应用仅仅在原有交互模式上“硬塞”一个AI助手,却迟迟无法有效解决用户的业务痛点,导致用户的使用黏性普遍偏低。问题的症结往往不在于技术本身,而在于现有的生产关系无法适配新型生产力,而调整这种生产关系则是一个极其艰难的过程。
麦肯锡《2026年组织状态报告》中的数据颇具警示意义:高达88%的AI试点项目未能实现规模化落地,其主要原因并非技术缺陷,而是评估机制的缺失与治理层面的障碍。相较于显性的技术风险,组织准备度不足这一“慢变量”更具隐蔽性,也更容易被企业忽视。
盈米基金的探索实践极具参考价值。自2026年起,这家企业便开始主动求变,积极推动AI改革。仅在研发端,所有角色便被整合为“产品工程师”。其旗下的AI智能助手“AI小顾”已累计处理超过100万个用户提问。当Token消耗量达到每日百万级的真实调用时,成本不再只是一个抽象的数字,而是一张实实在在的账单。
据盈米基金董事长肖雯近日公开透露,盈米内部已部署超过200个模型,月Token消耗量高达千亿级别。AI已不再是实验性项目,而是真正成为如同水电煤一般的基础设施,成为普通员工日常工作中不可或缺的必需品。
金融场景中的Token消耗三座大山
在探索成本优化路径之前,盈米基金已经尝试了模型分级调度、Prompt精简、缓存与预计算、RAG优化等多种技术手段。虽然取得了一定效果,但他们更希望找到一种更贴近底层逻辑的解决方案。
梁仲智分析认为,金融场景的Token消耗存在三大特征,直接推高了运营成本:
一是上下文长度特别长。金融决策需要综合海量信息——例如,一个客户的持仓数据、交易历史、风险偏好以及沟通记录,这些信息加在一起可能涉及几千甚至上万Token。这与编写一个简单的代码补全任务完全不是一个量级。
二是对输出准确性要求极高。个人用户或许能容忍AI生成的博客文章略显冗长,但企业绝无法接受AI给出的投资建议计算错误收益率。这意味着金融场景往往需要调用更强大(也更昂贵)的模型,并执行更多的推理步骤。
三是场景的价值密度差异极大。用户询问“什么是基金定投”与高净值客户咨询“我的500万资产该如何配置”,两者所消耗的Token可能相差无几,但其业务价值却可能相差数个量级。
梁仲智表示:“‘Token焦虑’这个词很贴切。”但他认为,这更多是处于认知阶段的产物。焦虑往往源于“不知道值不值得”。如果能够清晰计算出每一笔Token消耗背后对应的业务价值,那么焦虑便会随之消失。
除了常见的“炫技式调用”、“暴力式上下文”、“重复式推理”等浪费现象外,梁仲智特别指出了一种更为隐蔽的浪费:“用概率推理解决确定性问题”。这类场景本应被开发成传统软件,实现一次开发、无限复用,现在却被反复交由AI处理,从而凭空产生了线性成本。这类浪费加总起来,可能占据企业AI应用中超过50%的Token消耗。
为此,盈米基金发展出了一套“Token套利”的思维框架:
第一步,判断该场景是否存在最优解。如果存在,最佳做法是将其开发为传统软件——一次开发、无限复用、边际成本为零,例如基金筛选器、净值查询、账户总览等功能。
第二步,如果确认没有最优解,再判断Token套利是否成立。在线性成本场景中,Token消耗本质上是在购买一种“非线性增长的杠杆”。
基于此,盈米基金选择在金融投顾场景上大量投入Token。让每一个Token替代的不是几分钱的计算成本,而是几十元甚至几百元的人工边际成本。
梁仲智指出:“工业革命的机器是一次性投入、边际成本趋于零的;而AI时代的机器是按使用量付费的,边际成本不为零。在传统软件时代,我们追求一次开发、无限复用;在AI时代,我们追求的是每一次调用都能创造正向价值。这是一个根本性的思维转变。”
让Token不再是成本中心
事实上,对Token成本进行精细化管理,正从企业的选修课变为必修课。
高盛在2026年5月发布的报告中指出,AI行业正从成本叙事转向利润叙事。报告显示,主流大模型的Token定价已从此前每年约40%的降幅趋于平稳,而由英伟达、AMD、谷歌TPU等驱动的每Token算力成本,仍在以每年60%到70%的速度下降。这两条曲线的“剪刀差”正逐渐打开利润空间。高盛预计,到2030年,消费端和企业端Agent将合计推动全球Token消耗量较2026年增长24倍,达到每月约120千万亿个Token。
从文言文中获得的启发:Token-Zip压缩方案
“如果现代中文比英文更节省Token,那么作为人类语言中信息密度最高的书面语之一,文言文是否也适用?”
2024年底,海外社交媒体上掀起了一波“学中文省Token”的热潮:美国开发者发现,表达相同的意思,使用中文所需的Token数量比英文要少很多。
梁仲智通过实际测试发现:将同一段话分别用英文、现代中文和文言文写出,计算其Token消耗。结果令人惊讶,文言文所需的Token数量大约只有英文的30%到40%。
这正是Token-Zip方案的核心思路:使用一个低成本、高速度的模型将用户原始输入翻译成文言文,然后调用高成本、高质量的模型用文言文进行思考和回答,最后再将结果还原输出。这相当于在昂贵模型的两端加设了一个“压缩-解压”层。
实测数据显示,在54个覆盖14个领域的英文提示词用例中,该方法平均节省了51%的费用成本,并且回复质量也有所提升。梁仲智补充道:“我们推测,这是因为文言文的简洁性迫使模型更聚焦于核心信息,从而减少了冗余内容。”
此外,金融场景是一类需要大量自然语言交互的领域,例如投顾服务、客户咨询、研报生成、合规审查等。这些场景的输入和输出都以自然语言为主。Token-Zip的基准测试数据显示,对自然语言密集型内容的压缩效果最好:如法律领域可达60%、教育领域60%、医疗领域57%、金融经济领域45%。这意味着金融场景天然适合采用Token-Zip所代表的压缩方案。
构建系统化的成本控制体系
过去两年间,盈米基金在Token成本控制方面已经构建了一套分层策略:
一是模型路由,并非所有场景都使用最昂贵的模型。只有那些真正需要强推理能力的场景才会调用顶级模型。而且,模型的选择过程也不是一次性决策,而是一个持续优化的过程。
二是Prompt工程与上下文管理,包括精简系统提示词、动态加载上下文、优化少样本示例等。
三是场景固化,当一个AI场景被反复使用且逻辑趋于稳定后,将其从每次从零推理逐步固化为模板化执行。这样一来,Token消耗量可能降低80%。AI可以帮助开发人员快速验证一个场景是否具有价值、逻辑如何,一旦验证通过且模式稳定,就可以进行场景固化。
当然,当以上三步工作都完成之后,对于那些确实需要使用昂贵模型且无法进一步固化的场景,便可以借助Token-Zip提供额外的压缩层。此外,盈米基金还实践出了一条最具战略价值的路径——AI原生能力再资产化,即将企业内部所有的金融能力(如数据查询、投研分析、交易执行等)封装成AI原生的标准化工具(MCP Server)。每个工具都拥有清晰的语义描述和标准化的输入输出格式,届时AI在调用时,Token消耗量将大幅降低。
总体来看,从模型路由到场景固化,再到Token-Zip和AI原生工具封装,盈米基金正在构建一套系统化的Token成本控制体系。这套体系的核心并非简单地“省钱”,而是让每一笔Token消耗都变成可计算、可衡量、可优化的价值投资。
当你知道每一个Token都在为你购买非线性增长的杠杆时,Token焦虑就会真正消失。梁仲智建议道:“消耗Token并非坏事,但在这个过程中一定要思考,如何将这些Token消耗稳定且持续地转化为企业的增量价值。”
