Claude代码输出token减少75%的优化原因解析

首页

热心网友

转载

2026-05-19

Claude的回复里，那些看似礼貌的“当然，我很乐意帮你处理这个问题”、“你现在遇到的问题，大概率是由……”之类的开场白，其实都在悄悄消耗你的token预算。

我们实际上是在为这些“客气话”付费。

这让我想起艾伦·艾弗森那段著名的采访，被全网反复调侃。重点不是比赛，也不是胜负，而是他一直在重复一个词——训练。

而现在，我们花钱购买的，某种程度上就是另一种“训练词汇”。

一个简单的测试

我用同一个Unity UI元素的bug，让Claude Code连续解释了两次。

默认状态下的Claude Code，用了1252个token。而开启一个特定方法后，只用了410个token。

修复的是同一个bug，给出的解决方向也完全相同。

差别不在于能力，而在于其中一个版本额外花了800多个token，用于铺垫、寒暄、解释语气，以及那些不影响最终结果的“人性化包装”。

说白了，答案没变，变的只是废话变少了。

方法简单得离谱

GitHub上有一个免费的插件，已经获得了超过1.3万颗星。它做的事情听起来像个玩笑，但效果却非常实在：让Claude的说话方式变得像“xue居人”一样简洁。

安装之后，它会立刻将Claude的输出风格压缩到极简模式：减少寒暄，省略铺垫，砍掉不必要的完整句子，直接切入核心结果。

安装方式也异常简单：

claude plugin marketplace add JuliusBrussee/ca veman
claude plugin install ca veman

安装完成后，只需执行：

/ca veman

即可开启。没有复杂的配置，也没有额外的折腾步骤。

开启后的效果对比

在未开启“xue居人”模式时，Claude通常会这样回答：

“Sure! I’d be happy to help you with that. The issue you’re experiencing is most likely caused by your authentication middleware not properly validating the token expiry. Let me take a look and suggest a fix.”

很礼貌，很完整，但也很“昂贵”。

而开启ca veman模式之后，它的回答会更像这样：

“Bug in auth middleware. Token expiry check use < not <=. Fix:”

瞬间变得干净利落。没有“我很乐意帮你”，没有“让我来看看”，也没有“你遇到的问题很可能是”。直接指出问题所在、错误原因以及修改方法。

关键在于，这不仅仅是为了省钱。通常，这样的回答也更好阅读。因为很多时候，用户需要的并非陪伴式对话，而是可执行的高密度信息。当目的是修复bug、修改代码或推进任务时，越快触及核心内容，体验往往就越好。

最令人意外的并非省钱

起初，我以为这种压缩必然伴随着代价。直觉上会认为：输出更短，token更少，那么质量是否也会随之下降？

听起来很合理，但结果却不一定如此。也就是说，冗长并不一定代表更聪明。很多时候，它只是更昂贵而已。

因为我们过去太容易默认一个观念：“说得越多，说明理解越深。”但对于模型输出来说，许多额外的长度并非洞察，而只是冗余的包装。

可自定义的“xue居人”程度

这个插件并非只有一种压缩模式，它提供了三个层级，允许用户自行决定希望Claude简洁到什么程度。

1. Lite 模式

/ca veman lite

此模式会进行适度精简，保留基本语法结构，整体输出仍保持专业、正常且可读。如果你不喜欢过于生硬的风格，但又想削减不必要的前置话术，这个模式会是一个平衡的选择。

2. Full 模式

/ca veman full

这是默认模式。它会进一步压缩冠词和一些连接性内容，输出更接近短句或碎片化信息，读起来更利落，也更像“直接把结果扔给你”。

3. Ultra 模式

/ca veman ultra

这个模式非常极端。能压缩就压缩，能省略就省略，力求用一个词说完就绝不用两个。风格近乎于：“一词。足矣。”如果你本身就不在意语言的完整性，只追求token效率和信息密度，那么这个模式会让你感到非常痛快。

甚至还有一种更极致的模式：文言文压缩。看到这里，我几乎要后悔学生时代没有认真学好古文了。

一些值得关注的数据

根据插件作者Julius Brussee提供的基准测试，这种节省主要发生在Claude进行“解释说明”的阶段。也就是说，越是需要输出分析、推理过程或建议文本的场景，压缩带来的收益就越明显。真正消耗大量token的大头，往往不是“代码块”本身，而是环绕在代码周围的那些自然语言解释部分。

仔细想想，这很合理。代码本身通常已经比较紧凑。真正容易膨胀的，恰恰是解释代码的那些句子。而Claude最爱“注水”的，也正是这一部分。

另一个配套的实用工具

除了ca veman，还有一个兄弟工具值得一试：ca veman-compress。这个工具的主要作用不是压缩Claude的回答，而是压缩你的CLAUDE.md文件。

很多人会忽略这一点：CLAUDE.md的token消耗是非常可观的。因为它几乎在每个会话中都会被加载一次。这意味着，这个文件里每多一个token，你在后续的每次会话中都可能为此反复付费。这不是一次性成本，而是一种持续的“消耗税”。

ca veman-compress的作用，就是将这类说明文件改写成更紧凑、但仍保持可读的格式。同时，它还会保留一份对人类友好的备份，避免压缩后连自己都看不懂。根据一些用户的反馈，使用后大约能节省45%左右的token。

这一点其实非常关键。因为很多人只盯着输出token，却忘了输入token同样昂贵，而且往往更稳定、更持续。输出token是当次会话的消耗，而输入token则是你每轮对话都在支付的“基础租金”。

我个人的使用习惯

现在，我基本上每次开启新的会话时，都会先输入/ca veman。这已经成了一个习惯。而且我越来越喜欢这种简短、直接、不拖泥带水的输出风格。

以前，我也会尝试让Claude自己来压缩我的CLAUDE.md，但现在我改用专门的插件来处理。一个明显的体感变化是：我遇到使用限额（limit）的频率下降了不少。

说实话，我甚至觉得这种简洁模式应该默认开启。但问题也很现实：输出越长，使用量越高；使用量越高，平台的收入可能就越多。所以，这种“替用户省钱”的行为，不一定天然符合服务提供商的商业激励。这也正是为什么，许多真正实用的小工具，最终往往是由社区率先开发出来的。

来源:https://www.51cto.com/article/840811.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：开发者社区精选：最受欢迎的开源项目与实用脚本分享下一篇：高德地图即将推出首款四足机器人产品