VibeThinker-3B小型语言模型探索之旅

时间：2026-06-22 15:38

VibeThinker-3B是一款30亿参数的紧凑模型，在数学、编程等可验证推理任务上达到前沿水平，与千亿参数模型媲美。基于后训练流程优化，在IMO-AnswerBench和AIME等基准中取得高分。提出参数压缩-覆盖假设：可验证推理可压缩为紧凑推理核心，而开放域知识需广泛参数覆盖。

VibeThinker-3B是VibeThinker系列在3B参数规模上的最新尝试，聚焦于那些带明确验证信号的挑战性推理任务——数学、编程、STEM领域。通过对VibeThinker-1.5B中引入的频谱到信号原理（SSP）后训练流程做系统化升级，这家伙在AIME、HMMT、IMO-AnswerBench、LiveCodeBench乃至最新的LeetCode竞赛中，成绩亮眼。在可验证推理基准上，它已经能与Qwen3.6 Plus、Gemini 3 Pro、GLM-5、Kimi K2.5这些顶尖前沿模型掰手腕了。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/e7c8a58e5f3b15490f4af6388743614c.png)

基于这些观察，我们发现一个很有意思的现象——不妨叫它“参数压缩-覆盖假设”：不同的能力，对参数的依赖方式根本不同。可验证推理更像是一种高可压缩、参数密集的能力，核心在于多步推理、约束满足、自我纠正、答案验证。只要任务空间结构足够清晰，反馈信号足够可靠，紧凑模型也能逼近前沿水平。相反，开放域知识、通用对话、长尾场景理解，则高度依赖大参数规模去广泛覆盖事实、概念和世界知识。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/65771e0b3ab41d387e4379678b070224.png)

来看具体数字：VibeThinker-3B只有30亿参数，在IMO-AnswerBench（400个IMO级别问题的硬核基准）上拿到76.4分，借助一项叫Claim-Level Reliability Assessment（CLR，一种针对答案可验证推理的测试时缩放策略）的加持后，进一步提高到80.6分。对比一下：DeepSeek V3.2（6710亿参数）是78.3分，GLM-5（7440亿参数）82.5分，Kimi K2.5（1万亿参数）81.8分。不到3亿分之一的参数量，却跑出了同一梯队水平的分数，这才是关键所在。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3585893e3a314440d6528a8277e79f18.png)

更现实的一点：3B规模的模型，消费级显卡就能跑起来，部署成本和门槛大大降低。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/947406e69d13f509d9eaf786fd0509dc.png)

从VibeThinker-1.5B到VibeThinker-3B，目标从来不是拿小模型去取代大模型，而是沿着特定能力维度，探一探小模型的真正边界。通过VibeThinker-3B，我们想传达一个信号：别再把小模型仅仅看作是降低部署成本的权宜之计。在有明确反馈和验证机制的能力领域，小规模语言模型（SLM）正在成为一条前景广阔的研究路线——性能达到前沿水平，跟传统参数扩展范式形成根本性互补。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/4c89fdba764ff06e39a202233ad18994.png)

这篇技术报告详细介绍了VibeThinker-3B——一个30亿参数的紧凑密集模型，核心目标就是在严格的小模型范围内，看看可验证推理到底能走多远。基于Spectrum-to-Signal后训练范式，通过优化流程系统增强，流程包括课程式有监督微调、多域强化学习、离线自蒸馏。评估结果相当硬核：AIME26上达到94.3分（声明级测试时间缩放后提高到97.1），LiveCodeBench v6上Pass@1得分80.2，在最近未见过的LeetCode竞赛中展现出强大的分布外泛化能力，接受率高达96.1%。这有效踏入了一流推理系统的性能行列，跟DeepSeek V3.2、GLM-5、Gemini 3 Pro等规模大几个数量级的旗舰模型相比，不落下风甚至超出。此外，IFEval上拿到93.4分，证实这种极端的推理增强并非以牺牲指令可控性为代价。这些发现延展了之前15亿参数成果，并催生了参数压缩-覆盖假设：可验证推理可以被压缩成紧凑的推理核心，而开放域知识和通用能力则需要对事实、概念、长尾场景进行广泛的参数覆盖。这一观点表明，紧凑模型并非仅仅是部署高效的替代品，而是在参数密集能力范围内实现前沿水平性能的补充途径。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3aeb7252143dff46f7bbcfa2594d30d9.png)

参考资料：
https://github.com/WeiboAI/VibeThinker
https://huggingface.co/WeiboAI/VibeThinker-3B
https://arxiv.org/abs/2606.16140

来源：https://cloud.tencent.com.cn/developer/article/2693680

语言模型

上一篇腾讯元宝30个专业级AI指令模板轻松获得深度分析报告 下一篇Claude Fable 5全新AI模型发布，每月费用你真的用得起吗？

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-25

TalkVisions实时视频翻译应用，消除语言障碍

TalkVisions是一款实时视频翻译应用，能将视频中的口语实时转录为文本并翻译成用户所选语言，以字幕形式叠加在画面上，支持多语言、低延迟，还可保存录制视频，有效消除跨语言沟通障碍。

AI教程 · 2026-07-25

AI驱动的日历管理工具Ipso

IpsoAI是一款专为专业人士及助手打造的AI日历管理工具，能够自动协调多方日程、智能草拟邮件，并通过快速安排会议、提供智能建议及自动化工作流程，显著减少琐碎操作，帮助用户高效管理时间、提升工作效率。

AI教程 · 2026-07-25

Spectate企业级专业高效监控与事故管理一体化平台

Spectate是一款高效监控和事故管理工具，能在30秒内检测故障并推送告警。它支持Slack、PagerDuty等主流集成，提供自定义状态页面和全球性能监控。系统自动更新状态并推送修复建议，帮助团队减少沟通成本，快速解决问题。

AI教程 · 2026-07-25

阿里云通义千问2.5大模型发布多项能力赶超GPT-4

通义千问2 5大模型发布，多项能力宣称赶超GPT-4，中文语境下文本理解、生成、知识问答等表现优异。相比2 1版本，理解提升9%、逻辑推理提升16%、指令遵循提升19%。开源1100亿参数模型超越Llama-3-70B，获评开源最强。已服务超9万家企业，与小米、微博等达成合作。

AI教程 · 2026-07-25

万知个人AI工作站：一站式智能阅读创作分享平台

万知是集成多种AI能力的个人工作站，支持自然语言交互、文档快速阅读与摘要生成、PPT自动设计与优化，覆盖学术研究、商务报告、写作辅助及日常问答等场景，全方位提升工作效率。