游乐游手机版
首页/AI教程/文章详情

VibeThinker-3B小型语言模型探索之旅

时间:2026-06-22 15:38
VibeThinker-3B是一款30亿参数的紧凑模型,在数学、编程等可验证推理任务上达到前沿水平,与千亿参数模型媲美。基于后训练流程优化,在IMO-AnswerBench和AIME等基准中取得高分。提出参数压缩-覆盖假设:可验证推理可压缩为紧凑推理核心,而开放域知识需广泛参数覆盖。

VibeThinker-3B是VibeThinker系列在3B参数规模上的最新尝试,聚焦于那些带明确验证信号的挑战性推理任务——数学、编程、STEM领域。通过对VibeThinker-1.5B中引入的频谱到信号原理(SSP)后训练流程做系统化升级,这家伙在AIME、HMMT、IMO-AnswerBench、LiveCodeBench乃至最新的LeetCode竞赛中,成绩亮眼。在可验证推理基准上,它已经能与Qwen3.6 Plus、Gemini 3 Pro、GLM-5、Kimi K2.5这些顶尖前沿模型掰手腕了。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/e7c8a58e5f3b15490f4af6388743614c.png)

基于这些观察,我们发现一个很有意思的现象——不妨叫它“参数压缩-覆盖假设”:不同的能力,对参数的依赖方式根本不同。可验证推理更像是一种高可压缩、参数密集的能力,核心在于多步推理、约束满足、自我纠正、答案验证。只要任务空间结构足够清晰,反馈信号足够可靠,紧凑模型也能逼近前沿水平。相反,开放域知识、通用对话、长尾场景理解,则高度依赖大参数规模去广泛覆盖事实、概念和世界知识。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/65771e0b3ab41d387e4379678b070224.png)

来看具体数字:VibeThinker-3B只有30亿参数,在IMO-AnswerBench(400个IMO级别问题的硬核基准)上拿到76.4分,借助一项叫Claim-Level Reliability Assessment(CLR,一种针对答案可验证推理的测试时缩放策略)的加持后,进一步提高到80.6分。对比一下:DeepSeek V3.2(6710亿参数)是78.3分,GLM-5(7440亿参数)82.5分,Kimi K2.5(1万亿参数)81.8分。不到3亿分之一的参数量,却跑出了同一梯队水平的分数,这才是关键所在。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3585893e3a314440d6528a8277e79f18.png)

更现实的一点:3B规模的模型,消费级显卡就能跑起来,部署成本和门槛大大降低。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/947406e69d13f509d9eaf786fd0509dc.png)

从VibeThinker-1.5B到VibeThinker-3B,目标从来不是拿小模型去取代大模型,而是沿着特定能力维度,探一探小模型的真正边界。通过VibeThinker-3B,我们想传达一个信号:别再把小模型仅仅看作是降低部署成本的权宜之计。在有明确反馈和验证机制的能力领域,小规模语言模型(SLM)正在成为一条前景广阔的研究路线——性能达到前沿水平,跟传统参数扩展范式形成根本性互补。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/4c89fdba764ff06e39a202233ad18994.png)

这篇技术报告详细介绍了VibeThinker-3B——一个30亿参数的紧凑密集模型,核心目标就是在严格的小模型范围内,看看可验证推理到底能走多远。基于Spectrum-to-Signal后训练范式,通过优化流程系统增强,流程包括课程式有监督微调、多域强化学习、离线自蒸馏。评估结果相当硬核:AIME26上达到94.3分(声明级测试时间缩放后提高到97.1),LiveCodeBench v6上Pass@1得分80.2,在最近未见过的LeetCode竞赛中展现出强大的分布外泛化能力,接受率高达96.1%。这有效踏入了一流推理系统的性能行列,跟DeepSeek V3.2、GLM-5、Gemini 3 Pro等规模大几个数量级的旗舰模型相比,不落下风甚至超出。此外,IFEval上拿到93.4分,证实这种极端的推理增强并非以牺牲指令可控性为代价。这些发现延展了之前15亿参数成果,并催生了参数压缩-覆盖假设:可验证推理可以被压缩成紧凑的推理核心,而开放域知识和通用能力则需要对事实、概念、长尾场景进行广泛的参数覆盖。这一观点表明,紧凑模型并非仅仅是部署高效的替代品,而是在参数密集能力范围内实现前沿水平性能的补充途径。

![](https://developer.qcloudimg.com/http-sa ve/yehe-1293908/3aeb7252143dff46f7bbcfa2594d30d9.png)

参考资料:
https://github.com/WeiboAI/VibeThinker
https://huggingface.co/WeiboAI/VibeThinker-3B
https://arxiv.org/abs/2606.16140

来源:https://cloud.tencent.com.cn/developer/article/2693680
上一篇腾讯元宝30个专业级AI指令模板轻松获得深度分析报告 下一篇Claude Fable 5全新AI模型发布,每月费用你真的用得起吗?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Windows Docker Desktop RabbitMQ生产级部署完整指南
AI教程 · 2026-06-29

Windows Docker Desktop RabbitMQ生产级部署完整指南

前言 在 Windows 本地开发环境中,直接安装 RabbitMQ 确实颇为周折:需要单独配置 Erlang 运行环境、手动管理环境变量、服务启停全凭手工操作。更令人困扰的是,版本兼容冲突、端口占用、环境不一致等问题层出不穷。笔者见过不少开发者为搭建环境就得耗费整整半天时间。 相比之下,借助 Do

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践
AI教程 · 2026-06-29

AI搜索重构制造业采购逻辑的阿里云企业级GEOCMS优化实践

先分享一个切实感受。过去两年,我们与福建制造企业合作较为频繁,发现一个非常突出的现象:超过80%的企业官网,产品参数仍然存放在PDF或图片中。AI爬虫?根本无法抓取。这些企业技术实力不弱、资质证照齐全、应用案例也丰富,但在AI搜索这一全新战场上,它们几乎处于隐身状态。 一、一个正在发生的行业变化 A

阿里云Token Plan团队版功能价格与省钱购买指南
AI教程 · 2026-06-29

阿里云Token Plan团队版功能价格与省钱购买指南

阿里云百炼近期推出了名为“Token Plan 团队版”的全新服务,这一服务专为企业与开发者量身打造,定位为AI大模型订阅平台。通过引入Credits作为统一计量单位,将文本生成、图像生成等多模态AI能力纳入单一计费体系,同时无缝兼容主流AI编程工具及智能体(Agent)生态系统。其核心亮点包括:全

阿里云物联网.NET Core客户端位置信息上报
AI教程 · 2026-06-29

阿里云物联网.NET Core客户端位置信息上报

阿里云物联网平台的位置服务并非一个完全独立的功能模块。位置信息可包含二维坐标与三维坐标,而位置数据的来源本质上是借助设备属性进行上传。换言之,若要让设备上报位置,您需先将其视为一个普通属性进行处理。 1)添加二维位置数据 操作过程十分简洁。进入数据分析 → 空间数据可视化 → 二维数据,点击添加,将

年阿里云服务器选型配置与网站部署全攻略
AI教程 · 2026-06-29

年阿里云服务器选型配置与网站部署全攻略

2026年,阿里云服务器生态已高度成熟,形成了清晰的轻量应用服务器与ECS云服务器两大产品阵营。无论你是计划搭建个人博客、企业官网,还是运营电商平台、进行应用开发,基本都能找到理想的解决方案。本指南将从服务器选型、配置选择、部署流程到安全运维,系统梳理2026年最实用的操作要点,帮助你少走弯路,让网