首先来看几个核心亮点:阶跃星辰正式开源了其 Step3-VL-10B 多模态大模型,并且一次性发布了 Base 和 Thinking 两个版本。最令人惊讶的是,这个仅有 10B 参数的小模型,在实际评测中表现竟然超越了参数规模大它 20 倍的同类产品。
官方对此明确表态:该模型在视觉理解、逻辑推理、数学竞赛解题、开放域对话等主流基准测试中,全部拿下了同参数量级的最佳成绩。换句话说,它彻底打破了“小模型等于低智能”的传统刻板印象。
具体来看,在好几项核心评测任务里,Step3-VL-10B 不仅追平了,甚至在某些场景下直接超越了参数多它 10 到 20 倍的开源旗舰模型——比如 GLM-4.6V 106B-A12B 和 Qwen3-VL-Thinking 235B-A22B。甚至能够与 Gemini 2.5 Pro、Seed-1.5-VL 这些顶尖闭源模型一较高下。
这一突破的意义在于:原本需要依赖云端服务器才能运行的高阶多模态推理能力,例如自动化操控手机界面、深度解析复杂文档、或者精确到毫米级的物体计数,现在都可以直接塞进智能手机、个人电脑,甚至是工业级的嵌入式设备里。
那么,这个“小而强”的模型究竟凭什么实现如此表现?从技术角度来看,它具备三大明确优势:
- 强大的视觉感知能力。 在同等参数体量下,它的图像识别和场景感知精度达到了最高水平。关键是他们引入了一个叫 PaCoRe 的机制,全称是并行协调推理。这个机制让模型在处理复杂物体计数、超高精度 OCR、空间关系建模这些特别吃细节的任务时,稳定性和准确率都有了质的提升。
- 长链条逻辑推理能力。 通过大规模强化学习不断优化训练路径,这个 10B 的模型居然也具备了跨领域的复杂推理能力。无论是解国际数学竞赛题、调试真实代码,还是做视觉逻辑谜题,它都能生成严密、可追溯的多步推理过程,并最终给出正确答案。
- 实用的端侧交互能力。 基于海量的 GUI 场景数据预训练,模型能精准识别复杂的图形界面,理解语义并规划下一步动作。说白了,它就是一个轻量化端侧智能体的核心大脑。
值得一提的是,Step3-VL-10B 同时支持两种推理模式:SeRe 和 PaCoRe。从实测数据来看,在 STEM 推理、通用识别、OCR 与文档处理、GUI 定位、空间关系解析、代码生成这些关键维度上,它的表现已经可以媲美千亿参数的大模型。而且,PaCoRe 模式综合得分还要更高一筹。




