阶跃星辰多模态小核弹Step3-VL-10B开源

时间：2026-06-19 11:20

阶跃星辰开源Step3-VL-10B多模态大模型，包含Base和Thinking两个版本。仅10B参数，在视觉理解、逻辑推理等多项基准测试中超越参数大20倍的同类产品，甚至媲美顶尖闭源模型。其视觉感知、逻辑推理和端侧交互能力突出，支持SeRe和PaCoRe推理模式，可部署于端侧设备。

首先来看几个核心亮点：阶跃星辰正式开源了其 Step3-VL-10B 多模态大模型，并且一次性发布了 Base 和 Thinking 两个版本。最令人惊讶的是，这个仅有 10B 参数的小模型，在实际评测中表现竟然超越了参数规模大它 20 倍的同类产品。

官方对此明确表态：该模型在视觉理解、逻辑推理、数学竞赛解题、开放域对话等主流基准测试中，全部拿下了同参数量级的最佳成绩。换句话说，它彻底打破了“小模型等于低智能”的传统刻板印象。

具体来看，在好几项核心评测任务里，Step3-VL-10B 不仅追平了，甚至在某些场景下直接超越了参数多它 10 到 20 倍的开源旗舰模型——比如 GLM-4.6V 106B-A12B 和 Qwen3-VL-Thinking 235B-A22B。甚至能够与 Gemini 2.5 Pro、Seed-1.5-VL 这些顶尖闭源模型一较高下。

这一突破的意义在于：原本需要依赖云端服务器才能运行的高阶多模态推理能力，例如自动化操控手机界面、深度解析复杂文档、或者精确到毫米级的物体计数，现在都可以直接塞进智能手机、个人电脑，甚至是工业级的嵌入式设备里。

那么，这个“小而强”的模型究竟凭什么实现如此表现？从技术角度来看，它具备三大明确优势：

强大的视觉感知能力。 在同等参数体量下，它的图像识别和场景感知精度达到了最高水平。关键是他们引入了一个叫 PaCoRe 的机制，全称是并行协调推理。这个机制让模型在处理复杂物体计数、超高精度 OCR、空间关系建模这些特别吃细节的任务时，稳定性和准确率都有了质的提升。
长链条逻辑推理能力。 通过大规模强化学习不断优化训练路径，这个 10B 的模型居然也具备了跨领域的复杂推理能力。无论是解国际数学竞赛题、调试真实代码，还是做视觉逻辑谜题，它都能生成严密、可追溯的多步推理过程，并最终给出正确答案。
实用的端侧交互能力。 基于海量的 GUI 场景数据预训练，模型能精准识别复杂的图形界面，理解语义并规划下一步动作。说白了，它就是一个轻量化端侧智能体的核心大脑。

值得一提的是，Step3-VL-10B 同时支持两种推理模式：SeRe 和 PaCoRe。从实测数据来看，在 STEM 推理、通用识别、OCR 与文档处理、GUI 定位、空间关系解析、代码生成这些关键维度上，它的表现已经可以媲美千亿参数的大模型。而且，PaCoRe 模式综合得分还要更高一筹。