首页 游戏 软件 资讯 排行榜 专题
首页
AI
开源模型小钢炮登场!10B多模态屠榜,性能超越巨型系统20倍

开源模型小钢炮登场!10B多模态屠榜,性能超越巨型系统20倍

热心网友
34
转载
2026-01-26


智东西
作者 程茜
编辑 李水青

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西1月20日报道,今日下午,阶跃星辰开源多模态模型Step3-VL-10B。该模型参数量为10B,在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模SOTA水平。

阶跃星辰的多项测评显示,Step3-VL-10B的性能可以媲美甚至超越规模大10-20倍的开源模型,如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B以及闭源旗舰模型,如Gemini 2.5 Pro、Seed-1.5-VL。


这一轻量级模型的性能表现,也意味着手机、电脑、工业嵌入式设备也可以运行GUI操作、复杂文档解析、高精度计数等复杂多模态推理任务。

从技术层面看,Step3-VL-10B的性能突破得益于三个关键设计,分别是高质量多模态语料库上进行统一预训练、缩放多模态强化学习、并行协调推理机制。

目前,阶跃星辰已开源Step3-VL-10B系列的Base模型和Thinking模型。

Hugging Face开源地址:https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope开源地址:https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B

体验地址:https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B

技术报告链接:https://arxiv.org/pdf/2601.09668

一、从GUI感知到视觉识别和推理,Step3-VL-10B思路清晰

阶跃星辰在最新公众号里放出了Step3-VL-10B在多模推理能力方面的真实案例。

首先是关于摩尔斯编码的推理,可以看到模型的思考过程思路清晰,先拆解字母再逐个查表,最后拼接,流程正确,并且对大部分字母如S、T、E、F、U、N的定位和编码描述准确。


其次是GUI感知能力,模型需要识别标签页中以章节开头.tex结尾的文件标签,可以看到其思考过程采用了识别标签、排除非目标、统计数量的步骤进行了准确分析,并有效规避了干扰选项。


第三个是关于图推理的案例,模型需要在连线非常复杂的图片中准确识别中长度最短的图有几条,从思考过程可以看到,其先确认了最小权重的边长度是1,然后再统计所有权重为1的边。


二、拿下开源SOTA,数学竞赛测试题超94分

Step3-VL-10B具备三大核心亮点:

视觉感知精度更高:在同参数量级中展现出顶尖的识别与感知精度,研究人员为其引入PaCoRe(并行协调推理)机制,模型在复杂计数、高精度OCR及空间拓扑理解等高难度任务上的可靠性提升。

深层逻辑推演与长程推理:得益于规模化强化学习(RL)的持续迭代,Step3-VL-10B在10B规模上能应对竞赛级数学难题、真实编程环境、视觉逻辑谜题。

端侧Agent交互:基于海量GUI(图形用户界面)专用预训练数据,模型能够精准识别并操作复杂界面。

阶跃星辰公开的多模态基准测试结果显示,Step3-VL-10B是10B参数类别中最强大的开源模型。


具体来看,在多模态推理能力上,Step3-VL-10B在部分测试集上超越了GLM-4.6V、Qwen3-VL等模型,其性能优于10倍至20倍大的模型。


数学能力方面,该模型在AIME 25/24等数学竞赛测试题上得分超过94分,这意味着其在逻辑严密性上甚至优于许多千亿级模型。


2D、3D空间推理能力上,模型在BLINK上表现出66.79%的涌现式空间意识,在All-Angles-Bench上达到57.21%,意味着该模型在具身智能应用方面具有强大的潜力。


最后是编程能力,在真实、动态编程环境下,Step3-VL-10B超越GLM-4.6V、Qwen3-VL等模型。


此外,该模型的开源主页显示,研究人员在Qwen3VL-8B相关的基准测试中出现了不准确数据,例如AIME、HMMT、LCB,目前正在修复。这些错误是由于其在大规模评估过程中max_tokens设置错误造成,他们将重新运行测试,并在下一版技术报告中提供修正后的数据。

三、从感知到推理双提升,三大关键设计加持

该模型的论文提到,Step3-VL-10B的性能突破得益于三个关键设计:

一是在高质量多模态语料库上进行统一预训练:研究人员采用单阶段、完全解冻的训练策略,在1.2T token的多模态语料库上进行训练,重点关注两大基础能力:推理和感知,例如通用知识和教育中心任务等推理能力,定位、计数、OCR和GUI交互等感知能力。

通过联合优化感知编码器和Qwen3-8B解码器,STEP3-VL-10B建立了内在的视觉-语言协同效应。

二是缩放多模态强化学习:通过一个严格的后训练流程解锁了前沿能力,该流程包括两阶段监督微调(SFT)以及超过1400次的强化学习迭代,结合可验证奖励(RLVR)和人类反馈(RLHF)。

三是并行协调推理机制:研究人员采用并行协调推理(PaCoRe),支持推理阶段的动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合,该机制显著提升了模型在竞赛级数学、复杂OCR识别、精准物体计数及空间拓扑推理中的准确度。

阶跃星辰的最新公众号提到,得益于“三位一体”架构,Step3-VL-10B证明智能水平并不完全取决于参数规模。这也意味着:世界一流的多模态能力有望以更低成本、更少算力获得;与此同时,过去主要集中在云端超级智能将逐步向端侧下沉,推动终端走向“主动理解与可执行交互”。

结语:Step3-VL-10B或成端侧AI新选择

从Step3-VL-10B的实测可以看出,该模型凭借10B轻量化参数体量,通过高质量多模态语料统一预训练、千余次强化学习迭代及并行协调推理机制,实现了对超大规模模型的跨级性能追赶。

并且具体到GUI交互、精准计数、竞赛级数学推理等任务,该模型也展现出较大应用潜力,未来有望降低在工业质检、本地文档分析、基层医疗辅助等场景的部署门槛。

来源:https://www.163.com/dy/article/KJOK3CE8051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07
最小仅2B!谷歌最强开源模型登场,免费商用,手机就能跑
AI
最小仅2B!谷歌最强开源模型登场,免费商用,手机就能跑

智东西编译 陈佳编辑 程茜智东西4月3日消息,今日谷歌DeepMind开源发布Gemma 4系列模型,根据最新博客,这是谷歌迄今为止最智能的开放模型,专为高级推理和智能体工作流而设计,实现了单位参数

热心网友
04.07
日均 120 万亿 Token,火山引擎两年前的赌注开始兑现
AI
日均 120 万亿 Token,火山引擎两年前的赌注开始兑现

带着 Seedance 2 0 和 ArkClaw 两件新武器,火山引擎开始席卷 MaaS 市场。作者|郑玄两年前,火山引擎说要 All in Token 的时候,很多人觉得这是一句正确但空洞的口号

热心网友
04.07
AI看图能力真伪探秘:它是否真是编出来的?
科技数码
AI看图能力真伪探秘:它是否真是编出来的?

一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回

热心网友
04.01
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇
科技数码
中信证券:关注大模型迭代带来的模型原厂、应用与基础设施机遇

智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08