首页 游戏 软件 资讯 排行榜 专题
首页
AI
500行代码构建开源框架:硬刚GPT与Gemini视觉极限

500行代码构建开源框架:硬刚GPT与Gemini视觉极限

热心网友
97
转载
2026-03-16


新智元报道

编辑:KingHZ

【新智元导读】多模态模型代码写得像老司机,却在数手指、量柱子时频频翻车?UniPat AI用五百行代码打造的SWE-Vision,让模型「掏出Python尺子」自我验证,一举拿下五大视觉相关基准SOTA。

模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。

UniPat AI构建了一个极简的视觉智能体框架——SWE-Vision,让模型可以编写并执行Python代码来处理和验证自己的视觉判断。

在五个主流视觉基准测试中,SWE-Vision均达到了当前最优水平。

模型看得见,却没法精确处理

在过去一年,多模态大模型的代码能力取得了惊人进展——独立搭建项目、排查bug、完成复杂重构,表现已可比肩资深工程师。

然而,在「理解视觉世界」这件事上,它们的表现远没有代码能力那样可靠。

UniPat AI此前发布的多模态基准BabyVision就揭示了这一现象:模型常常给出大段看似合理的推理,却在最基础的计量、计数和空间关系判断上出错。

UniPat AI此前发布的多模态理解benchmark BabyVision已被多个近期发布的重磅模型产品纳入评测体系,并在其技术报告中被引用,体现了社区对这一问题的广泛关注。

当我们仔细审视BabyVision中模型出错的案例时,可以发现一个关键点:问题往往是「模型看见了,却无法精确处理」:

阅读柱状图时,模型能感知到「大约75%」,但无法精确计算比值;

在复杂场景中计数时,模型可能识别了每一个物体,但在逐一清点时出错;

描述空间位置时,模型能给出定性判断,但难以稳定进行距离计算和几何推理。

面对这些错误,人类通常会怎么做?

掏出工具:画辅助线、作出标记、用尺测量、用笔计算。

这个观察引发了一个关键猜想:既然模型已经极其擅长编程,能否让它用代码——这个它最熟悉的工具——来弥补视觉处理中的精度短板?

SWE-Vision正是对这一猜想的系统性验证。


其结果令人瞩目:在五个不同的视觉基准测试中——涵盖基础感知、图表推理、数学问题解决、空间理解和复杂的多步骤视觉挑战——SWE-Vision始终改进了前沿LLM,如GPT-5.2-xhigh和Seed-2.0-Pro,并取得了最先进的结果:

在BabyVision上达到64.4,

在MathVision上达到94.0,

在Zero-Bench-Sub上达到50.1,

在OmniSpatial上达到69.0,

在CharXiv-RQ上达到82.5。

SWE-Vision是什么

一个「极简视觉智能体」

SWE-Vision并不需要再造一堆专用视觉工具,而是把要做的事压缩到极简:


工具层:只保留两个工具

config.py里定义的工具只有两个:execute_code和finish。

execute_code:让模型在一个可持续保留状态的Jupyter环境里执行Python

finish:当模型确信答案正确时输出最终答案

这里最关键的不是「能执行代码」,而是工具接口本身非常小、非常通用。SWE-Vision没有给模型塞一堆专用视觉API,而是只暴露一个模型本来就很熟悉的动作:写Python。


控制层:一个标准的agentic loop

agent.py里的VLMToolCallAgent实现了完整的循环:

先把用户问题和图片组织成消息;

然后调用支持tool use的聊天接口;

如果模型发起execute_code,就把代码送到notebook内核执行;

再把执行结果作为tool message回流给模型;

模型据此决定继续调用工具还是finish。

repo里默认tool_choice="auto",并支持reasoning模式;在开启时会把推理effort设为高档,并允许最多100轮迭代。


执行层:Docker里的持久化Jupyter kernel

kernel.py不是简单exec()一段代码,而是正经启动一个Docker容器,再在容器里拉起ipykernel。宿主侧通过jupyter_client.BlockingKernelClient连接这个内核,并从IOPub/shell通道收集执行结果。

内核是持久化的,变量、导入、图像对象和中间结果都能跨多次execute_code保留;同时代码运行在隔离的Docker环境里,宿主与容器通过挂载目录交换文件。

kernel.py还会在启动后做health check,并把matplotlib后端配置成inline,以便抓取图像输出。

简单来说,SWE-Vision不强迫模型每题都写代码,但给它一个随时可用并且熟悉的「视觉工具库」。

请求到底怎么流动

从看图推理到带图循环验证

SWE-Vision像一个会看图的数据科学家,其完整工作流如下:

用户给问题+图片

模型先思考:这题能不能直接答?需不需要计算/验证?

需要就调用execute_code:在Notebook里用PIL/NumPy/matplotlib等做分析

代码输出(数值/报错/可视化图)回流给模型

模型继续迭代,直到调用finish给最终答案


它有几个关键设计:

有状态的执行环境:变量、导入、图片加载都能跨多次调用保留

Docker沙箱:确保可控安全环境+复现性;

Image-in/Image-out:意味着模型不仅能读取输入图像,还能将自己生成的可视化结果回传给自身进行验证——这是实现自我纠错的关键;

OpenAI function calling标准接口:保证了与主流模型的开箱即用兼容性。

这套设计的价值在于:允许模型像一个真正的科学家一样,先做实验再下结论。

为何stateful notebook比一次性code executor更关键?

很多人第一次看SWE-Vision会觉得,它不过是在VLM外面加了个Python工具。

真正的差别其实在于stateful。

在SWE-Vision中,内核状态会在多次调用间保留。

这意味着模型可以像人类分析师那样分步工作:

第一轮先读图、检查尺寸;

第二轮裁剪局部、看边缘;

第三轮统计颜色或测距离;

第四轮画辅助线做确认;

最后再生成答案。

如果代码执行是无状态的,这种多步分析会非常笨重:每一步都要重新导入库、重载图片、重建变量,模型也更难维护中间假设。

SWE-Vision通过持久化kernel,把「多轮工具调用」变成了「同一个notebook会话里的连续实验」。

从工程实现上看,这也是它为什么能处理图表测量、空间关系和复杂多步视觉任务,而不只是做一次性的OCR或检测。

SWE-Vision的关键

在于「能验证自己的视觉判断」

在SWE-Vision「观察科学图表、总结规律」的案例中,我们看到了一种截然不同的行为模式。

如下图所示,这是科研场景中常见的图表分析任务:我们要求模型判断,在Quarters=15时,哪一张子图中红色虚线与黑色实线之间的差距最大。

SWE-Vision智能体给出了一套极其严谨且可解释的解法。

首先,它排除了不存在红色虚线的子图(d);

随后,对每一张候选子图在Quarters=15处精确绘制辅助线,定位红线与黑线的交点;

接着,通过可执行代码精确计算两条曲线在该位置的数值差距;

最终基于计算结果给出正确答案。

这种「先结构化分析、再程序化测量、最后数值验证」的思维与行动闭环,与传统视觉语言模型依赖直觉式「瞪眼观察」直接给出答案的方式形成鲜明对比。

它不仅显著提升了结果的可靠性与可解释性,也展示出更高的能力上限与更强的泛化潜力。


为什么极简设计反而更强

SWE-Vision的一个重要结论是:对视觉任务而言,加入通用代码工具,是提升前沿多模态模型视觉能力的一个有效test-time scaling方向。

它之所以有效,恰恰在于其极简:

工具数量少,决策边界清晰;

工具语义与模型已有能力高度一致;

支持多轮迭代和状态积累;

中间结果可被再次观察,而不是一次性返回文本;

不绑定某个特定benchmark的专用手工策略。

这与很多「为了某类视觉任务单独发明一套工具接口」的方法不同。

这些方法往往在某些窄任务上能提升,但泛化性不足。而SWE-Vision的目标,是提供一个尽可能通用的视觉增强框架,让模型自己决定何时调用代码、如何组织分析步骤。

五大基准全线提升

更加通用的「视觉能力增强器」

SWE-Vision在五个覆盖面很广的视觉基准上进行了评测(基础感知、图表、数学、空间、综合多步推理),核心发现高度一致:引入代码执行能力,能系统性地抬升前沿模型的视觉表现上限。

在对比实验中(同一模型vsSWE-Vision),SWE-Vision对两个前沿的视觉语言模型(GPT-5.2,Seed-2.0)都带来显著提升:



「反直觉」的一点是:提升幅度最大的,往往不是最复杂的高阶推理任务,而是最基础的感知和精确处理能力——例如BabyVision中的计数、颜色识别和空间关系判断。

这类任务人类靠直觉加简单工具就能稳定完成,而模型仅凭「语言化视觉」则极易忽略细节、数错个数、缺乏验证手段。

SWE-Vision的结果也给我们揭示了另一种可能:

对于视觉来说,测试时扩展(test-time scaling,TTS)不一定只能靠「多想几段文字」,也可以靠「多写几行代码」来看得更精细。

未来,「代码增强视觉」成视觉智能体原生能力

与用于训练多模态LLMs的传统数据(基本上是问题,图片,答案三元组)不同,训练视觉智能体模型需要多模态交错的智能体轨迹。

它还需要一个交互式环境来支持强化学习、工具使用和评估,使模型不仅能学习回答问题,还能学习感知、行动和反思,要彻底释放「工具增强视觉」的潜力,模型需要更多深度交织的视觉-编程SFT/RL数据与环境,来学会感知、行动和反思。

具体而言,下一步的关键方向包括:

判断时机:学会识别何时视觉推理需要代码辅助,何时可以直接回答

中间验证:在多步推理过程中主动检验中间结果的正确性

失败恢复:在代码方案无效时及时跳出,切换到替代策略

原生融合:让「观察」与「计算」不再是两个独立步骤,而是深度融合,一体两面

SWE-Vision的开源代码已在GitHub发布。编程辅助的精确视觉理解是一个值得社区共同探索的方向——五百行代码的极简框架,也许是这段旅程一个不错的起点。

正式: https://unipat.ai

Blog: https://unipat.ai/blog/SWE-Vision

开源地址: https://github.com/UniPat-AI/SWE-Vision

来源:https://www.163.com/dy/article/KO4P07JI0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

IP SH城市视觉版权交易系统五年焕新升级
科技数码
IP SH城市视觉版权交易系统五年焕新升级

寻找上海的城市视觉素材,既要新、又要多、还得可靠,有没有一个地方能同时满足这些要求? 最近有个平台做了件挺实在的事。IP SHANGHAI,这个上海的城市形象资源共享平台,为了庆祝上线五周年,对其视觉版权交易系统进行了一次重要升级。核心变化在于,创作者现在可以自主为上传的原创图片和视频设定价格,而使

热心网友
05.12
美剧续作越拍越好的反常识密码
娱乐
美剧续作越拍越好的反常识密码

续集魔咒是 Hollywood 铁律——《Beef》第二季却打破了它 说来有趣,这部口碑不降反升的亚裔复仇剧续作,让观众印象最深的,往往不是那些戏剧性的剧情转折,而是每一集里一闪而过的怪诞画作。这本身,就挺反常的。 正方:视觉符号才是续作的灵魂 通常来说,续集为了维持热度,要么堆砌新角色,要么制造更

热心网友
04.26
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升
科技数码
港中大突破:单GPU实现对话驱动多镜头好莱坞级视频生成能力提升

从单镜头到电影叙事:交互式AI视频生成的技术突破 这项由香港中文大学多媒体实验室、快手科技以及香港创新科技研究院联合开展的研究,已于2026年3月发表在计算机视觉顶级会议上,论文编号为arXiv:2603 25746v1。对技术细节感兴趣的读者,可以通过该编号查阅完整的学术论文。 当前的AI视频生成

热心网友
04.17
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流
科技数码
原生Steam Link应用登陆苹果Vision Pro头显,支持4K游戏串流

原生Steam Link应用正式登陆苹果Vision Pro,实现4K高清游戏串流体验 游戏玩家们迎来重磅消息。根据知名科技媒体9to5Mac的报道,Valve已正式推出专为visionOS系统开发的原生Steam Link应用测试版。苹果Vision Pro用户现在即可通过TestFlight平台

热心网友
04.14
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法
AI
机器人舞姿爆红背后:具身智能行业“卡脖子”难题,终于有了新解法

头图由智象未来AI大模型生成智东西作者 王涵编辑 漠影在演唱会、各大晚会的舞台上,机器人伴舞团以整齐划一、精准卡点的舞姿惊艳全场。这种整齐划一不仅是硬件的胜利,更是“训练有素”的结果。具身智

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

斯柯达晶锐Fabia Motorsport特别版车型正式发布
业界动态
斯柯达晶锐Fabia Motorsport特别版车型正式发布

为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘

热心网友
05.18
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元
web3.0
灰度以太坊质押ETF持仓超10万枚ETH 价值2.37亿美元

Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,

热心网友
05.18
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾
业界动态
劳斯莱斯库里南防弹版发布 Inkas打造隐形防护座驾

劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲

热心网友
05.18
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台
游戏资讯
GTA5与荒野大镖客2高清复刻版或将登陆Switch平台

新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。

热心网友
05.18
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录
业界动态
大众ID. Polo GTI全球首发亮相 高尔夫GTI刷新纽北赛道纪录

当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID

热心网友
05.18