微软亚洲研究院：让大模型看懂图表只需3个关键步骤

首页

热心网友

转载

2025-11-04

微软亚洲研究院与清华大学、香港科技大学联合提出PixelCraft，该系统以高保真图像处理和非线性多智能体推理为核心支柱，系统性地提升结构化图像理解的准确性、鲁棒性与可解释性。在多个图表与几何基准测试中，PixelCraft均展现出显著的性能提升。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

尽管多模态大模型在自然图像理解上取得长足进步，但面对图表、几何草图、科研绘图等结构化图像任务时，细微的感知误差往往会被迅速放大，最终导致推理偏差。

传统依赖线性链式思维的流程，难以支撑复杂任务中必需的回溯与分支探索能力。

为此，微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft解决方案。该系统通过高保真图像处理模块与非线性多智能体推理框架的协同工作，全面优化结构化图像理解的准确性、鲁棒性与可解释性，在多个图表与几何基准测试中均带来持续的性能增益。

结构化图像的痛点与PixelCraft的切入

自然图像通常可以借助纹理特征与局部模式完成理解，而结构化图像将信息编码为坐标、数据点、连线与数值标注，要求模型在像素级细节上建立可验证的"符号化抽象"。

在这样的场景下，传统仅依赖文字链式推理的方式往往牺牲了空间与结构细节。

"视觉链式推理"虽然尝试插入中间图像线索，但受制于低保真的图像处理和简单的线性处理链条，这类方法在应对复杂真实问题时效果有限。这一局限性在更贴近真实场景的CharXiv、ChartQAPro等基准测试中得到了明确体现。

PixelCraft将这一问题拆解为两个关键环节：先把"看准"做扎实，再让"思考"更灵活。

从"明亮的眼睛"到"稳健的双手"，再到"讨论式思考"

系统组成：PixelCraft的系统由调度器、规划器、推理器、视觉评审与规划评审以及一组视觉工具代理构成。调度器负责工具和角色的选择与编排；规划器维护图像记忆并管理讨论流程；推理器承担多模态推理；视觉与规划评审分别负责在环质量控制与事后复盘；视觉工具代理执行具体图像操作。

高保真视觉处理：研究团队在高质量标注数据上对Qwen2.5-VL-3B-Instruct进行微调，得到像素级grounding模型，能够将目标区域的文本指代精确映射到像素级坐标区域。

以此为基础，系统通过工具代理调用一组标准化的传统CV操作（如裁切、放大、按图例遮挡、辅助线标注等），使中间编辑步骤可验证、可复现，为后续推理提供稳定证据。

系统的工具并非静态预设，而是通过自动生成—标准化—调用的闭环形成：系统基于任务样本由大模型生成候选工具，经聚类与重写后作为工具库备用。

子图裁切/局部放大

带图例的数据绘制/添加辅助线

随后结合grounding坐标与调度/规划策略，实现精准、可重复、可回溯的工具调用。

在讨论式推理中，工具按需被动态选择与复用，从而把"看准"（定位与编辑的准确性）与"能做"（可执行操作）有效衔接。

在合成与标注评测集上，微调后的grounding在子图区域、图例区域、文本标签与刻度点的IoU/PCK指标均较基础模型有显著提升。

保持智能体系统的底座模型不变，切换不同grounding模型会传导至下游基准（如CharXiv、ChartQAPro等）的最终精度，说明定位质量对整体性能具有关键影响。

由此，"高保真定位+工具闭环"有效减少了由"截断/标错"引起的误差传播。

非线性、多角色的"讨论式推理"

PixelCraft的讨论式流程由规划器统筹：先选择合适的工具与角色，随后规划器根据当前上下文按需选择下一角色及其输入（图像或文本），并角色间传递中间结果。

推理过程中由视觉评审判定图像处理是否满足目标，再由规划评审事后复盘整条链路径，必要时触发再规划再推理。

与"只在上一张图上继续"的线性链不同，图像记忆让规划器能在讨论中主动回看早期证据、尝试备选分支、修订假设。

这一"以讨论为核心的工作流"在结构化图像场景中尤显必要：细节一旦出错，应尽快止损并回溯而不是被动前行。

实验：多底座、多数据集的一致增益

在三个具有挑战性的图表理解基准CharXiv、ChartQAPro、EvoChart上，PixelCraft在GPT-4o等大模型基础上取得大幅提升，且跨模型表现一致。

消融实验显示，可靠的图像编辑+在环校验+事后复盘共同支撑了系统的稳定性与可解释性。

研究还构造了与常规VisualCoT的对照：把历史中间图像全部并入上下文、让模型在线性链里"带图思考"。

结果显示，在CharXiv与ChartQAPro上，简单的VisualCoT结果明显低于PixelCraft的范式。

这从正反两面印证：不是"把图都塞进去"就能解决问题，选择性记忆+讨论式回溯才是更有效的组织方式。

工具层面，图表类的子图裁切、局部放大、辅助线标注、按图例遮挡覆盖了大多数据分析操作。

几何类的点连线、作垂线/平行线为推理提供"草图级"证据。

论文给出了工具使用频率与单项贡献的统计，也展示了多种具体处理案例。

PixelCraft提出了一条面向结构化图像的半自动化新范式：包含工具制造、工具选择、工具调用、过程修改。

先以像素级grounding把证据找准，再把证据交给"工具化的双手"去做可验证的编辑，最后在规划器主导的讨论式流程中组织推理，并用图像记忆贯穿回溯与分支探索。

通过这一整套设计，系统在多个benchmark上取得跨模型一致的提升，且中间过程清晰可检。

对需要处理图表、几何等结构化图像而言，PixelCraft显著提升了模型推理的准确性和鲁棒性。

论文链接：https://arxiv.org/pdf/2509.25185

来源:https://www.51cto.com/article/828709.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：金蝶AI全面升级：企业管理系统迈入原生智能时代下一篇：约翰迪尔大块头亮相进博会，高通用国产手机秀合作

热门推荐

web3.0

美国SEC主席Paul Atkins证实：加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑，终于有了实质性进展。美国证券交易委员会（SEC）主席保罗·阿特金斯（Paul Atkins）近日证实，那份允许加密项目在早期获得注册豁免权的“安全港”框架提案，已经正式送抵白宫，进入了最终审查阶段。在范德堡大学与区块链协会联合举办的数字资产峰会上，阿特金斯透露了这

热心网友

04.08

web3.0

微策略Strategy报告：第一季录得144.6亿美元浮亏再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告：第一季录得144 6亿美元浮亏再斥资约3 3亿美元买进4871枚比特币市场震荡的威力有多大？看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告，受市场剧烈波动影响，这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友

04.08

web3.0

稳定币发行商Tether再扩Web3版图！Paolo Ardoino：正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向，向来是加密世界的风向标。这不，它向Web3基础设施的版图扩张，又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露，其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出，立刻引发了行业的广泛猜想。采用D

热心网友

04.08

web3.0

Base链首个原生DeFi借贷协议Seamless Protocol倒闭将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol，日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议，在运营不到三年后，终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets（ILMs）——一

热心网友

04.08

web3.0

PAAL代币如何参与治理？社区投票能决定哪些事项？

PAAL代币揭秘：深度解析Web3社区治理的核心钥匙在去中心化自治组织的浪潮中，谁真正掌握了项目的话语权？PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介，更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币，用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友

04.08