微软亚研院与清华合作:双向感知技术提升AI图像理解清晰度

有没有想过,为什么AI有时候能读懂复杂的图表,有时候却在最简单的图片上犯傻?比如看一张医院的X光片,AI可能准确识别出骨折的位置,但看一张超市的价格标签时,却可能把"9.99元"读成"6.66元"。这个问题困扰着整个AI视觉理解领域,而微软亚洲研究院的张硕硕、张艺臻等研究人员联合清华大学的杨玉久教授团队,在2025年12月提出了一项名为"双向感知塑造"(BiPS)的突破性解决方案,相关研究论文发表在arXiv平台上,编号为2512.22120v1。
目前的大型视觉语言模型就像一个近视眼的学生,戴着度数不合适的眼镜看黑板。有时候能看清楚整体轮廓,但经常错过关键细节,或者把重要信息和无关背景混在一起。特别是在处理图表这样的复杂视觉内容时,AI经常会"抓大放小",忽略了那些细如发丝的折线图曲线、密密麻麻的数据点,或者图表中的微小标注。
传统的解决方案就像给这个近视学生配一个助手,在考试时不断提醒他"看这里!看那里!"。研究人员会使用各种外部工具,比如图像裁剪、高亮标注等方式,在AI推理过程中不断给出视觉提示。但这种方法有三个明显问题:就像那个助手只会用矩形框指东西一样,无法精确指出不规则形状的重要区域;每个不同的任务都需要专门训练的助手,无法通用;而且每次推理都需要助手在旁边指导,大大增加了计算成本和出错风险。
张硕硕团队提出的双向感知塑造技术,就像是直接给这个近视学生进行视力矫正手术,让他从根本上学会正确地"看"。这种方法不是在推理时给提示,而是在训练阶段就教会AI如何正确聚焦重要信息,忽略干扰内容。
整个训练过程分为两个阶段,就像学开车一样:第一阶段是学习"往哪看",第二阶段是学习"不该看什么"。在第一阶段,研究团队会给AI展示一张完整的图表,然后展示一张只保留答题必要信息的"精简版"图表。AI需要学习在看完整图表时,得出与看精简图表时相同的答案。这就像教学生在复杂的考卷中迅速锁定关键信息,忽略那些华丽但无关的装饰。
第二阶段更加巧妙,研究团队会故意制作一张"陷阱版"图表,把回答问题必需的关键信息抹掉,只留下可能误导答案的背景信息。AI必须学会在这种情况下给出与原图不同的答案,这样可以确保AI真正依赖视觉信息进行推理,而不是仅仅根据问题文本进行猜测。就像教学生不能仅凭题目描述就答题,必须认真观察图表数据。
研究团队面临的最大挑战是如何精确地制作这些"精简版"和"陷阱版"图表。传统的随机遮挡方法就像用黑布随意遮住黑板的某些部分,既可能遮住重要内容,也可能遮住无关内容,效果很不理想。研究团队想出了一个绝妙的解决方案:既然手工制作困难,那就用代码生成。
他们选择了图表作为训练数据的来源,因为现代图表都是用代码绘制的,每一条线、每一个点、每一个标签都对应代码中的特定部分。这就像有了图表的"基因图谱",可以精确地编辑任何元素。研究团队开发了一套自动化流水线,能够分析图表生成代码,识别出回答特定问题所必需的代码片段和可能干扰答案的代码片段,然后精确地生成训练所需的不同版本。
具体来说,制作"精简版"图表时,系统会保留回答问题必需的所有视觉元素,移除无关的装饰性内容。比如,如果问题是"哪条曲线下降最快?",精简版就会保留所有曲线数据,但移除图例、标题等可能分散注意力的元素。制作"陷阱版"图表时,系统会精确移除关键的曲线数据,只保留坐标轴、图例等背景信息,让图表看起来完整,但实际上无法回答问题。
这套流水线还包含质量控制机制。首先,系统会将原始的开放性问题转换为多选题格式,确保答案可以客观验证。然后,系统会筛选掉那些对基础模型来说"太简单"的问题,专注训练那些真正有挑战性的案例。最终,从5万个原始样本开始,经过层层筛选和处理,研究团队获得了1.3万个高质量的训练样本。
在技术实现上,双向感知塑造使用了一种叫做"群组相对策略优化"的强化学习框架。这种方法的核心思想是让AI的预测行为受到双重约束:一方面,当看到精简版图表时的答案应该与看原图时的答案保持一致(一致性约束);另一方面,当看到陷阱版图表时的答案应该与看原图时的答案尽可能不同(分离约束)。
一致性约束确保AI能够专注于真正重要的视觉信息,不被无关元素分散注意力。分离约束则防止AI养成"偷懒"的习惯,即仅凭问题描述就猜答案,而不真正观察图像内容。两个约束相互配合,就像汽车的油门和刹车,共同确保AI的视觉理解能力朝正确方向发展。
研究团队将这种方法应用到了当前性能优秀的Qwen2.5-VL-7B模型上。训练过程分为两个阶段:第一阶段使用7千个包含精简版图表的样本,训练5个轮次,主要建立一致性约束。第二阶段使用全部1.3万个样本,训练3个轮次,加入分离约束。为了进一步提升通用推理能力,研究团队还用3.9万个数学推理样本进行了额外训练。
实验结果令人印象深刻。在八个不同的基准测试中,仅使用1.3万个图表样本训练的BiPS-Chart模型,平均性能比基础模型提升了7.3个百分点。更重要的是,这种提升不仅体现在图表理解任务上,还扩展到了完全不同的视觉推理任务,如数学题目和一般图像理解,显示出强大的泛化能力。
加入3.9万个数学样本后的最终BiPS-General模型,平均性能提升达到8.2个百分点。在具体任务上,CharXiv数据集的性能从42.5%提升到50.6%,ChartQAPro从36.6%提升到51.8%,MathVista从68.2%提升到75.0%。这些提升幅度在AI视觉理解领域是相当显著的。
更令人惊讶的是训练效率。许多专门针对图表理解设计的模型使用了数十万甚至数百万个训练样本,但BiPS仅用1.3万个样本就达到了更好的效果。这就像一个学生只用了别人十分之一的练习题,却在考试中取得了更高的分数,说明学习方法的重要性远超练习量。
研究团队进行了详细的消融实验来验证设计选择。结果显示,一致性约束和分离约束都对最终性能有重要贡献,但分离约束的作用更为显著,说明防止AI"偷懒"的重要性。两阶段训练顺序也很关键:先建立一致性约束,再加入分离约束,比同时优化两个目标或颠倒顺序都要有效。
对比实验还验证了程序化数据生成方法的优势。与简单的随机遮挡相比,基于代码的精确编辑显著提升了训练效果,说明高质量训练数据的重要性。不同的约束强度设置实验表明,适中的约束系数(一致性约束0.01,分离约束0.02)效果最好,过强的约束反而会干扰正常的学习过程。
在实际案例分析中,BiPS展现出的改进清晰可见。面对一个关于多图表中最高准确率的复杂问题,基础模型容易被频繁出现的数字模式误导,给出94.6%这样的"典型"答案,而BiPS能够仔细分析每个子图的实际数据,给出正确的94.0%。在另一个关于曲线交点数量的问题上,基础模型可能凭直觉猜测,而BiPS会系统地追踪每条曲线的实际轨迹。
这项研究的意义远超技术本身。它代表了AI视觉理解领域的一种新范式:从依赖外部工具和推理时提示,转向通过精心设计的训练过程来内化正确的感知能力。这种方法不仅提升了准确性,还大大降低了部署成本和复杂度,因为训练好的模型在实际使用时不需要任何额外的视觉提示工具。
研究团队的工作还展示了合成数据的强大潜力。通过巧妙利用图表生成代码的结构化特性,他们能够创造出传统数据收集方法难以获得的高质量训练样本。这种方法为其他需要精确视觉监督的AI任务提供了新的思路。
从更广阔的角度来看,双向感知塑造技术解决的是AI系统的一个根本性问题:如何确保AI真正"理解"而不是"猜测"。在医疗诊断、自动驾驶、工业检测等关键应用场景中,AI必须能够准确识别细微但关键的视觉线索。BiPS提供的训练框架有望被应用到这些领域,提升AI系统的可靠性和安全性。
当然,这项研究也有一些局限性。目前的实现主要针对图表类数据,虽然显示出跨领域泛化能力,但在其他类型的复杂视觉内容上的效果还需要进一步验证。程序化数据生成方法虽然精确,但需要结构化的代码表示,这限制了其在自然图像上的直接应用。
尽管如此,双向感知塑造技术为AI视觉理解领域开辟了新的方向。它证明了通过精心设计的训练过程,可以让AI模型学会更加精准和可靠的视觉推理能力。随着这种方法的进一步发展和推广,我们有理由期待AI在视觉理解任务上达到新的高度,最终实现真正智能的"看图说话"能力。
对于有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2512.22120v1查询完整的研究论文,其中包含详细的实验数据、算法描述和更多案例分析。
Q&A
Q1:双向感知塑造技术是如何让AI更准确识别图像细节的?
A:双向感知塑造通过两个阶段的特殊训练方法改进AI视觉理解。第一阶段让AI学习在看完整图表和精简图表时给出相同答案,建立对重要信息的聚焦能力。第二阶段让AI学习在关键信息被移除时改变答案,防止仅凭文字描述猜测。这就像教学生既要抓住重点,又要真正依靠观察而不是猜测。
Q2:BiPS技术相比传统方法有什么优势?
A:传统方法需要在推理时使用外部工具提供视觉提示,就像需要助手在旁边指导,成本高且容易出错。BiPS直接在训练阶段教会AI正确的视觉感知能力,推理时不需要额外工具,既降低了计算成本,又提高了准确性。而且BiPS只用1.3万样本就超越了使用数十万样本的专门模型。
Q3:这项技术能应用到哪些实际场景中?
A:BiPS技术在需要精确视觉理解的场景中都有潜在应用价值,比如医疗影像诊断中识别细微病变、工业质检中发现微小缺陷、自动驾驶中准确识别交通标志和路况等。任何需要AI准确理解复杂视觉信息而不能出错的领域,都可能从这种训练方法中受益。
相关攻略
Matrix 是一种开放且去中心化的即时通讯协议,允许用户自主部署私有服务器并接入全球 Matrix 联邦网络。OpenClaw 网关通过集成 Matrix 的 Client-Server API,实现与这一分布式通信生态的无缝对接。 前置准备 在配置 OpenClaw 连接 Matrix 之前,请
周二晚间,AI领域迎来了一则重磅消息。在权威AI评测平台Artificial Analysis的榜单上,一个名为「HappyHorse-1 0」的神秘模型异军突起,一举登顶视频生成能力排行榜,引发了业界的广泛关注与热议。 这一成绩极具含金量。无论是文本生成视频,还是图像生成视频,HappyHorse
当AI开始学会“脑补”物理世界的运行规律,并尝试模拟一个动态变化的真实环境时,我们距离那个传说中的通用人工智能(AGI)究竟还有多远? 进入2026年以来,“世界模型”毫无悬念地成为了科技圈最炙手可热的核心议题。它标志着一个关键的范式转变:人工智能正从被动地“感知当下”,迈向主动地对时空与动态变化进
上周三关于“世界模型”的线上沙龙反响空前热烈,这充分表明,从被动感知迈向主动推演,这条被视为实现通用人工智能(AGI)的核心技术路径,正深度吸引着整个AI行业的关注。鉴于持续高涨的讨论热度,我们决定加开一场深度分享会。 那么,这条充满潜力却又极具挑战性的前沿赛道,目前进展到了何种阶段?顶尖的研究者们
数字逻辑与物质建构的深度对话 ——评许哲诚“境域·生成”计算性设计展演 □ 丁雅力(江苏省美术馆策展人) 当代设计与造物的核心范式,正经历着由计算性设计带来的深刻变革。2026年3月20日,南京艺术学院教师许哲诚于南京莫玄空间呈现的“境域·生成”个人专场展演,正是这一前沿趋势的集中体现。本次展览超越
热门专题
热门推荐
摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 随着企业数字化转型进入智能体(Agent)驱动的新阶段,如何平衡AI创新与安全合规成为关键挑战。尤其在《网络安全等级保护基本要求》(等保2 0)的严格框架下,企业级智能体的部署必须同时满足效率提升与合规保障的双
使用情景 对于外贸从业者来说,年终总结绝非简单的例行汇报。它是一次至关重要的年度复盘与战略规划,既要系统梳理过去一年的业绩成果与经验得失,也要为来年的市场开拓与业务增长指明清晰路径。在全球贸易竞争白热化的今天,一份逻辑严谨、数据详实、洞察深刻的总结报告,不仅是个人专业能力的集中体现,更是赢得管理层支
使用情景 又到年末了,年度安全工作总结是每个团队都绕不开的环节。这份总结的价值,远不止于一份简单的回顾。它更像是一份“体检报告”,清晰地告诉你过去一年安全工作的“健康状况”——哪里做得好,哪里还有隐患,从而为来年的精准施策打下坚实的基础。 不过,说起写总结、做PPT,不少人就开始头疼了:内容怎么组织
Zcash (ZEC) 月度暴涨520%:深度解析后市行情与关键点位 近期,隐私币龙头Zcash (ZEC) 上演了一场令人瞩目的行情,月度涨幅高达520%,价格一度逼近300美元,创下自2021年12月以来的新高。在加密市场整体承压的背景下,ZEC的逆势狂飙吸引了全球投资者的目光。本文将结合技术分
在存量竞争的时代,电商售后数据早已超越了“成本中心”的单一角色,它正成为洞察产品质量、优化物流链路、提升用户忠诚度的核心战略资产。然而,现实往往骨感:多平台、多店铺、多套ERP系统并存,数据散落一地。靠人工手动汇总?不仅耗时费力,更关键的是,你永远无法实现真正的实时预警与敏捷响应。那么,电商售后数据





