首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
微软亚研院与清华合作:双向感知技术提升AI图像理解清晰度

微软亚研院与清华合作:双向感知技术提升AI图像理解清晰度

热心网友
23
转载
2025-12-30


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

有没有想过,为什么AI有时候能读懂复杂的图表,有时候却在最简单的图片上犯傻?比如看一张医院的X光片,AI可能准确识别出骨折的位置,但看一张超市的价格标签时,却可能把"9.99元"读成"6.66元"。这个问题困扰着整个AI视觉理解领域,而微软亚洲研究院的张硕硕、张艺臻等研究人员联合清华大学的杨玉久教授团队,在2025年12月提出了一项名为"双向感知塑造"(BiPS)的突破性解决方案,相关研究论文发表在arXiv平台上,编号为2512.22120v1。

目前的大型视觉语言模型就像一个近视眼的学生,戴着度数不合适的眼镜看黑板。有时候能看清楚整体轮廓,但经常错过关键细节,或者把重要信息和无关背景混在一起。特别是在处理图表这样的复杂视觉内容时,AI经常会"抓大放小",忽略了那些细如发丝的折线图曲线、密密麻麻的数据点,或者图表中的微小标注。

传统的解决方案就像给这个近视学生配一个助手,在考试时不断提醒他"看这里!看那里!"。研究人员会使用各种外部工具,比如图像裁剪、高亮标注等方式,在AI推理过程中不断给出视觉提示。但这种方法有三个明显问题:就像那个助手只会用矩形框指东西一样,无法精确指出不规则形状的重要区域;每个不同的任务都需要专门训练的助手,无法通用;而且每次推理都需要助手在旁边指导,大大增加了计算成本和出错风险。

张硕硕团队提出的双向感知塑造技术,就像是直接给这个近视学生进行视力矫正手术,让他从根本上学会正确地"看"。这种方法不是在推理时给提示,而是在训练阶段就教会AI如何正确聚焦重要信息,忽略干扰内容。

整个训练过程分为两个阶段,就像学开车一样:第一阶段是学习"往哪看",第二阶段是学习"不该看什么"。在第一阶段,研究团队会给AI展示一张完整的图表,然后展示一张只保留答题必要信息的"精简版"图表。AI需要学习在看完整图表时,得出与看精简图表时相同的答案。这就像教学生在复杂的考卷中迅速锁定关键信息,忽略那些华丽但无关的装饰。

第二阶段更加巧妙,研究团队会故意制作一张"陷阱版"图表,把回答问题必需的关键信息抹掉,只留下可能误导答案的背景信息。AI必须学会在这种情况下给出与原图不同的答案,这样可以确保AI真正依赖视觉信息进行推理,而不是仅仅根据问题文本进行猜测。就像教学生不能仅凭题目描述就答题,必须认真观察图表数据。

研究团队面临的最大挑战是如何精确地制作这些"精简版"和"陷阱版"图表。传统的随机遮挡方法就像用黑布随意遮住黑板的某些部分,既可能遮住重要内容,也可能遮住无关内容,效果很不理想。研究团队想出了一个绝妙的解决方案:既然手工制作困难,那就用代码生成。

他们选择了图表作为训练数据的来源,因为现代图表都是用代码绘制的,每一条线、每一个点、每一个标签都对应代码中的特定部分。这就像有了图表的"基因图谱",可以精确地编辑任何元素。研究团队开发了一套自动化流水线,能够分析图表生成代码,识别出回答特定问题所必需的代码片段和可能干扰答案的代码片段,然后精确地生成训练所需的不同版本。

具体来说,制作"精简版"图表时,系统会保留回答问题必需的所有视觉元素,移除无关的装饰性内容。比如,如果问题是"哪条曲线下降最快?",精简版就会保留所有曲线数据,但移除图例、标题等可能分散注意力的元素。制作"陷阱版"图表时,系统会精确移除关键的曲线数据,只保留坐标轴、图例等背景信息,让图表看起来完整,但实际上无法回答问题。

这套流水线还包含质量控制机制。首先,系统会将原始的开放性问题转换为多选题格式,确保答案可以客观验证。然后,系统会筛选掉那些对基础模型来说"太简单"的问题,专注训练那些真正有挑战性的案例。最终,从5万个原始样本开始,经过层层筛选和处理,研究团队获得了1.3万个高质量的训练样本。

在技术实现上,双向感知塑造使用了一种叫做"群组相对策略优化"的强化学习框架。这种方法的核心思想是让AI的预测行为受到双重约束:一方面,当看到精简版图表时的答案应该与看原图时的答案保持一致(一致性约束);另一方面,当看到陷阱版图表时的答案应该与看原图时的答案尽可能不同(分离约束)。

一致性约束确保AI能够专注于真正重要的视觉信息,不被无关元素分散注意力。分离约束则防止AI养成"偷懒"的习惯,即仅凭问题描述就猜答案,而不真正观察图像内容。两个约束相互配合,就像汽车的油门和刹车,共同确保AI的视觉理解能力朝正确方向发展。

研究团队将这种方法应用到了当前性能优秀的Qwen2.5-VL-7B模型上。训练过程分为两个阶段:第一阶段使用7千个包含精简版图表的样本,训练5个轮次,主要建立一致性约束。第二阶段使用全部1.3万个样本,训练3个轮次,加入分离约束。为了进一步提升通用推理能力,研究团队还用3.9万个数学推理样本进行了额外训练。

实验结果令人印象深刻。在八个不同的基准测试中,仅使用1.3万个图表样本训练的BiPS-Chart模型,平均性能比基础模型提升了7.3个百分点。更重要的是,这种提升不仅体现在图表理解任务上,还扩展到了完全不同的视觉推理任务,如数学题目和一般图像理解,显示出强大的泛化能力。

加入3.9万个数学样本后的最终BiPS-General模型,平均性能提升达到8.2个百分点。在具体任务上,CharXiv数据集的性能从42.5%提升到50.6%,ChartQAPro从36.6%提升到51.8%,MathVista从68.2%提升到75.0%。这些提升幅度在AI视觉理解领域是相当显著的。

更令人惊讶的是训练效率。许多专门针对图表理解设计的模型使用了数十万甚至数百万个训练样本,但BiPS仅用1.3万个样本就达到了更好的效果。这就像一个学生只用了别人十分之一的练习题,却在考试中取得了更高的分数,说明学习方法的重要性远超练习量。

研究团队进行了详细的消融实验来验证设计选择。结果显示,一致性约束和分离约束都对最终性能有重要贡献,但分离约束的作用更为显著,说明防止AI"偷懒"的重要性。两阶段训练顺序也很关键:先建立一致性约束,再加入分离约束,比同时优化两个目标或颠倒顺序都要有效。

对比实验还验证了程序化数据生成方法的优势。与简单的随机遮挡相比,基于代码的精确编辑显著提升了训练效果,说明高质量训练数据的重要性。不同的约束强度设置实验表明,适中的约束系数(一致性约束0.01,分离约束0.02)效果最好,过强的约束反而会干扰正常的学习过程。

在实际案例分析中,BiPS展现出的改进清晰可见。面对一个关于多图表中最高准确率的复杂问题,基础模型容易被频繁出现的数字模式误导,给出94.6%这样的"典型"答案,而BiPS能够仔细分析每个子图的实际数据,给出正确的94.0%。在另一个关于曲线交点数量的问题上,基础模型可能凭直觉猜测,而BiPS会系统地追踪每条曲线的实际轨迹。

这项研究的意义远超技术本身。它代表了AI视觉理解领域的一种新范式:从依赖外部工具和推理时提示,转向通过精心设计的训练过程来内化正确的感知能力。这种方法不仅提升了准确性,还大大降低了部署成本和复杂度,因为训练好的模型在实际使用时不需要任何额外的视觉提示工具。

研究团队的工作还展示了合成数据的强大潜力。通过巧妙利用图表生成代码的结构化特性,他们能够创造出传统数据收集方法难以获得的高质量训练样本。这种方法为其他需要精确视觉监督的AI任务提供了新的思路。

从更广阔的角度来看,双向感知塑造技术解决的是AI系统的一个根本性问题:如何确保AI真正"理解"而不是"猜测"。在医疗诊断、自动驾驶、工业检测等关键应用场景中,AI必须能够准确识别细微但关键的视觉线索。BiPS提供的训练框架有望被应用到这些领域,提升AI系统的可靠性和安全性。

当然,这项研究也有一些局限性。目前的实现主要针对图表类数据,虽然显示出跨领域泛化能力,但在其他类型的复杂视觉内容上的效果还需要进一步验证。程序化数据生成方法虽然精确,但需要结构化的代码表示,这限制了其在自然图像上的直接应用。

尽管如此,双向感知塑造技术为AI视觉理解领域开辟了新的方向。它证明了通过精心设计的训练过程,可以让AI模型学会更加精准和可靠的视觉推理能力。随着这种方法的进一步发展和推广,我们有理由期待AI在视觉理解任务上达到新的高度,最终实现真正智能的"看图说话"能力。

对于有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2512.22120v1查询完整的研究论文,其中包含详细的实验数据、算法描述和更多案例分析。

Q&A

Q1:双向感知塑造技术是如何让AI更准确识别图像细节的?

A:双向感知塑造通过两个阶段的特殊训练方法改进AI视觉理解。第一阶段让AI学习在看完整图表和精简图表时给出相同答案,建立对重要信息的聚焦能力。第二阶段让AI学习在关键信息被移除时改变答案,防止仅凭文字描述猜测。这就像教学生既要抓住重点,又要真正依靠观察而不是猜测。

Q2:BiPS技术相比传统方法有什么优势?

A:传统方法需要在推理时使用外部工具提供视觉提示,就像需要助手在旁边指导,成本高且容易出错。BiPS直接在训练阶段教会AI正确的视觉感知能力,推理时不需要额外工具,既降低了计算成本,又提高了准确性。而且BiPS只用1.3万样本就超越了使用数十万样本的专门模型。

Q3:这项技术能应用到哪些实际场景中?

A:BiPS技术在需要精确视觉理解的场景中都有潜在应用价值,比如医疗影像诊断中识别细微病变、工业质检中发现微小缺陷、自动驾驶中准确识别交通标志和路况等。任何需要AI准确理解复杂视觉信息而不能出错的领域,都可能从这种训练方法中受益。

来源:https://www.163.com/dy/article/KHVPIQ3S0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

BCBC币(BCBC)实时行情?
web3.0
BCBC币(BCBC)实时行情?

BCBC币(BCBC)深度解析:技术底色与市场前景 在百花齐放的数字货币领域,总有项目希望以独特的技术路径站稳脚跟。BCBC币(BCBC)正是其中之一,它依托一套组合技术方案来构建其安全与稳定的基石,目标直指高效、低成本的支付新体验,同时也不失为投资者眼中一个潜在的增值选项。 技术架构:不止于共识的

热心网友
04.02
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币
web3.0
BNB连锁店在最新焚化活动中燃烧了价值9.16亿美元的代币

BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现

热心网友
04.02
openclaw 常见命令解析
AI
openclaw 常见命令解析

OpenClaw 核心命令完全指南:从入门到精通 当您开始接触一个新工具时,最常见的障碍是什么?往往是面对复杂的命令列表感到困惑,只能被动地复制粘贴。这不仅影响效率,而且在遇到问题时更难以排查。 本文将为您深入解析 OpenClaw 的关键指令,帮助您从基础操作者转变为理解原理的熟练用户,全面提升配

热心网友
04.02
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律
科技数码
全球首款带物理直觉的AI模型在沪发布,理解真实世界规律

让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破

热心网友
04.01
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制
科技数码
宇树G1机器人拆解:揭秘超40%毛利率与全供应链控制

一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起
科技数码
OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起

OPPO A6k手机重磅发布:天玑6300处理器、高清LCD直屏、7000mAh超大电池,售价仅1999元起 OPPO旗下广受欢迎的A系列再添实力新机。近日,备受期待的OPPO A6k正式上市发售。这款新品搭载了备受好评的天玑6300八核处理器,并配备了一块容量高达7000mAh的耐用长寿电池,成为

热心网友
04.06
《红色沙漠》熔化锁链的火焰任务攻略-支线任务完成方法详解
游戏攻略
《红色沙漠》熔化锁链的火焰任务攻略-支线任务完成方法详解

速览 在《红色沙漠》的广阔世界中,数量丰富的支线任务与主线剧情共同构筑了沉浸式的冒险体验。其中,“熔化锁链的火焰”任务作为瑟金斯家族剧情线的关键环节,其触发机制与主线进程紧密相连。任务并非随时可用,玩家需将主线故事推进到特定阶段后,任务才会自动添加至任务日志。本篇攻略将为你详解此支线任务的接取条件与

热心网友
04.06
《异种航员2》运动机制详解-战术移动与时间单位消耗
游戏攻略
《异种航员2》运动机制详解-战术移动与时间单位消耗

《异种航员2》运动机制深度解析 在《异种航员2》(Xenonauts 2)的策略战斗中,对“时间单位”(TU)的高效运用是取胜的核心。每个士兵的移动、射击乃至战术配合,都依赖于玩家对TU的精确规划。操作上手简单:选中单位后,直接使用鼠标左键点击目的地方格,系统便会清晰显示移动所需消耗的时间单位,帮助

热心网友
04.06
《异种航员2》封面机制详解-掩体闪避效果介绍
游戏攻略
《异种航员2》封面机制详解-掩体闪避效果介绍

速览 在《异种航员2》(Xenonauts 2)的战局中,掌握“战术规避”与精通“火力输出”同等关键。游戏全新设计的掩体系统,是提升你作战小队生存几率的战略性核心。简言之,战场上绝大多数可见的物体都能转化为你的战术屏障。无论是散落的木箱、残缺的矮墙,还是茂密的灌木丛与坚实的建筑物,巧妙地利用它们,就

热心网友
04.06
《红色沙漠》超凡建造物任务攻略-任务流程详解
游戏攻略
《红色沙漠》超凡建造物任务攻略-任务流程详解

速览 在开放世界大作《红色沙漠》中,庞大的支线任务系统为玩家提供了丰富的探索体验。其中,“超凡建造物”任务是阿方索家族势力任务线中的重要一环。要成功接取此任务,玩家必须首先完成其前置任务【枪械名门】。在此之后,任务的下一步关键操作是前往游戏中标注的特定建筑地点进行互动调查——这本质上是一个用于快速移

热心网友
04.06