游乐游手机版
首页/科技数码/文章详情

阿里巴巴发现AI解读工业产品说明书的尴尬盲点

时间:2026-06-23 11:22
九款主流大模型在处理工业产品多张图片时,平均仅能找出不到一半的技术参数,精确率普遍超过86%,但召回率最低仅11 7%。多图整合能力显著不足,图片越多、参数越密,漏检越严重,视觉推理类参数最难提取。

这篇论文来自阿里巴巴集团旗下淘宝天猫的多模态与工业AI团队,于2026年6月正式发布,论文编号为arXiv:2606.14383,感兴趣的读者可以直接查阅原文。

设想一个常见场景:工厂采购员拿到一只阀门或断路器,他需要核对多少信息?压力等级、公称直径、适用温度、材质、额定电流……这些技术参数散布在产品的各类图片中——有的印在铭牌上,有的藏在规格参数表里,有的需要从技术图纸上测量推算,还有的必须懂行业术语才知道“DN20”实际上是“公称直径20毫米”的专业代号。

如今,AI大模型正越来越多地被部署在工业采购、仓储管理和供应链匹配等真实业务场景中。于是关键问题浮现:这些模型能否将一件工业产品的所有技术参数,从一堆图片中完整地抽取出来?

答案,坦白说,并不乐观。

研究团队构建了一个名为IndustryBench-MIPU的评测基准——这是目前首个专门针对多图工业产品理解能力的大型测评数据集。他们选取了九款主流大模型(包括Gemini、GPT、Qwen、Claude、Kimi等)进行全面测试,结果发现:表现最好的模型,面对一件完整工业产品的多张图片,也只能提取出不到一半的产品参数。精确率极高,但完整性却严重不足。这一矛盾正是本论文最核心的发现。

一、为何“看懂工业产品图片”是一道难题

假设你是一位理解力极强的助手,被要求从一沓产品图片中整理出完整的参数清单。第一张是产品正面照,外观漂亮但没有任何文字;第二张是铭牌特写,上面有一串数字和字母,例如“304”和“DN50”;第三张是规格参数表,密密麻麻排列了二三十行数据;第四张是技术安装图,包含箭头、尺寸标注和结构示意;第五张是品牌宣传图,与技术规格完全无关。

你需要完成的任务远不止“看图”这么简单。

研究团队将这项工作拆解为四个难度层级。第一层是文字识别——从铭牌和参数表中准确读取数字和文字,看似容易,但当参数表挤满几十个数值时,漏读就成为常见问题。第二层是视觉推理——从技术图纸中理解箭头的指向、标注对应的部件、尺寸数值的所属方向,模型必须具备真正的空间理解能力。第三层是领域知识——知道“304”是不锈钢牌号,“DN20”表示公称直径20毫米,“PN16”意味着公称压力1.6兆帕。这些工业缩略语和代码并非通用知识,需要专业训练。第四层也是最具挑战的一层,是跨图整合——将分散在多张图片中的信息片段,像拼图一样拼合成一份完整的参数记录,同时剔除与产品无关的宣传图、工厂图和配件图。

过去的AI评测基准要么只测试文字识别,要么只考察视觉推理,要么只基于单张图片,从未有人将这四重挑战同时融入一个测试。这正是IndustryBench-MIPU最独特之处。

二、这份“考卷”是如何设计的

要设计一份公平且有难度的考卷,本身就是一项复杂的工程。研究团队面临三个棘手问题:工业产品的公开标注数据极度稀缺;不同品类的产品需要完全不同的参数体系(阀门的关键参数与断路器的关键参数几乎毫无重叠);许多参数隐含在专业知识中,仅靠人工标注成本高得难以承受。

研究团队的解决方案类似于一场“集体智慧”协作。他们从国内一家大型工业电商平台采集了覆盖18个顶级品类的产品数据,涵盖五金工具、化工品、电气设备、机械、安全防护、包装等领域,通过分层随机抽样最终筛选出4559个产品、27652张有效图片。

接下来,他们没有让单一模型进行标注,而是让五个顶级AI模型(GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro、Kimi-K2.5和Qwen 3.5 Plus)各自独立完成同样的标注任务,然后将五个模型的结果取并集——只要有一个模型认为某个参数值是有效的,就将其纳入标准答案。这一设计的用意清晰:如果只用一个模型的标注结果去评测另一个模型,实际上只是比较两个模型是否“想法相近”,而非真正考察完整性。取并集是为了让标准答案尽可能接近真实的完整参数集。

每个模型的标注过程分为三个步骤。第一步是实体识别:模型先确认该产品究竟是什么(例如“不锈钢两片式球阀”),避免它跑偏去提取旁边配件或安装示意图中其他产品的参数。第二步是图片过滤:对每张图片判断是否包含有效的参数信息,工厂照片、营销横幅、无关产品均标记为无效,约有31%的候选图片被过滤掉。第三步是逐图参数提取:对每张有效图片,按照产品专属的参数模板提取属性名-属性值对。

标注完成后,还经过了三层质量把关。第一层由一个独立的前沿模型(Qwen 3.6 Plus,它不在被评测的九个模型之列)审查所有候选标注,专门识别四类错误:幻觉属性(无视觉依据而凭空捏造的参数)、实体误归属(将图中其他产品的参数张冠李戴)、属性名与值类型不匹配(例如颜色字段中填入了型号编码)以及语义上不合理的内容。这一轮过滤掉了24万条候选标注中的23.9%,约5.7万条。第二层是黄金标准核对:每个产品都有平台提供的经过核验的标准属性,凡是这些属性覆盖的字段,就用经过人工核实的值直接替换AI生成的版本。第三层是人工抽检:领域专家对随机抽取的10%产品进行逐条核验,通过率为96.7%,说明前两层自动化质量控制已经相当有效。

最终,数据集包含103703条产品级标注,涵盖3564个独特的属性名称,同时支持单图和多图两种评测场景。

三、九个AI模型的真实成绩单

评测规则设计得相当严谨。预测出的属性名称必须与标准答案完全匹配,属性值则通过一套递进式策略来判断:先做规则化处理(统一格式、消除大小写差异、规范单位和数字表达),再判断精确匹配或字符级相似度是否达标,最后对于仍然模糊的情况,由Qwen 3.6 Plus担任“裁判”判断语义是否等价。

评测结果从两个维度呈现:精确率(模型输出的答案中有多少是正确的)和召回率(标准答案中有多少被模型找到)。

在多图评测中,Gemini 3.1 Pro以65.1%的F1综合得分排名第一,召回率49.9%,精确率93.8%。Qwen 3.5-397B-A17B以62.7%的F1紧随其后,GPT-5.4以60.5%排第三。所有模型呈现出高度一致的规律:精确率普遍在86%到94%之间,集中在一个很窄的区间内,但召回率的差距则很大——从最高的49.9%到最低的11.7%,相差近40个百分点。

这意味着什么?换句话说:模型说出来的话,十句里有八九句是对的;但它该说的话,有一半以上没有说出来。模型的问题不是“说错了”,而是“说漏了”。

最有戏剧性的对比来自Qwen 3.5 Plus。在单图评测中,它表现最佳,F1高达81.3%,召回率79.7%;但一旦切换到多图场景,它的召回率骤降到45.4%,F1跌至59.9%,被挤到了第四名。这个差异说明,单张图片处理得再好,并不代表能处理好多张图片拼在一起的场景。

从单图到多图,召回率的下降幅度相当惊人。Qwen 3.5-35B-A3B的召回率从63.3%跌至11.7%,几乎完全崩溃,下降了51.6个百分点。其他模型的下降幅度也普遍在15到34个百分点之间。而在整个下降过程中,精确率不降反升——模型并没有变得更不准确,它们只是变得更不完整。

四、问题出在哪里:用图片数量和参数密度来剖析

研究团队进一步追问:召回率随着什么因素下降?他们按照两个维度对测试产品进行分组:输入图片数量和标准参数数量,然后分别统计各组的召回率。

以Gemini 3.1 Pro为例,当产品只有1到3张图片时,召回率为60.3%,F1为73.0%;当图片数量超过15张时,召回率跌至38.7%,F1跌至55.1%。图片越多,模型漏掉的信息就越多。更能说明问题的是:图片超过15张的产品,平均有60.1个标准参数,而Gemini只输出了25.6个预测结果,还不到标准答案数量的一半。模型确实会随着图片增多而输出更多参数,但增加的速度远跟不上实际信息量的增长。

参数密度同样如此。对于标准参数超过40个的高密度产品,Gemini平均只输出33个预测值,而标准答案有65.9个,仅恢复了45.1%。无论是图片变多还是参数变密,精确率都保持稳定,下降的始终只有召回率。模型并非因为信息更多而变得更混乱,它只是更早地“停下来”了。

五、哪种参数最难被找到

研究团队还对测试中涉及的753种属性类型按照认知难度进行了分类,得出了一个关于“什么样的参数更难被模型捕捉”的清晰图谱。

第一类是直接标准型,指那些可以直接通过OCR读取或按固定格式提取的单值字段,例如产品名称、品牌,认知门槛最低。这类属性的召回率为45.9%。第二类是领域知识型,指需要解码工业术语、材料标准代号和认证标准的属性,例如“304”代表钢材牌号,“IP68”代表防护等级,需要专业背景知识。这类属性的召回率降至44.1%。第三类是多值复合型,指那些具有值域范围、列表形式或组合尺寸的属性,例如“工作温度:-40°C至+70°C”或“适配倍率:0.7X、1X、1.5X、2X、2.5X……”,需要模型将所有数值都列举出来。这类属性的召回率为42.8%。第四类是视觉推理型,指需要从技术图纸、外观特征或空间结构中推断出来的属性,例如安装方式、流向、整体结构形式。这类属性的召回率最低,仅为36.6%。

四类属性之间有9.3个百分点的差距,而且每个模型都呈现相同的排序:视觉推理最难,领域知识和多值复合居中,直接标准最容易。更有意思的是,各模型在视觉推理这一类的得分差距最小,仅有5.4个百分点,说明视觉推理能力是所有模型共同面对的“天花板”,能力差异在此处反而被抹平;而在多值复合和领域知识类属性上,强模型与弱模型之间的差距更为明显。

六、规模对模型能力的影响:一个有趣的双速现象

研究团队还利用Qwen 3.5系列模型(包括35B-A3B、122B-A10B、27B Dense、397B-A17B以及Qwen 3.5 Plus这五个规格)进行了一组规模对比实验。

在单图场景下,模型规模的提升带来稳定但有限的收益:F1从35B-A3B的68.7%稳步升至397B-A17B的76.0%,Qwen 3.5 Plus则达到81.3%。整个提升范围约为13个百分点。值得注意的是,27B的全参数Dense模型,比122B-A10B的混合专家模型(实际激活参数仅10B)表现更好,这说明在单图场景下,起作用的是实际激活的参数量,而非总参数量。

多图场景则完全是另一回事。规模最小的35B-A3B(3B激活参数)的多图F1只有20.6%,而397B-A17B(17B激活参数)达到62.7%,两者相差42个百分点。单图场景的差距仅为7.3个百分点,多图场景的差距是它的五倍多。最明显的跃升发生在激活参数从10B增加到17B的那一步,多图F1一次性提升了12.6个百分点,而单图F1在同一步只提升了5.5个百分点。

这组数据的含义相当清晰:跨图整合、维持多图注意力、从分散的图片中找到并拼合完整参数,这些能力对模型规模的要求,远比处理单张图片要敏感得多。小模型在单图上尚可应付,到了多图就彻底力不从心。

七、调整提示词和推理模式能改变多少

研究团队还用Qwen 3.5 Plus做了两组消融实验:一是关闭“深度思考”模式(让模型直接输出答案,不经过链式推理),二是将复杂的提示词简化为一个简洁指令。

关闭深度思考模式后,多图召回率微升1.1个百分点,精确率略降,整体变化不大。使用简化提示词的效果明显更强:召回率从45.4%升至52.6%,F1从59.9%升至62.6%,但精确率从88.1%跌至77.3%。简化提示词让模型去掉了原本对参数模板的约束,于是它输出了更多的预测(从5万条增加到7.4万条),覆盖面更广,但“说错”的也更多,本质上是以精度换取覆盖面。

值得对比的是,在单图场景下,深度思考模式的效果截然不同:开启思考时召回率为79.7%,关闭后跌至70.5%,下降了9.2个百分点。这说明深度思考模式在单图场景下对于穷举参数很有帮助,但在多图场景下,它面对的问题不是“怎么想清楚”,而是“怎么找全图片”,推理能力在这里发挥不了决定性作用。

无论如何调整,在最宽松的设置下,模型也仍然漏掉了将近一半的参数。提示词工程改变的是精度和覆盖面之间的平衡点,并不能根本性地解决完整性不足的问题。

八、一个真实产品案例揭示的细节

研究团队选取了一个同轴光显微镜物镜(属于仪器仪表品类)来深入剖析失败模式。这个产品有7张有效图片,对应69个标准参数。表现最好的模型在多图场景下精确率达到100%,召回率仅为45%——每一个说出来的值都是对的,但超过一半的可见参数被漏掉了。

逐张图片来看,规律非常清晰。品牌logo图:2个标准参数,全部找到,召回率100%。应用场景图(一个9格图标矩阵):13个标准参数,全部找到,召回率100%。产品主图(展示外观和特征):9个标准参数,找到7个,召回率78%。近景特写:7个标准参数,找到5个,召回率71%。而到了两张信息密集的图片,问题就出现了:物镜规格参数表有20个标准参数,只找到7个,召回率35%;倍率矩阵表(一张9列的表格,纵横交叉列出了各种物镜和总倍率的组合)有27个标准参数,只找到5个,召回率19%。

失败的根源并非多张图片同时存在造成的困难,而是当一张图片中含有大量结构化、列表化的数据时,模型只处理了开头几行就停下来了。

将这个现象落到具体参数上,规律更加触目惊心。“应用场景”这个属性,标准答案有13个值,模型输出了13个,全部匹配。“品牌”这个属性,2个值,全部找到。但“物镜倍率”这个属性,标准答案有14个值(0.7X、1X、1.5X、2X、2.5X等),模型只输出了4个。“总倍率”这个属性,标准答案有15个值(160X、230X、350X、460X、580X等),模型只输出了5个。“型号编码”这个属性,4个值,模型一个都没有输出。

模型知道这些属性的存在,也正确识别了头几个值,然后就早早停手,没有继续列举完整的值域。这不是幻觉错误,也不是OCR失误,而是一种“提前收工”的行为,正好解释了为什么精确率和召回率会出现如此强烈的反差。

说到底,这篇论文做的事情,是给AI模型出了一份更接近真实工作场景的考卷,而模型们的成绩让人清醒:它们擅长“说对了什么”,但还没学会“把该说的全说完”。

这个结论对于真正想在工业供应链里用AI做自动化采购、产品匹配或规格校验的人来说,是一个务实的警示——现阶段的AI可以作为辅助工具帮助缩小信息查找的范围,但如果将其视为可以替代人工的“完整性保障”,遗漏关键参数的概率依然相当高。

更值得思考的是,这个“精准但不完整”的问题,并不会因为模型更大或提示词更精心就彻底消失。它更像是当前多模态大模型在面对信息密集、分布分散场景时的一种结构性局限,需要专门针对这类任务的改进,而不仅仅是通用能力的提升。IndustryBench-MIPU这个测评集现已公开发布,期待它能成为推动这方面进步的试金石。有兴趣深入了解的读者,可以通过论文编号arXiv:2606.14383查阅完整研究报告。

Q&A

Q1:IndustryBench-MIPU测评集涵盖哪些工业品类?

A:覆盖18个顶级工业品类,包括五金工具、化工品、电气设备、机械、安全防护、橡塑制品、钢铁、电子元器件、仪器仪表、建筑材料、包装、纺织皮革等,共4559个产品、27652张有效图片、103703条产品级标注。

Q2:大模型在工业产品多图参数提取中最常见的错误是什么?

A:最主要的错误不是说错,而是漏说。测评显示所有模型的精确率普遍在86%到94%之间,输出的内容大多是对的,但召回率普遍偏低,最好的模型也只找出了不到50%的参数。尤其是当一张图片里存在密集的列表或矩阵型规格表时,模型往往只提取开头几条就停下来,把后面的值全部漏掉。

Q3:模型规模对多图工业参数提取能力有多大影响?

A:影响远大于单图场景。在Qwen 3.5系列的对比中,单图F1从最小到最大模型只差约7个百分点,而多图F1则相差高达42个百分点。激活参数从10B增加到17B时,多图F1一次性提升了12.6个百分点,说明跨图整合能力对模型规模的要求比单图识别敏感得多。

来源:https://www.163.com/dy/article/L02E22RB0511DTVV.html
上一篇英特尔长安联合发布AI座舱 搭载第三代酷睿Ultra 下一篇人工智能边学边考训练速度能否提升两成
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。