阿丘科技李嘉悦:AI检测大模型与小模型协同进化的范式变革
3月28日,VisionChina2025(上海)机器视觉展在上海新国际博览中心圆满落幕。展会期间,阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会上,围绕“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”这一主题,分享了行业观察与技术实践。
工业AI视觉的发展,大致可以划分为几个阶段。2019年常被视为“元年”,以CNN为代表的小模型技术开始在一些先行客户中落地。此后数年,AI视觉技术逐步跨越鸿沟,从头部客户渗透至更广泛的腰部市场,甚至在部分细分领域已成为标配。到了2025年,一个基本共识已经形成:市场普遍认可了AI在工业质检领域的实用性与落地能力。
然而,认知的普及并未直接带来应用规模的爆发式增长。过去几年,AI检测市场的增长曲线更接近线性,而非指数。这背后,小模型技术路线固有的几大挑战始终困扰着行业:样本收集周期长、模型迭代成本高,以及最关键的——模型泛化能力不足。
具体来看,工业缺陷样本天然稀缺,收集耗时费力;模型调优过程专业门槛高,非专业工程师常陷入模型“不收敛”的困境,拉长了落地周期。而泛化能力差,意味着模型面对产线上未曾见过的缺陷变体时,往往表现不佳,这又反过来加剧了对海量样本的依赖。可以说,这些痛点直接制约了AI检测规模化应用的步伐。
为了破局,行业一直在探索。去年,一个巨大的技术变量出现了:通用大模型迎来爆发。从ChatGPT到豆包、Kimi,再到年初引发热议的DeepSeek和Manus智能体,通用AI的能力以惊人的速度进化,其智能水平在某些方面已超越普通人。虽然这些通用大模型并不直接解决工业检测问题,但它们标志着一个拐点的到来——AI技术本身已具备引发范式变革的潜力。
那么,大模型技术究竟将如何影响工业检测?目前业内存在两种典型看法。一种观点相对保守,认为大模型更像是“聊天机器人”,擅长处理文书类工作,但难以满足工业场景对精确性、稳定性的严苛要求,与核心检测业务关联不大。另一种观点则颇为激进,认为大模型能力强大,足以直接接管工厂质检,一步到位实现全自动化。
而阿丘科技基于长期的跟踪与实践,提出了第三条路径:大模型确实将深刻改变AI检测的范式,但这种改变并非简单的“替代”,而是走向“协同”。大模型将与现有小模型技术融合,共同进化。
一、概念厘清:大模型、小模型与智能体
在深入探讨协同之前,有必要先厘清几个核心概念。
小模型,即我们熟悉的传统深度学习网络(如CNN),参数量通常在百万级别。它的特点是“专精”:针对特定任务(如识别某种缺陷)进行训练,在数据质量高、场景固定的条件下,可以达到极高的准确率和速度。但其局限性也很明显:对数据质量和标注一致性极为敏感,知识模态单一(通常只处理图像),泛化能力弱。一个训练来识别车牌的小模型,无法用来检查产品划痕。
大模型则采用了Transformer等架构,通过在海量多模态数据(文本、图像、音频等)上进行预训练,参数量可达百亿甚至千亿级。其优势在于强大的泛化与理解能力:能够处理带噪声的数据,具备多模态交互能力(如理解“图像中左上角的黑色区域是什么”这类指令),并能在少量样本的引导下快速适应新任务。这背后是两阶段训练过程的支撑:先通过海量互联网数据进行通用知识“预训练”,再通过专业数据“微调”来提升特定领域的表现。
至于智能体,它并非一个独立的模型类别,而是大模型的一种高级应用形态。可以将其理解为能够自主规划、调用工具、执行一系列动作以完成目标的“虚拟助手”,其核心是让大模型的能力能够连贯、自动化地作用于实际工作流。
当我们将大模型技术引入企业级应用时,会发现它本身也存在一个分层体系。最上层是通用大模型,能力广泛但专业性不足;往下是聚焦于特定行业的行业大模型(如医疗、法律);再往下是针对具体场景深度优化的场景大模型(如磁材缺陷检测);最底层则是我们目前最熟悉的、极度专精的场景小模型。
选择的关键在于匹配。企业需要根据自身问题的复杂度、数据积累情况、对精度与速度的要求,来选择合适的模型层级,避免“杀鸡用牛刀”的资源浪费,或“小马拉大车”的能力不足。
二、工业视觉的模型选择与协同逻辑
回到工业视觉领域,如何为不同的检测任务匹配最合适的模型?我们可以从匹配度来分析。
首先,通用AI大模型直接用于工业检测通常效果不佳。原因很简单:训练它的互联网数据中,高质量的工业缺陷数据凤毛麟角。
而专门训练的工业检测大模型则不同。它通过学习海量的工业图像与文本数据,能掌握跨行业、跨产品的通用缺陷知识,因而具备强大的泛化能力。可以把它比作企业里的“多面手”,对于常见的、典型的工艺缺陷,能够实现“即插即用”。其优势在于适应性强,今天检测A产品,明天换到B产线,都能快速上手。当然,它的精度和推理速度存在上限,适合对绝对指标要求并非极端严苛、且需要快速适配多品种的场景。
场景大模型在特定领域内更进一步。它学习了该场景下足够规模的数据,因此在精度、速度和泛化性上能取得更好的平衡。好比直接聘请了一位该领域的资深专家,来了就能解决大部分问题。它适用于工艺有代表性、已积累大量同场景数据、且产品型号繁多的情形。
小模型的优势依然无可替代:极致精度与飞快速度。它就像一位经过严格单项训练的专业技工,能把一个特定任务做到99.9%以上的准确率,且成本可控。当工艺独特、数据稀少,或对检测指标(如微米级缺陷)有极致要求时,小模型仍是首选。
至于智能体,它在工业检测中的角色更像是“超级助手”,能够自动化处理数据标注、模型调参等重复性高、耗时长的任务,极大降低模型迭代的门槛与周期。
工业市场是高度碎片化的,场景、缺陷、指标要求千差万别。这意味着,未来必然是多种模型协同作战的时代,没有一种模型能通吃所有场景。这种协同是动态的:2024年,小模型可能仍占据95%以上的应用;而到了今年,场景大模型的落地案例正在快速增长,工业检测大模型也迎来了首个落地场景。预计未来几年,大模型的应用比例将快速上升,并最终与小型化、专用化模型形成稳定的分工格局。同时,模型训练智能体有望在一年内成为市场上的重要工具。
三、阿丘科技的AI产品布局
基于上述判断,阿丘科技正在构建一个覆盖不同模型层级的AI产品序列。
在小模型层面,面向高精度、高速度要求的专有场景,我们继续提供成熟的开发工具套件,例如业界熟悉的AIDI软件平台。
在场景大模型层面,我们提供面向PCB、磁材、烟草、金属及塑料表面等特定场景的端到端即插即用模型。实践表明,这类模型能将部分项目的落地周期从数月缩短至一周左右。
工业检测大模型(AQ-VLM)是我们今年的研发重点。它基于阿丘积累的工业视觉数据资产构建,包含两个分支:一是用于缺陷检测的视觉大模型,能在通用工业场景中实现开箱即用,并开放微调接口,仅需传统小模型1%左右的数据量即可快速适配新领域;二是通用缺陷生成模型,可根据文本提示和参考图,生成符合工业质检要求的高质量缺陷数据,用于扩充训练样本。
智能体则不会以独立产品形态出现,而是深度集成到AIDI等训练开发平台中。其目标是接管数据清洗、标注、参数调试等重复性专业工作,让人工只需专注于制定和校验标准,从而大幅提升模型研发效率。
四、实践案例:金属结构件检测中的协同策略
理论需要实践验证。最近,我们在多个金属结构件检测的客户场景中,尝试了VLM(视觉大模型)与小模型协同的方案,旨在解决模型复用难、落地周期长的问题。
具体策略根据缺陷特性进行划分:
对于明显缺陷(如典型压伤):直接使用预训练好的工业视觉大模型进行零样本检测。只需输入指令“检测压伤”,模型即可直接定位,无需额外训练。
对于不明显但常见的缺陷(如轻微划伤):采用“VLM + 微调”模式。利用大模型的基座能力,仅需提供少量该场景下的轻微划伤样本进行微调,即可使模型获得识别能力。
对于不明显且罕见的缺陷:采用“生成式大模型 + 小模型 + 智能体”组合拳。首先,利用缺陷生成模型,根据良品图和缺陷描述,生成形态多样、贴近真实的缺陷图像;然后,将这些生成数据与真实数据一同输入AIDI平台,由智能体辅助完成小模型的训练与优化。
总结来说,协同的核心理念是“分而治之,用其所长”。明显的、通用的缺陷交给大模型;不常见但可描述的缺陷,用大模型生成数据再训练小模型;而极其特殊、罕见的缺陷,则仍需依赖定制化的小模型。当然,各类模型的能力边界在不断变化,我们的方案也保持开放,持续探索更优的协同模式。
去年,我们曾提出“不会用AI的将会被用AI的淘汰”。而在今天这个技术加速变革的时代,或许可以加上一句:在AI工业视觉的新格局下,不会用大模型的人,很可能被善用大模型的人所超越。未来的竞争力,或许正体现在这种对复杂技术生态的理解与协同能力之上。
相关攻略
当用户获取信息的方式从“主动搜索”转向“直接向AI提问”,品牌认知入口的争夺战已全面升级。生成引擎优化(GEO)不再是未来选项,而是企业在AI搜索时代的生存必修课。然而,市场热潮中混杂着依靠群发灌水、制造不实信息来获取短期曝光的投机者。企业该如何明辨真伪,找到真正专业可靠的GEO服务合作伙伴? 一个
工业AI视觉检测面临样本稀缺等挑战,大模型推动范式变革但并非直接替代小模型。通用大模型难直接用于工业检测,而工业检测大模型具备跨领域泛化能力,场景大模型更精准,小模型则保持精度与速度优势。智能体可自动化处理数据标注等任务。未来多种模型将协同作战,动态组合以提升。
瑞芯微推出RK1820AI加速卡,通过PCIe接口为RK3588平台提供20TOPS算力,构成异构计算系统。该方案需注意硬件上电顺序并安装专用驱动,实测可高效运行YOLOv5s视觉模型及十亿参数级大语言模型,适用于多路视频分析与边缘服务器等场景,显著提升了边缘设备的AI处理能力。
选择大模型应注重“最合适”而非“最好”。不同模型各具优势:DeepSeek性价比高,适合日常;GPT-4o 4 5综合能力强,适合复杂任务;豆包轻量免费;千问擅长技术文档;Claude长于安全与长文本。实践中可采用混合策略,按需选用,例如日常用DeepSeek,关键分析用GPT。起步阶段免费模型已足够,且平台支持一键切换,无需过度纠结。
京东方在2026中关村论坛年会期间举办AI+创新应用大会,系统阐述其“AI+”战略,聚焦生产制造、产品创新与运营管理三大板块。大会展示了工业智能应用、AI办公解决方案及健康显示产品,核心技术依托自研的“京东方蓝鲸显示大模型”,推动显示产业全链路智能化,并通过“屏之物联”战略深化AI与显示的融合。
热门专题
热门推荐
制作PPT用什么软件好?2024年五大主流工具深度评测 无论是职场汇报、学术答辩还是项目路演,一份专业且吸引人的PPT演示文稿都至关重要。面对众多制作工具,如何选择最适合自己的那一款?本文将对五款主流的PPT软件进行全方位对比分析,从功能、协作、设计到易用性,助您根据核心需求做出最佳决策,高效打造令
今日A股市场整体走势偏弱,朗玛信息(股票代码300288)股价同步调整,截至收盘下跌3 16%,全天成交额4783 73万元,换手率为1 77%,公司总市值约为35 21亿元。股价的短期波动,引发了投资者对其核心投资逻辑与未来潜在机会的深入探讨。 异动深度解析:AI医疗战略的机遇与挑战 朗玛信息是市
《超级蠕虫大战圣诞老人2》是一款休闲益智游戏,攻略涵盖基本操作、关卡解锁与道具使用。玩家需掌握战斗策略与技能升级,熟悉敌人特性和环境机制。合理运用道具并完成隐藏任务可获取奖励,多人模式注重策略博弈。建议多练习并参与社区交流,同时注意游戏时长以保护视力。
在Kimi里搜索“2026年北京积分落户政策细则”,如果跳出来的总是房产中介的软文、培训机构的广告或者各种自媒体猜测,那说明默认的联网检索没有经过过滤。想要获得干净、权威的结果,必须主动使用结构化的提示词进行限定。 用结构化提示词锁定权威信源 这一步是关键,直接决定了你看到的信息是来自官方发布渠道,
为避免代码丢失,Qoder编辑器需手动开启自动保存功能。全局设置中可开启开关并选择触发条件,如按时间间隔或窗口失去焦点时保存。还可为特定项目单独配置,覆盖全局设置。若功能失效,需检查文件位置是否只读、用户权限是否足够,并避免直接编辑受保护的系统文件。





