阿丘科技李嘉悦：AI检测大模型与小模型协同进化的范式变革

首页

AI资讯

热心网友

转载

2026-05-27

3月28日，VisionChina2025（上海）机器视觉展在上海新国际博览中心圆满落幕。展会期间，阿丘科技产品总监李嘉悦在机器视觉及工业应用研讨会上，围绕“大模型驱动的AI检测范式变革：大模型、小模型与智能体的协同进化”这一主题，分享了行业观察与技术实践。

工业AI视觉的发展，大致可以划分为几个阶段。2019年常被视为“元年”，以CNN为代表的小模型技术开始在一些先行客户中落地。此后数年，AI视觉技术逐步跨越鸿沟，从头部客户渗透至更广泛的腰部市场，甚至在部分细分领域已成为标配。到了2025年，一个基本共识已经形成：市场普遍认可了AI在工业质检领域的实用性与落地能力。

然而，认知的普及并未直接带来应用规模的爆发式增长。过去几年，AI检测市场的增长曲线更接近线性，而非指数。这背后，小模型技术路线固有的几大挑战始终困扰着行业：样本收集周期长、模型迭代成本高，以及最关键的——模型泛化能力不足。

具体来看，工业缺陷样本天然稀缺，收集耗时费力；模型调优过程专业门槛高，非专业工程师常陷入模型“不收敛”的困境，拉长了落地周期。而泛化能力差，意味着模型面对产线上未曾见过的缺陷变体时，往往表现不佳，这又反过来加剧了对海量样本的依赖。可以说，这些痛点直接制约了AI检测规模化应用的步伐。

为了破局，行业一直在探索。去年，一个巨大的技术变量出现了：通用大模型迎来爆发。从ChatGPT到豆包、Kimi，再到年初引发热议的DeepSeek和Manus智能体，通用AI的能力以惊人的速度进化，其智能水平在某些方面已超越普通人。虽然这些通用大模型并不直接解决工业检测问题，但它们标志着一个拐点的到来——AI技术本身已具备引发范式变革的潜力。

那么，大模型技术究竟将如何影响工业检测？目前业内存在两种典型看法。一种观点相对保守，认为大模型更像是“聊天机器人”，擅长处理文书类工作，但难以满足工业场景对精确性、稳定性的严苛要求，与核心检测业务关联不大。另一种观点则颇为激进，认为大模型能力强大，足以直接接管工厂质检，一步到位实现全自动化。

而阿丘科技基于长期的跟踪与实践，提出了第三条路径：大模型确实将深刻改变AI检测的范式，但这种改变并非简单的“替代”，而是走向“协同”。大模型将与现有小模型技术融合，共同进化。

一、概念厘清：大模型、小模型与智能体

在深入探讨协同之前，有必要先厘清几个核心概念。

小模型，即我们熟悉的传统深度学习网络（如CNN），参数量通常在百万级别。它的特点是“专精”：针对特定任务（如识别某种缺陷）进行训练，在数据质量高、场景固定的条件下，可以达到极高的准确率和速度。但其局限性也很明显：对数据质量和标注一致性极为敏感，知识模态单一（通常只处理图像），泛化能力弱。一个训练来识别车牌的小模型，无法用来检查产品划痕。

大模型则采用了Transformer等架构，通过在海量多模态数据（文本、图像、音频等）上进行预训练，参数量可达百亿甚至千亿级。其优势在于强大的泛化与理解能力：能够处理带噪声的数据，具备多模态交互能力（如理解“图像中左上角的黑色区域是什么”这类指令），并能在少量样本的引导下快速适应新任务。这背后是两阶段训练过程的支撑：先通过海量互联网数据进行通用知识“预训练”，再通过专业数据“微调”来提升特定领域的表现。

至于智能体，它并非一个独立的模型类别，而是大模型的一种高级应用形态。可以将其理解为能够自主规划、调用工具、执行一系列动作以完成目标的“虚拟助手”，其核心是让大模型的能力能够连贯、自动化地作用于实际工作流。

当我们将大模型技术引入企业级应用时，会发现它本身也存在一个分层体系。最上层是通用大模型，能力广泛但专业性不足；往下是聚焦于特定行业的行业大模型（如医疗、法律）；再往下是针对具体场景深度优化的场景大模型（如磁材缺陷检测）；最底层则是我们目前最熟悉的、极度专精的场景小模型。

选择的关键在于匹配。企业需要根据自身问题的复杂度、数据积累情况、对精度与速度的要求，来选择合适的模型层级，避免“杀鸡用牛刀”的资源浪费，或“小马拉大车”的能力不足。

二、工业视觉的模型选择与协同逻辑

回到工业视觉领域，如何为不同的检测任务匹配最合适的模型？我们可以从匹配度来分析。

首先，通用AI大模型直接用于工业检测通常效果不佳。原因很简单：训练它的互联网数据中，高质量的工业缺陷数据凤毛麟角。

而专门训练的工业检测大模型则不同。它通过学习海量的工业图像与文本数据，能掌握跨行业、跨产品的通用缺陷知识，因而具备强大的泛化能力。可以把它比作企业里的“多面手”，对于常见的、典型的工艺缺陷，能够实现“即插即用”。其优势在于适应性强，今天检测A产品，明天换到B产线，都能快速上手。当然，它的精度和推理速度存在上限，适合对绝对指标要求并非极端严苛、且需要快速适配多品种的场景。

场景大模型在特定领域内更进一步。它学习了该场景下足够规模的数据，因此在精度、速度和泛化性上能取得更好的平衡。好比直接聘请了一位该领域的资深专家，来了就能解决大部分问题。它适用于工艺有代表性、已积累大量同场景数据、且产品型号繁多的情形。

小模型的优势依然无可替代：极致精度与飞快速度。它就像一位经过严格单项训练的专业技工，能把一个特定任务做到99.9%以上的准确率，且成本可控。当工艺独特、数据稀少，或对检测指标（如微米级缺陷）有极致要求时，小模型仍是首选。

至于智能体，它在工业检测中的角色更像是“超级助手”，能够自动化处理数据标注、模型调参等重复性高、耗时长的任务，极大降低模型迭代的门槛与周期。

工业市场是高度碎片化的，场景、缺陷、指标要求千差万别。这意味着，未来必然是多种模型协同作战的时代，没有一种模型能通吃所有场景。这种协同是动态的：2024年，小模型可能仍占据95%以上的应用；而到了今年，场景大模型的落地案例正在快速增长，工业检测大模型也迎来了首个落地场景。预计未来几年，大模型的应用比例将快速上升，并最终与小型化、专用化模型形成稳定的分工格局。同时，模型训练智能体有望在一年内成为市场上的重要工具。

三、阿丘科技的AI产品布局

基于上述判断，阿丘科技正在构建一个覆盖不同模型层级的AI产品序列。

在小模型层面，面向高精度、高速度要求的专有场景，我们继续提供成熟的开发工具套件，例如业界熟悉的AIDI软件平台。

在场景大模型层面，我们提供面向PCB、磁材、烟草、金属及塑料表面等特定场景的端到端即插即用模型。实践表明，这类模型能将部分项目的落地周期从数月缩短至一周左右。

工业检测大模型（AQ-VLM）是我们今年的研发重点。它基于阿丘积累的工业视觉数据资产构建，包含两个分支：一是用于缺陷检测的视觉大模型，能在通用工业场景中实现开箱即用，并开放微调接口，仅需传统小模型1%左右的数据量即可快速适配新领域；二是通用缺陷生成模型，可根据文本提示和参考图，生成符合工业质检要求的高质量缺陷数据，用于扩充训练样本。