大模型技术在淘宝生鲜审核场景的应用实践_AI热点日报

大模型技术在淘宝生鲜审核场景的应用实践

类型：热点整理2026-06-04

随着多模态大模型技术的不断演进，其应用边界正在被迅速拓宽，其中凭证审核场景成为了一块重要的试验田。在业务域内，大量凭证审核工作长期依赖人工，不仅人力成本高昂，效率提升也面临瓶颈。困境凭证审核的核心任务可以归结为三项：第一，确定商品品种；第二，判断商品是否存在质量问题（即缺陷识别）；第三，核算出现

随着多模态大模型技术的不断演进，其应用边界正在被迅速拓宽，其中凭证审核场景成为了一块重要的试验田。在业务域内，大量凭证审核工作长期依赖人工，不仅人力成本高昂，效率提升也面临瓶颈。

困境

凭证审核的核心任务可以归结为三项：第一，确定商品品种；第二，判断商品是否存在质量问题（即缺陷识别）；第三，核算出现问题的商品比例。这些任务与商品类目高度耦合，而生鲜类目繁多，质量问题的表现更是千差万别。传统算法工程想要啃下这块硬骨头，投入巨大，回报率却低得难以接受。

冲出困境

转机出现在GPT-4o等优秀多模态大模型的爆发式增长上。大量测试表明，这类模型在开放世界视觉理解、视觉描述、多模态知识及常识推理、场景文本理解、情感理解等方面表现抢眼。很自然地，把多模态大模型技术引入凭证审核，就成了一条值得探索的路径。

凭证审核本质上属于视觉问答（VQA）任务。结合Qwen官网的VQA测评数据以及我们自己的实测，初步判断这条路走得通。

实现方案

识别准确率是整个项目的命门。下面从品种识别、商品问题识别、问题比例识别这三个任务入手，具体说说提升准确率的方案。

提升大模型准确率的常规路径有三条，按投入成本由高到低排序：预训练、微调、prompt工程。通常而言，只要选用的基座模型足够强大，靠prompt工程就能解决大部分任务。我们在项目中分别尝试了prompt工程和微调两种方案。

1. prompt工程

在prompt工程方面，我们试过链式思维（CoT）、少样本学习（Few-Shot）等经典思路。经过资料查阅和实测，发现Few-Shot效果最为显著，在缺陷检测场景中尤其好用。

Few-Shot思路
大模型在海量文本上预训练后，具备了扎实的语言理解和生成能力。Few-Shot的精髓在于，通过提供少量任务相关的示例（通常直接写在输入提示里），引导模型理解任务要求和输出格式，往往能收获意想不到的效果。下图引自《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》。

zero-shot	few-shot

在本项目中，我们也沿用了Few-Shot的思路。关键在于确保样本质量——我们收集了各个类目高质量的品控验收标准图作为输入样本。

以核果-桃子类目-腐烂变质场景为例，prompt的设计大致如下：图1取自商品主图，图2是消费者上传的退款凭证。

图1	图2	prompt
		根据图1，请你确定图2是否发生***等质量问题

类目prompt单独调优
不同生鲜类目的质量问题特征差异明显：西瓜的变质、葡萄的掉粒、柚子的失水……必须针对每个类目进行精细化的prompt调优。

西瓜变质	葡萄掉粒	藕腐烂	柚子失水	青菜不新鲜

各类目的特性问题

为了快速覆盖数百个叶子类目，我们设计了一套工程化的prompt调优方案，最终覆盖了发霉、腐烂、脏污、破损、掉粒等20多种场景的识别检测。方案包含四个环节：

知识对齐——为什么要做对齐？说白了，是模型向人类对齐。模型对prompt的理解可能与我们存在偏差。所以先让模型输出特征的描述，再以此为基础构造prompt。
prompt构造——基于商品、凭证等信息，生成prompt。
版本准确率输出——由人工对模型的输出结果进行打标，获取各场景的准确率。
反馈修正——不断优化badcase，直到准确率达到预期。

类目准确率优化流程图

2. 微调

通过prompt工程，我们解决了缺陷识别问题，但还有一个难题无法绕开——比例识别。以生鲜爆品鸡蛋为例，无论是调用GPT还是qwen-vl，单靠prompt工程优化，准确率始终撞到天花板，无法达到线上使用标准。于是，我们开始尝试大模型微调方案。

数问题鸡蛋个数

整体流程

下图是整个微调与部署过程的示意图。接下来对每个环节展开说明。

微调&部署过程的示意图

1. base model的选用
综合考虑开源模型的能力、安全稳定性等因素，我们选用了qwen-vl作为基座模型。以下是其官方公布的参数信息和相关能力评测。

qwen-vl参数以及评测（图片取自qwen-vl官方公开数据）

2. 数据集准备
数据集的质量直接决定微调模型的表现。得益于历史数据的积累，我们省去了繁重的标注工作。基于历史数据，我们清洗出以下几类数据集：单图鸡蛋质量问题个数、多图鸡蛋质量问题个数（消费者可能上传多张退款凭证，需要判断是否为不同视角下的问题）。此外，还加入了品种识别的分类任务，确保品种识别环节有更稳定的表现。同时，混入了一些白图和截图数据，用以减少大模型的幻觉。

数据集类型	数据集名称	数据描述
自建	鸡蛋问题个数-单图	取存量历史数据，一次prompt一张凭证
自建	鸡蛋问题个数-多图	取存量历史数据，一次prompt多张凭证，解决多视角问题
自建	生鲜类目数据	分类任务使用
自建	非生鲜实物图数据	主要为网图、白图、截图等，缓解幻觉，训练大模型“说不”的能力

3. 训练与部署过程
微调和部署流程参考了前面的示意图。整个过程涉及两个平台：星云（阿里微调训练平台）和whale（阿里大模型部署一体化解决方案）。依靠这两个平台，我们完成了整条链路的训练与开发。

微调采用边训练边评估（train & eval）的方式，数据比例9:1，使用A100卡训练了14小时。eval_loss持续收敛，在epoch=2.2时获得了最小的eval_loss。具体的超参调整细节不再展开。部署微调后的模型时，通过whale平台提供的SDK即可实现访问，接口格式遵循OpenAI协议。

4. 端到端测评
为了验证模型表现和全链路调用效果，我们在Ja va工程中发起调用，解析返回结果并与人工标注结果做了对比。结果如下：微调之后，问题个数的识别准确率相比GPT-4提升了11个百分点，分类任务准确率提升了2个百分点。

模型	问题鸡蛋任务准确率	分类任务准确率
GPT4	与人工结果误差1个以内，准确率为79%	90%
qwen-vl-sft	与人工结果误差1个以内，准确率约90%，标准差也有所收敛	92%

5. 压测情况
为了摸清微调后模型服务的QPS水平，我们进行了压测。在双卡L20、单张图片、输入输出token量与微调时保持一致的情况下，模型能达到大约10 QPS的水平，完全满足业务场景要求。

展望

大模型技术的蓬勃发展，让我们站在了前所未有的变革前沿。这股技术浪潮不仅重新定义了信息处理与分析的方式，也在深刻地渗透着各行各业。作为技术人员，既要保持对前沿科技的热情，持续学习最新理论和技术工具，也要敢于尝试创新的方法。唯有如此，才能在这场由大模型引领的技术革命中抓住机遇，创造出更多具有突破性意义的产品和服务。

来源：https://www.53ai.com/news/zhinengyingxiao/2024110149031.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。