游乐游手机版
首页/AI热点日报/热点详情

大模型技术在淘宝生鲜审核场景的应用实践

类型:热点整理2026-06-04
随着多模态大模型技术的不断演进,其应用边界正在被迅速拓宽,其中凭证审核场景成为了一块重要的试验田。在业务域内,大量凭证审核工作长期依赖人工,不仅人力成本高昂,效率提升也面临瓶颈。 困境 凭证审核的核心任务可以归结为三项:第一,确定商品品种;第二,判断商品是否存在质量问题(即缺陷识别);第三,核算出现

随着多模态大模型技术的不断演进,其应用边界正在被迅速拓宽,其中凭证审核场景成为了一块重要的试验田。在业务域内,大量凭证审核工作长期依赖人工,不仅人力成本高昂,效率提升也面临瓶颈。

困境

凭证审核的核心任务可以归结为三项:第一,确定商品品种;第二,判断商品是否存在质量问题(即缺陷识别);第三,核算出现问题的商品比例。这些任务与商品类目高度耦合,而生鲜类目繁多,质量问题的表现更是千差万别。传统算法工程想要啃下这块硬骨头,投入巨大,回报率却低得难以接受。

冲出困境

转机出现在GPT-4o等优秀多模态大模型的爆发式增长上。大量测试表明,这类模型在开放世界视觉理解、视觉描述、多模态知识及常识推理、场景文本理解、情感理解等方面表现抢眼。很自然地,把多模态大模型技术引入凭证审核,就成了一条值得探索的路径。

凭证审核本质上属于视觉问答(VQA)任务。结合Qwen官网的VQA测评数据以及我们自己的实测,初步判断这条路走得通。

实现方案

识别准确率是整个项目的命门。下面从品种识别、商品问题识别、问题比例识别这三个任务入手,具体说说提升准确率的方案。

提升大模型准确率的常规路径有三条,按投入成本由高到低排序:预训练、微调、prompt工程。通常而言,只要选用的基座模型足够强大,靠prompt工程就能解决大部分任务。我们在项目中分别尝试了prompt工程和微调两种方案。

1. prompt工程

在prompt工程方面,我们试过链式思维(CoT)、少样本学习(Few-Shot)等经典思路。经过资料查阅和实测,发现Few-Shot效果最为显著,在缺陷检测场景中尤其好用。

Few-Shot思路
大模型在海量文本上预训练后,具备了扎实的语言理解和生成能力。Few-Shot的精髓在于,通过提供少量任务相关的示例(通常直接写在输入提示里),引导模型理解任务要求和输出格式,往往能收获意想不到的效果。下图引自《The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)》。

zero-shot few-shot

在本项目中,我们也沿用了Few-Shot的思路。关键在于确保样本质量——我们收集了各个类目高质量的品控验收标准图作为输入样本。

以核果-桃子类目-腐烂变质场景为例,prompt的设计大致如下:图1取自商品主图,图2是消费者上传的退款凭证。

图1 图2 prompt
根据图1,请你确定图2是否发生***等质量问题

类目prompt单独调优
不同生鲜类目的质量问题特征差异明显:西瓜的变质、葡萄的掉粒、柚子的失水……必须针对每个类目进行精细化的prompt调优。

西瓜变质 葡萄掉粒 藕腐烂 柚子失水 青菜不新鲜

各类目的特性问题

为了快速覆盖数百个叶子类目,我们设计了一套工程化的prompt调优方案,最终覆盖了发霉、腐烂、脏污、破损、掉粒等20多种场景的识别检测。方案包含四个环节:

  1. 知识对齐——为什么要做对齐?说白了,是模型向人类对齐。模型对prompt的理解可能与我们存在偏差。所以先让模型输出特征的描述,再以此为基础构造prompt。
  2. prompt构造——基于商品、凭证等信息,生成prompt。
  3. 版本准确率输出——由人工对模型的输出结果进行打标,获取各场景的准确率。
  4. 反馈修正——不断优化badcase,直到准确率达到预期。

类目准确率优化流程图

2. 微调

通过prompt工程,我们解决了缺陷识别问题,但还有一个难题无法绕开——比例识别。以生鲜爆品鸡蛋为例,无论是调用GPT还是qwen-vl,单靠prompt工程优化,准确率始终撞到天花板,无法达到线上使用标准。于是,我们开始尝试大模型微调方案。

数问题鸡蛋个数

整体流程

下图是整个微调与部署过程的示意图。接下来对每个环节展开说明。

微调&部署过程的示意图

1. base model的选用
综合考虑开源模型的能力、安全稳定性等因素,我们选用了qwen-vl作为基座模型。以下是其官方公布的参数信息和相关能力评测。

qwen-vl参数以及评测(图片取自qwen-vl官方公开数据)

2. 数据集准备
数据集的质量直接决定微调模型的表现。得益于历史数据的积累,我们省去了繁重的标注工作。基于历史数据,我们清洗出以下几类数据集:单图鸡蛋质量问题个数、多图鸡蛋质量问题个数(消费者可能上传多张退款凭证,需要判断是否为不同视角下的问题)。此外,还加入了品种识别的分类任务,确保品种识别环节有更稳定的表现。同时,混入了一些白图和截图数据,用以减少大模型的幻觉。

数据集类型 数据集名称 数据描述
自建 鸡蛋问题个数-单图 取存量历史数据,一次prompt一张凭证
自建 鸡蛋问题个数-多图 取存量历史数据,一次prompt多张凭证,解决多视角问题
自建 生鲜类目数据 分类任务使用
自建 非生鲜实物图数据 主要为网图、白图、截图等,缓解幻觉,训练大模型“说不”的能力

3. 训练与部署过程
微调和部署流程参考了前面的示意图。整个过程涉及两个平台:星云(阿里微调训练平台)和whale(阿里大模型部署一体化解决方案)。依靠这两个平台,我们完成了整条链路的训练与开发。

微调采用边训练边评估(train & eval)的方式,数据比例9:1,使用A100卡训练了14小时。eval_loss持续收敛,在epoch=2.2时获得了最小的eval_loss。具体的超参调整细节不再展开。部署微调后的模型时,通过whale平台提供的SDK即可实现访问,接口格式遵循OpenAI协议。

4. 端到端测评
为了验证模型表现和全链路调用效果,我们在Ja va工程中发起调用,解析返回结果并与人工标注结果做了对比。结果如下:微调之后,问题个数的识别准确率相比GPT-4提升了11个百分点,分类任务准确率提升了2个百分点。

模型 问题鸡蛋任务准确率 分类任务准确率
GPT4 与人工结果误差1个以内,准确率为79% 90%
qwen-vl-sft 与人工结果误差1个以内,准确率约90%,标准差也有所收敛 92%

5. 压测情况
为了摸清微调后模型服务的QPS水平,我们进行了压测。在双卡L20、单张图片、输入输出token量与微调时保持一致的情况下,模型能达到大约10 QPS的水平,完全满足业务场景要求。

展望

大模型技术的蓬勃发展,让我们站在了前所未有的变革前沿。这股技术浪潮不仅重新定义了信息处理与分析的方式,也在深刻地渗透着各行各业。作为技术人员,既要保持对前沿科技的热情,持续学习最新理论和技术工具,也要敢于尝试创新的方法。唯有如此,才能在这场由大模型引领的技术革命中抓住机遇,创造出更多具有突破性意义的产品和服务。

来源:https://www.53ai.com/news/zhinengyingxiao/2024110149031.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。