游乐游手机版
首页/AI热点日报/热点详情

为什么通用智能是下一代人工智能发展的必然趋势

类型:热点整理2026-07-01
第五届全球人工智能与机器人峰会(CCF-GAIR 2020)在深圳隆重召开。本次盛会由中国计算机学会(CCF)主办,香港中文大学(深圳)与雷锋网联合承办,并得到了鹏城实验室、深圳市人工智能与机器人研究院的大力协办。作为国内前沿科技领域中最具影响力的行业峰会之一,CCF-GAIR 大会已成功举办四届。

第五届全球人工智能与机器人峰会(CCF-GAIR 2020)在深圳隆重召开。本次盛会由中国计算机学会(CCF)主办,香港中文大学(深圳)与雷锋网联合承办,并得到了鹏城实验室、深圳市人工智能与机器人研究院的大力协办。

作为国内前沿科技领域中最具影响力的行业峰会之一,CCF-GAIR 大会已成功举办四届。在会议第二天的"人工智能前沿"专题论坛上,澎思科技首席科学家、新加坡研究院院长申省梅,围绕"迁移学习"这一核心议题,带来了一场内容扎实、干货满满的深度分享。

她以传统机器学习的局限性为切入点,逐步剖析深度学习的重大突破,进而深入讲解深度迁移学习背后的技术逻辑与具体应用案例,最后重点阐述了迁移学习在视觉智能落地过程中所面临的真实需求与挑战。

传统机器学习的核心痛点:泛化能力不足

传统机器学习的最大短板是什么?答案是泛化能力严重不足。其中一个关键原因在于,它依赖手工设计的特征——如 HOG、LBP、SIFT 等,这些特征完全依赖设计者的经验来提取,无法自主捕获数据中的非线性变化。每种特征仅对特定场景或任务有效,一旦应用场景发生变化,算法效果便会显著下降。

泛化能力不足所引发的连锁反应包括:鲁棒性差、落地成本居高不下、用户满意度持续走低。

不过,当时业界也存在一个标杆性的评测数据库——PASCAL VOC,学术界和工业界都将其作为模型训练与评估的标准平台。在 2010 年至 2012 年间,申省梅所在的团队与新加坡国立大学颜水成团队强强联手,连续三年摘得桂冠,比赛内容涵盖目标分类、检测与分割等关键任务。

另一个重要的行业标杆是 VOT Tracking,它是视觉跟踪领域的国际顶级赛事。2013 至 2014 年,他们再次夺冠。该比赛的评估维度不仅包括精度,还综合考虑了速度、鲁棒性及实现复杂度。当年他们的冠军模型,在英特尔 i5 处理器上可稳定运行至每秒 200 帧以上。

深度学习的重大突破:仍高度依赖数据

深度学习在泛化性和鲁棒性方面实现了质的飞跃,精度也大幅提升。2013 年,《麻省理工科技评论》将深度学习列为当年十大技术突破之一。

其意义远不止于精度从 95% 提升至 99% 的数值变化,更深层次的影响在于商业模式的根本性变革。深度学习能够完成许多过去无法实现的任务,甚至挖掘出超越人类直觉的智能洞察。近年来,风险投资大量涌入,尤其在深度学习与计算机视觉交叉领域,技术落地的速度显著加快。

谈及深度学习的进步,ImageNet 是一个绕不开的关键节点。其庞大的数据量、干净整洁的标注以及较低的噪声,吸引了大量研究机构在此训练模型。最初,机器学习在 ImageNet 上的分类误差高达 26%,准确率仅徘徊在 70% 出头。然而,短短四五年间,其精度便超越了人眼判断水平。当时,ImageNet 被业界视为计算机视觉领域的年度奥林匹克。

当然,除了大数据之外,算力同样是推动变革的核心因素。没有 GPU 算力以及那些在深度学习网络架构上持续耕耘的研究者,就不会有今天的技术成就。

澎思科技在多个行业落地过程中,对视觉技术的性能要求极为严苛。他们基于不同业务需求,快速开发出人脸识别、行人分析、车辆识别、人车非识别、人群分析、行为识别、图像增强与恢复、声纹与指纹识别,以及自主导航与 3D 重建等一系列技术。这些技术虽然过去也能通过传统机器学习实现,但深度学习将整体性能推向了全新的高度。

成立短短两三年,澎思科技已累计 15 次获得国际比赛冠军,并刷新了多个权威数据集的世界纪录。在去年 ICCV 的轻量级人脸识别挑战赛中,四个赛道中有三个均位列第一。

在澎思的 AIoT 蓝图中,深度学习算法已全面覆盖智慧楼宇、智慧社区、智慧园区、智慧工厂等典型场景。中间层采用的是澎思自研的算法,不仅部署在云端,还广泛应用于边缘端和前端智能设备。

然而,问题在于深度学习模型——例如 CNN——虽然带来了巨大突破,但其本质仍是在给定数据上进行训练。它能够很好地反映训练数据的特征,但数据集仅代表某一特定领域、场景或任务。例如 CCTV 监控下的自然图像、户外场景,或者人脸识别、行人再识别、行为分析等任务。模型在这些特定数据上精度极高,远超传统机器学习,但一旦场景发生变化,模型性能便会明显下滑。一个简单的例子是:针对亚洲女性训练的人脸识别模型,很难直接迁移到男性、白人女性甚至儿童身上。

可以说,深度学习依然高度依赖数据。这也是当前 AI 落地的核心痛点:

1. 感知环境与应用场景高度复杂多变。不同环境下相机捕捉的图像,受天气、光线、角度、遮挡等多种因素影响,成像质量差异显著。训练数据与实际落地场景的不一致,直接导致模型性能骤降。

2. 重新训练模型需要大量 AI 专业人才,周期长、成本高、见效慢,这已成为 AI 普惠化进程中的主要障碍。

3. AI 人才稀缺、成本高昂,进一步阻碍了企业采纳 AI 技术、享受技术红利。

澎思科技的使命是"AI 即服务"。通过自主研发的 AIoT 平台,将"AI 服务"与"AI 功能定制终端"紧密结合,形成完整闭环,以技术手段有效解决上述落地困境。

深度迁移学习:AI 大规模落地的关键希望

迁移学习并非一个全新的概念。早在 1995 年的 NIPS 研讨会上,就有学者讨论过如何归纳系统知识、整合并迁移至新领域。到了 2016 年的 NIPS 大会,吴恩达再次强调,迁移学习是深度学习未来发展的关键方向之一。

澎思搭建的迁移学习平台,设计逻辑非常清晰:首先专注于某一特定任务,训练出一个高质量的预训练模型;随后进行在线迁移学习和在线优化,并自动下载至边缘端。当目标域数据出现不同情况时,可灵活选用无监督学习、自监督学习、小样本学习、GAN 迁移、多任务学习等多种算法。

预训练模型是迁移学习成功的关键前提。拥有一个好的预训练模型,任务便成功了一大半。ImageNet 在图像分类、目标检测、分割领域的影响力至今无可替代。从 2009 年李飞飞团队的开创性论文,到 AlexNet、VGGNet、GoogleNet、ResNet、DenseNet、ResNeXt 等经典模型,它们至今仍是各行业进行预训练的基础架构。

以下是两个迁移学习的实际应用案例。例如,在无人看管物品检测任务中,通过结合人的检测与包的检测的预训练模型,再借助迁移学习框架,性能可从 30% 提升至 98% 以上。再比如人脸识别——拥有好的预训练模型固然重要,但如果训练数据中儿童人脸、不同肤色人脸、暗光人脸样本较少,模型性能便会下降。迁移学习的核心价值在于,能够在不影响源域性能的前提下,在特定目标场景中达到与源域几乎相同的识别效果。

另一个研究热点是行人再识别(ReID)。在人脸识别之后,研究人员希望进一步通过行人的外观与形态确认其身份,尤其是在跨相机场景下搜寻特定人物。然而,人体不同于人脸或指纹,它属于非刚性物体,容易受到相机角度、光线、遮挡、分辨率、姿态等多种因素影响。哪些特征是某个人的专属特征,很难准确界定。这也使得行人再识别至今仍是计算机视觉领域极具挑战性的课题。

2019 年 7 月,澎思科技在行人再识别的三大主流测试数据集上取得了业内最佳成绩,刷新了世界纪录。去年 8 月,在基于视频的行人再识别数据库上,团队再次取得突破性进展,刷新了历史纪录。

但这些都是基于同一域、同一类数据集的表现。一旦涉及跨数据集或跨域,问题便暴露无遗。例如,在 Duke 数据集上训练的模型,直接应用于 Market-1501 数据集时,mAP 仅有 17.5;但引入迁移学习后,mAP 可跃升至 54.1 以上。今年 6 月的一场 ReID 比赛中,澎思通过迁移学习,在三个数据集上都取得了优异成绩,显著提升了跨域 ReID 算法的准确率。

在这次比赛中,澎思创新性地将对抗生成网络(GAN)与自监督学习算法结合起来训练模型。GAN 主要完成两项任务:一是数据库的域迁移(即原域到目标域的风格迁移),二是目标域的数据增强(生成跨摄像头数据,并施加相机风格不变的约束)。自监督学习则通过聚类方式,为目标域数据生成虚拟标签,并对已训练好的网络进行微调。

今年 6 月,澎思在 CVPR 2020 的跨域小样本挑战赛中也取得了优异表现。

传统机器学习和当前的深度学习,本质上都依赖大量标注数据,再通过监督学习训练出泛化能力强的模型。但最大的痛点在于:数据标注费时费力,且训练数据对应的场景与实际应用场景往往不一致。这已成为 AI 落地普及的最大障碍。正因如此,迁移学习和小样本学习才成为近年来的前沿研究热点。

本次小样本挑战赛的条件极为苛刻:目标域样本无法标注,且仅有极少量样本(5 个、20 个或 50 个)。目标域与原域通常不同,标注数据又非常耗时,尤其对于医学图像,还需要医生专家监督。比赛的设计思路是:原域为自然图像,如何通过迁移学习和小样本学习,使模型在四个完全不同的域(农作物疾病、卫星图像、皮肤病变、胸部 X 光)上均能表现良好。

澎思的成绩十分亮眼。在农作物疾病任务中,仅使用 5 个样本时,迁移学习即可达到 96% 的性能;随着样本数增加到 20、50 个,精度接近 99%。跨域差距越大,性能会有所下降,但样本越多,性能也会相应提升。平均来看,澎思比 Benchmark 的 67% 高出近 7 个百分点,达到 73.78%。本次比赛中,澎思采用了"元迁移学习 + 图网络"的框架,可适配多种前端网络。

再来看多任务学习的应用。在人脸属性分析方面,先在已有的源数据集上训练一个对人脸属性具有良好表征能力的模型。目标域的数据量虽然不大,但借助预训练模型的泛化能力,在目标域的多个任务上进行优化,最终实现了高性能的多任务识别。

另一个典型例子是异常行为检测,例如打架检测。不同摄像头角度、不同光线条件、不同表现形式——如何训练一个能够快速迁移到不同目标域的模型?这正是迁移学习所要解决的核心问题。

前沿算法研究:加速 AI 快速落地

通用智能是下一代 AI 发展的必然趋势,也代表着智能革命的未来方向。澎思在迁移学习、无监督学习、自监督学习、小样本学习、多模态学习这些真正贴近 AI 落地实际的领域,将持续深耕。

核心算法方向是基于应用场景开发一站式服务:从场景理解到解决方案,依托算法池与工具箱,配合前端设备和数据库,在端侧和云端同时进行优化,实现从端到云的无缝衔接。

澎思的目标十分明确:在算法技术上持续走在国际计算机视觉前沿,以 AI 落地为核心,建设云端 AI 在线迁移学习平台,强化端侧 AI 轻量化设计体系,推动以用户价值为导向的 To B/To C 产品创新。

最后,让我们进一步展望迁移学习在视觉智能中的实际应用需求。目前,计算机视觉领域的预训练模型,泛化性和鲁棒性仍有待加强。以行人再识别为例,现有数据训练出的模型,在跨域场景下远未达到可用水平。而在实际应用中,ReID 的标注又非常耗费人力与时间。期待未来在无标签或少标签的情况下,迁移学习能够实现大幅提升。跨域场景下的人的行为检测同样如此——仍有大量现实问题亟待解决。期待迁移学习在接下来的 AI 落地与普惠进程中,能够带来更多实质性突破。

来源:https://m.elecfans.com/article/1273827.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。