首页 游戏 软件 资讯 排行榜 专题
首页
AI
专访方昱春教授:数据驱动的手语识别研究如何突破数据瓶颈

专访方昱春教授:数据驱动的手语识别研究如何突破数据瓶颈

热心网友
23
转载
2026-05-16

在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。近期,我们有幸与上海大学的方昱春教授进行了一次深入交流。方教授在计算机视觉领域深耕多年,近年来将研究重心转向手语识别,致力于用技术架起沟通的桥梁。

她的研究重点,在于利用计算机视觉技术探索手语识别,特别是通过深度学习方法来解析这一复杂而独特的视觉语言。目前,她和团队已经在多模态数据采集、孤立词识别、连续手语识别以及人体姿态建模等四个方向上展开了系统性的工作。

实际上,方教授的学术旅程始于人脸识别。2003年,她在中科院自动化所获得博士学位,随后赴法国国立信息与自动化研究院从事博士后研究,专注于图像检索。2005年加入上海大学后,她的研究视野逐渐拓宽。一个关键的转折点出现在2017年,她协助本校手语语言学专家倪兰教授筹建面向人工智能研究的手语数据库。次年,在上海市科委项目的支持下,她的手语识别研究正式步入轨道。

手语研究对她而言,不仅是技术探索,更是深入理解人类认知智能机制的一扇窗口。她指出,手语作为一种自然语言,尽管其系统化发展的历史相对较短,但它所蕴含的关于语言起源和认知机制的信息是极其宝贵的。

如今,方教授的研究不仅关注理论前沿,更着眼于解决实际问题,旨在为聋人群体在应急、医疗、购物等现实场景中提供切实的数字技术支持。她和团队正在开发的应用程序和小程序,正是这一愿景的具体实践。同时,她也敏锐地观察到,大型语言模型等前沿科技的兴起,正为手语识别研究带来新的机遇与挑战,她的团队也正在积极探索计算机视觉与自然语言处理的融合路径。

计算机视觉学者做起手语识别

问:方教授,您是计算机视觉(CV)出身,手语研究在您的研究工作中所占比重在逐年增加,能具体介绍下您是如何把两者结合起来的吗?

方昱春:简单来说,计算机视觉和手语的结合,形成了“手语识别”这一研究方向。这是一个典型的数据驱动领域,而手语数据的获取和标注本身就相当复杂。我涉足这一领域,契机在于倪兰老师参与的相关科研活动,她希望将人工智能技术应用于手语研究,这促使我开始着手语数据的采集和整体研究规划。

在技术路线上,除了我们采用的基于视觉的方法,历史上也存在基于传感设备(如数据手套)的系统。但随着深度学习在人脸识别等领域的巨大成功,手语识别研究的主流也逐渐转向了机器学习与计算机视觉结合的方向。

目前,我的研究小组正紧跟计算机视觉的主流方法,以深度学习为核心处理手语识别问题。我们已经探索了四个主要方向:多模态数据采集、孤立词识别、连续手语识别,以及人体姿态建模和AI生成技术在手语研究中的应用。

特别是在连续手语识别方面,我们试图建模手语运动的多模态特性,比如头部、面部、双手和躯干之间的空间与运动关系,以实现更深入的理解。随着AIGC技术的发展,我们也开始尝试一些手语的计算生成研究,这部分工作尚处于起步阶段。

问:手语识别这一研究领域过去很少人关注,国内在这方面大致经历了怎样的发展阶段?

方昱春:基于计算机视觉的手语识别研究,其发展历程大约有二十年。真正迎来蓬勃发展,是在深度学习技术成熟之后。近两年,相关研究的规模呈现出快速增长态势。

我个人是在2005年加入上海大学,但直到2017年才开始规划手语研究,2018年正式投入。2017年协助倪兰老师筹备数据建设,对上海大学的手语研究而言是一个重要里程碑。同年,倪兰教授建立了“中国手语及聋人研究中心”,展现了前瞻性的布局。

问:您认为手语识别研究的长远目标是什么?

方昱春:从理论视角看,手语作为一门自然语言,是研究语言发展和人类认知机制的宝贵对象。与历史悠久的文字语言相比,手语系统化发展的历史较短,这反而使其成为观察语言形成与认知互动的独特窗口。我们希望能更深入地理解这些底层机制。

从应用层面来说,目标很明确:解决手语在实际场景中的应用难题。例如,在应急、医疗、购物等关键场景中,为聋人社区提供有效的数字化支持工具。我们正在尝试开发相应的应用程序和小程序,来逐步实现这些目标。

问:手语研究现在是您研究工作的主要部分吗?对您招生方面有何影响?

方昱春:手语研究目前是我主要的科研方向之一,自启动相关项目以来,投入的精力和资源都在持续增加。

在研究生招生方面,我们非常希望吸引具有跨学科背景的学生加入,比如兼具语言学和机器学习知识的人才。但现实中,找到这样的复合型人才确实存在困难。幸运的是,上海大学有倪兰老师这样在手语语言学领域积淀深厚的专家。未来,我们计划合作指导学生,共同培养交叉学科背景的复合型人才,这对学生未来的职业发展无疑具有重要价值。

数据是手语识别研究的最大瓶颈

问:我们近期也专访了研究美国手语的田英利教授。她的团队开发了一套实时手语语法错误识别系统,旨在为学习者提供即时反馈。您在这方面的研究是否有相似之处或存在差异?

方昱春:从个人角度而言,我在手语研究领域还算是一名“新手”。我们实验了从计算机视觉角度研究手语的一些基本方法,这些方法在应用上具有实用潜力,对未来的理论研究也颇有助益。

在与倪老师讨论上海大学未来的手语研究规划时,我们了解到田英利教授的工作,并决定主动联系,促进不同团队之间的交流。尽管研究的手语语种可能不同(如美国手语与中国手语),但背后的技术机理是可以互相借鉴的。通过比较不同手语,反而能相互验证方法的普适性。

事实上,我们最初进行手语研究时,也是从孤立词识别起步,并且使用的是美国手语(ASL)的开源数据集。这再次印证了数据驱动的研究离不开数据。在自建数据准备就绪之前,开源数据集是重要的研究基础。

值得一提的是,手语也存在“方言”现象,不同地区的手语表现形式会有差异。目前,国内如中国科学技术大学、西安电子科技大学、中国科学院计算所和自动化所等机构,在手语识别研究方面都很有代表性。团队间的合作与沟通,例如推动数据库共享,无疑对领域发展大有裨益。

问:既然手语也有“方言”之分,您目前使用的手语数据集,是否主要基于上海地区的手语?

方昱春:我们目前在上海进行的手语数据工作还处于比较基础的阶段,例如数据的分割和预处理,尚未深入到识别算法层面。

我们算法研究主要使用的是名为“中国手语识别数据集”(CSL)的开源数据,该数据集由中国科学技术大学的团队建立。在国家层面,为了帮助聋人群体,正在通过制定和推广新的标准手语来做许多语言规范化工作。

对于不打手语的研究者而言,辨识不同地区的手语方言确实存在挑战。关于手语的地域差异,还有许多语言学问题有待深入研究。

问:国内几支领先团队所使用的手语数据,是否也针对特定地区?

方昱春:是的,这几所单位在手语识别研究方面都有丰厚的积累。但针对特定手语方言的深入研究目前还非常少见。

上海在手语语言学发展方面较为先进,倪兰老师与上海的聋人群体建立了长期联系和实际合作。从计算机视觉研究的角度,我们反而更多地使用德国的“凤凰”(PHOENIX)数据集。这是因为在该数据集上已有许多标杆算法,便于我们评估自身算法的水平。其开源数据量较大,也成为了领域内广泛采用的验证基准。

问:使用德国手语数据集进行研究,会存在语言不通的问题吗?这对研究方法有影响吗?

方昱春:从计算机视觉的技术角度看,使用德国或其他国家的手语数据集问题不大,因为方法是具有通用性的。视频中包含的主要是人体上半身的姿态、运动等多模态信号,这些视觉信号本身是相通的。当然,从语言学角度看,不同语系的手语确实存在结构性差异,这是另一个层面的问题。

问:在开发手语数字人应用时,是否遇到一些挑战?比如聋人群体可能难以理解数字人的手语表达,或者不同企业开发的数字人可能出现同质化问题?

方昱春:首先,最大的挑战依然是数据匮乏。

我们选择使用德国凤凰数据集,一个重要原因是它将场景限定在天气预报领域,问题的复杂度因场景限定而得以简化。他们提供了大量开源数据供公共研究,并且其团队本身融合了语言学家和计算机科学家,这种合作模式非常值得借鉴。

第二个挑战,是手语语言学专家和专业人才的稀缺。

上海大学的手语识别研究,有幸能得到倪兰老师的专业指导。如果仅从计算机视觉的单一角度去解决问题,而不了解手语的语言学特点和聋人群体的实际使用习惯,那么开发出的算法或模型很容易脱离真实的应用需求。

田英利教授的工作就是一个跨学科合作的典范,她成功地将语言学与计算机视觉技术相结合,其交叉应用的切入点非常新颖。倪老师也非常赞赏田教授的工作,并特意推荐给我们团队参考。

问:像ChatGPT、Sora这样的大模型在自然语言处理方面成就显著,它们背后的技术理念对您的手语识别研究有何启示?

方昱春:我们团队也一直在密切关注大语言模型的发展动态,并正计划利用学校新建的大型GPU集群,开展更多相关研究。

在结合计算机视觉(CV)和自然语言处理(NLP)方面,受中科大团队将自然语言理解技术应用于手语识别的启发,我们团队近期也提出了一个融合解决方案,并取得了不错的效果。

问:大模型的出现让很多人设想构建通用手语大模型,但这面临数据获取的难题,尤其是涉及肖像权和隐私问题。您主要使用倪兰教授收集的数据库吗?

方昱春:为了妥善使用数据,健全的隐私保护机制是必不可少的。我们团队在数据采集和使用的全过程中,都严格遵守隐私保护的约束。

手语理解数据集面临的核心挑战在于数据标注。采集到孤立词或连续手语视频后,能够进行什么程度的标注?目前,对文字形式的自然语言进行自动分词已经非常成熟。然而,要将手语视频分解成音韵要素(类似于口语的音素),自动化处理的难度极高,依赖人工标注则工作量巨大。

在接下来的线上圆桌讨论中,数据难题正是我希望与同行们深入探讨的核心议题之一。

来源:https://www.leiphone.com/category/academic/cZqjSFxbKXj5MSQz.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南
AI
阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流

热心网友
05.15
商汤小浣熊智能助手基于自研大语言模型
AI
商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办

热心网友
05.15
MiniMax新一代智能模型矩阵全面解析与应用指南
AI
MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M

热心网友
05.15
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景
web3.0
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友
05.15
智能客服机器人解决方案:AI客服系统提升企业服务效率
AI
智能客服机器人解决方案:AI客服系统提升企业服务效率

在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友
05.15