首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
中国工程院院士高文:AI赋能字幕可关,助力2.2亿听障者实现自由

中国工程院院士高文:AI赋能字幕可关,助力2.2亿听障者实现自由

热心网友
26
转载
2026-03-28


本报(chinatimes.net.cn)记者王敬 北京报道

最新统计数据显示,我国听力损失人数约2.2亿,其中60岁以上人群听力损失现患率达45%。在人人都能通过电视、网络便捷获取信息的今天,你是否想过,听障群体却长期面临“看得见、听不清”的无奈,一道无形的壁垒,正阻碍着他们顺畅融入社会。

3月27日,由中国残联、北京市政府主办,北京市残联承办的2026中关村论坛年会科技助残论坛在北京举行。

论坛上,中国工程院院士、鹏城实验室主任、北京大学博雅讲席教授高文向包括《华夏时报》在内的媒体记者分享了关于科技助残的思考。他指出,在AI智能体飞速发展的今天,让听障人士通过遥控器轻松开启字幕,享受与常人无异的视听权利,已是“难度不大、亟待落地”的民生实事。

智能体带来新可能

回望人工智能的发展脉络,高文指出,人工智能发展的70年间,经历了多次起伏。自2006年开始的第三次浪潮中,过去20年又可细分为三波小的浪潮。

第一波是判别式人工智能,自2006年起兴起,判别式人工智能以图像和视频识别为代表,推动了人脸识别等应用的落地;第二波是自2014年开始的生成式人工智能,目前仍在发展,各类大语言模型均属此类;而从2025年开始,第三波浪潮——代理式人工智能(即AI智能体)来临,则代表了AI能力的一次重要跃升。

高文形象地解释了AI智能体的内涵:“单个智能体,相当于能够完成一项任务的程序。以往的人工智能系统,无论是生成式AI还是判别式AI,大多是一个程序只负责一件事。而多智能体系统则可以同时处理多项任务,如同一位秘书,能够统筹安排日程、整理文件、制作PPT、处理Excel表格。这些工作过去需要多个单一程序分别完成,而代理式人工智能的出现,让AI和人一样具备了这样的综合能力。”

他进一步介绍,AI智能体是一种能够感知环境、自主规划、使用工具并执行复杂任务的系统。当前,AI智能体与大语言模型紧密关联,通过调用多种模型完成复杂任务。

高文还以自动驾驶、具身智能、人形机器人等为例,说明多智能体系统的广泛应用前景。他特别提到开源工具OpenClaw(即当下火热的养“龙虾”),认为其能够调用大语言模型结果并实现迭代,是工程学的集大成者,值得各界积极使用,同时也要注意安全与风险管控。

推进可关闭字幕国标落地

高文的另一个身份是第十四届全国人大代表。2026年全国两会期间,高文与全国人大代表吕世明聚焦听障群体信息获取权益,联名提交关于在全国电视台全面推行实施《信息技术可关闭字幕》国家标准的建议,呼吁通过完善制度、强化技术、健全保障,让2.2亿听力损失者顺畅获取公共信息,切实筑牢无障碍信息环境的民生底线,彰显全过程人民民主的温度与力量。

在新闻直播、应急广播、体育赛事等关键场景中,同步字幕的长期缺位,让2.2亿听力损失者无法实时准确捕捉播出内容,被迫沦为“信息孤岛”。应急广播中的灾害预警、新闻播报中的政策解读、重大活动中的民生信息,这些与群众生活息息相关的内容,因缺乏有效的听觉替代手段,难以传递到听障群体中,不仅影响其知情权与参与权,更在紧急情况下可能埋下安全隐患。

高文指出,可关闭字幕(Closed Captioning,简称CC)为听力障碍群体提供了重要通道,让他们不仅能看到画面,还能通过字幕了解画面中的对话内容。可关闭字幕在欧美、日本等国家和地区已广泛应用,用户可通过遥控器自由开启或关闭字幕。

2024年实施的无障碍环境建设法明确规定,利用财政资金设立的电视台应当在播出电视节目时配备同步字幕。但高文和吕世明通过调研发现,由于缺乏强制约束和具体实施细则,这一规定落地效果不佳。

针对中文可关闭字幕的特殊性,国家标准《信息技术可关闭字幕》(GB/T 44882-2024)已于2024年11月发布,2025年6月1日正式实施,创新性提出可将关闭字幕编码为与音频和视频基本流并驾齐驱的字幕基本流,填补了我国可关闭字幕领域国标空白,为推广应用提供了自主可控的国际先进标准支撑。

AI赋能普惠无障碍

就技术实现原理,高文表示:“我们日常收看电视节目时,电视信号由电视台端发出,经线缆传输至用户家中,再由机顶盒或电视进行解析播放。这一过程中,电视台会将音频、视频等各类信号统一进行封装打包,再通过传输线路送达终端。”

信号封装遵循标准化技术规范,其中最核心的传输格式为MPEG-2TS(MPEG-2 Transport Stream)。该传输方式会将视频、音频等信号分别封装为独立数据包,并在数据包前端添加标识说明信息。传输流中包含多种类型数据包,涵盖节目相关、视频相关、音频相关等类别。

高文介绍,音频信号会根据声道或语种划分为音频1、音频2、音频3等不同通道,例如可分别承载中文、英文、法文等不同语种音频,若仅提供单一语种音频,则仅存在音频1通道。字幕作为独立信息,同样可通过标准化封装方式嵌入,与音视频信号同步传输,从而实现可关闭字幕的播放效果。

高文指出,目前观众在电视上看到的滚动字幕,通常是电视台在播出前将字幕叠加到画面上,再编码发送,这种方式生成的字幕属于视频流的一部分,无法由用户自行开关。而可关闭字幕则不同,它将字幕以文字字段的形式独立打包,随视频信号一同传输至用户端。观众通过遥控器即可根据需要打开或关闭字幕,为听力障碍人群提供了更灵活的使用体验。

对于字幕内容的生成,高文介绍,对于新闻等有文字稿的节目,可直接利用现有文字资源同步推送;对于现场采访等无文字稿的场景,则可借助语音识别技术,将语音实时转化为文字后生成字幕。他特别提到,2025年春晚曾为听力障碍观众专门制作了节目,但当时使用的是传统字幕机方式,并非可关闭字幕。

他认为,只需对电视台播出环节稍做配合,并对机顶盒、遥控器等终端设备进行升级,即可实现该功能。针对可能存在的安全风险,他强调,字幕内容可参照现有视频内容的管理方式,风险可控。

高文建议,可将相关设备纳入国产设备更新补贴政策,让听力障碍者通过简单的遥控器操作或机顶盒升级,即可享受到这一服务。他表示,在人工智能特别是AI智能体的技术加持下,实现这一目标难度不大,有望让数千万乃至上亿听力障碍人士平等享受信息获取的权利。高文呼吁各方携手合作,共同推动可关闭字幕技术的落地,让科技助残真正惠及更多人群。

责任编辑:徐芸茜 主编:公培佳

来源:https://www.163.com/dy/article/KP4HU3LN0512D03F.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

博尔扎诺大学研究:用少量参数优化篮球姿势评估模型
科技数码
博尔扎诺大学研究:用少量参数优化篮球姿势评估模型

想象一下,你正在学习投篮。一位经验丰富的教练站在场边,他关注的远不止“球进没进”,而是你手腕的角度、起跳的时机、身体重心的控制。这种对“动作完成质量”的直觉判断,是人类教练数十年经验的结晶,但对计算机而言,却曾是一个近乎无解的难题。 长期以来,计算机视觉的研究重心在于让机器识别“人在做什么”,例如区

热心网友
05.14
JIT编译器如何利用硬件信号优化隐式空值检查减少分支
编程语言
JIT编译器如何利用硬件信号优化隐式空值检查减少分支

隐式Null检查优化是JIT编译器提升性能的一种技巧,它通过CPU内存保护异常替代显式判空指令,减少分支开销。该优化需满足对象稳定、偏移固定等条件,依赖操作系统快速异常处理。虽能提升性能,但可能增加调试难度,并在某些安全环境中失效。

热心网友
05.10
医学博士跨界研发导电心肌补片免缝合重连心电信号
科技数码
医学博士跨界研发导电心肌补片免缝合重连心电信号

毛吉富团队研发出免缝合三维导电心肌补片,表面微米级导电“倒刺”可快速锚定心脏并重建电信号通路,动物实验中三天内改善心功能。团队还开发无线供电智能敷料等医用纺织材料,通过纤维材料创新解决心梗、慢性伤口等临床难题。

热心网友
05.07
卡尔达诺的ADA激增:鲸鱼交易与看涨信号
web3.0
卡尔达诺的ADA激增:鲸鱼交易与看涨信号

ADA 走强:鲸鱼交易频现与看涨信号浮现 最近,Cardano(ADA)的表现相当抢眼。一边是价格节节攀升,另一边则是链上大额交易异常活跃。这种“量价齐升”的局面,很难不让人多看几眼,市场信心似乎正在凝聚,未来的上升空间或许值得期待。 鲸鱼交易活跃度飙升 链上数据不会说谎。最新数据显示,Cardan

热心网友
05.03
BTC巨鲸持仓降至18.8万枚释放了哪些信号?散户应该如何应对?
web3.0
BTC巨鲸持仓降至18.8万枚释放了哪些信号?散户应该如何应对?

比特币巨鲸“调仓”背后:一场静默的筹码再分配 比特币市场近期震荡不休,而真正牵动神经的,往往是那些深海中的“巨鲸”。最新数据揭示了一个关键转折:过去一年,持有1,000至10,000枚比特币的大型投资者,整体减持了约18 8万枚。这意味着,市场最重要的净买方力量,已悄然转变为净卖方。这一变化绝非寻常

热心网友
04.30

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

华硕ROG枪神魔霸新锐2026游戏本预约开启
科技数码
华硕ROG枪神魔霸新锐2026游戏本预约开启

华硕ROG正式发布2026款枪神、魔霸及魔霸新锐系列游戏本并开启预约。枪神系列分为标准版与超竞版,均搭载酷睿Ultra9处理器,超竞版可选RTX5090显卡并配备光显矩阵屏。魔霸系列采用AMD锐龙处理器,高配可选锐龙99955HX3D与RTX5070Ti显卡。魔霸新锐系列主打性价比,配备RTX5060显卡,面向预算有限的玩家。

热心网友
05.15
锐龙5 9600X单通道内存电竞性能实测 依然轻松胜出
科技数码
锐龙5 9600X单通道内存电竞性能实测 依然轻松胜出

内存价格高企,单通道DDR5成为高性价比装机方案,但会降低游戏性能。测试显示,锐龙59600X凭借Zen5大核架构及对内存低延迟的优化,在搭配单条DDR56000内存时,游戏性能损失较小。相比之下,酷睿Ultra200SPLUS系列更依赖高带宽,单通道下性能下滑明显。在多款热门电竞网游实测中,锐龙59600X性能领先,且整机性价比优势显著。

热心网友
05.15
神牛ML40摄影灯内置锂电池版发布 售价568元起
科技数码
神牛ML40摄影灯内置锂电池版发布 售价568元起

神牛发布ML40系列摄影灯,包含ML40Bi和ML40R两款。ML40Bi售价568元,内置锂电池,支持边充边用及NFC快速连接,侧重便携智能。ML40R售价698元,具备更广色温调节范围,侧重专业色彩控制。两者均采用磁吸设计,兼容丰富附件,满足不同布光需求。

热心网友
05.15
华硕850W氮化镓电源白金重炮手849元入手
科技数码
华硕850W氮化镓电源白金重炮手849元入手

华硕TUFGaming系列推出新款850W白金重炮手氮化镓电源,到手价849元。该电源符合ATX3 1规范,长度150mm,采用全模组设计,配备12V-2×6接口支持600W峰值功率。其获得双白金效率认证与A-噪声认证,内部使用氮化镓元件与长寿电容,搭配135mm静音风扇,并提供8年质保,主打高效、安静与持久稳定。

热心网友
05.15
Falcon USD是什么币?USDF稳定币市值排名与投资价值解析
web3.0
Falcon USD是什么币?USDF稳定币市值排名与投资价值解析

FalconUSD(USDF)是一种与美元挂钩的稳定币,旨在为Web3生态系统提供可靠的交易媒介和价值储存工具。其运作依赖于储备资产支持和透明审计机制,在DeFi、跨境支付等场景有应用潜力。了解其技术原理、市场定位及潜在风险,有助于理性评估这一新兴数字资产的价值与前景。

热心网友
05.15