AI眼镜的“在场”之战:讯飞的解法是让眼镜隐形
“我们究竟需要怎样的智能眼镜?”——在澳门BEYOND Expo 2026上,科大讯飞发布AI眼镜时,穿戴设备业务部总经理林会杰开门见山地抛出了这个问题。
这个问题已经困扰行业14年。自2012年Google Glass问世至今,智能眼镜百花齐放,众多厂商尝试了各种方向,却始终卡在一个核心矛盾上:眼镜到底该是独立主机,还是手机的外设?
是做一台戴在头上的“手机”,把手机功能全部移植上去?还是只专注几件特定的事,像带摄像头的耳机那样默默服务?但现实是,手机已经足够强大。如果眼镜只是个缩小版的手机,用户凭什么为它买单?
市场的反应非常诚实。数据摆在那里:电商平台上AI眼镜的平均退货率高达30%,在某些直播带货为主的渠道,退货率甚至逼近40%~50%。一边是铺天盖地的新品发布,另一边是用户买回家又退回来。热闹背后,透着一股困境的味道。
这背后的症结,在讯飞的发布会上被概括为一个词——“在场”。
过去14年,智能眼镜始终没能证明一件事:它能否让用户心甘情愿地一直佩戴?要么太重,戴不住,身体无法“在场”;要么功能太鸡肋,没价值,心理上没有理由让它“在场”。眼镜对用户的价值,一直悬在半空中。

不是更小的手机,而是“第二大脑”
这轮AI眼镜的爆发,核心驱动力是AI本身的进化。
如今的AI能理解语言、识别图像、处理多模态信息,能推理、能决策,甚至能独立完成一整套复杂任务。换句话说,AI已经有了“大脑”。
而眼镜呢?它是人体天然的“入口”——可以每天佩戴十几个小时,长在眼前,自带第一人称视角,集成了摄像头、麦克风、显示屏。它“身体”就绪了,但缺个大脑。
一个缺身体,一个缺大脑。两者拼在一起,眼镜第一次找到了不模仿手机的理由。
因此,讯飞的定位很明确:AI眼镜不是配件,是主机。但它也不应该是一个更小的手机。林会杰的原话是:“讯飞AI眼镜,是戴在眼前的超级AI助理。”
这让人联想到哲学家海德格尔的一个观点:工具在最好用的时候,恰恰是你意识不到它存在的时候。你抡锤子钉钉子,脑子里想的是钉子,而不是锤子。只有锤子坏了,你才会突然发现它的存在。
一个工具能否普及,往往不在于它有多少功能,而在于它能否“消失”在使用过程中。对于AI眼镜,要做到这点,林会杰认为需要跨过三道坎。
第一道是佩戴:必须“轻”到几乎无感,还不能为了轻而牺牲性能和续航。第二道是听清:在展会、高铁、机场这种开放声场中,人声、噪声、音乐混成一团,AI得先听得清,才谈得上听得懂。第三道是做事:让AI真正进入工作场景,把沟通和办事的整个链条打通。
这三道坎,对应的是“在场”的三重境界——身体在场、感知在场、行动在场。

40克:跨过物理在场的门槛
第一道坎,是重量。
一副戴不住的眼镜,再聪明也是零。讯飞AI眼镜给出的答案是40克。发布会上,林会杰特意在台上放了一台电子秤,镜头特写:40.7克。他说那0.7克是误差。“我们不讲约40克,因为讯飞AI眼镜就是40克。”旁边还有一台天秤,另一侧放了一颗高尔夫球——结果比眼镜还重。

这40克是怎么做到的?源头是三层核心工艺。
第一层是全贴合树脂波导显示芯片。这块被称为“全球首创”的工艺,用树脂替代了传统的玻璃基波导。传统玻璃波导虽然光学性能出色,但重、脆、贵;树脂则能在保留显示能力的前提下大幅减重。“全贴合”意味着各层光学结构紧密结合,既减重又提升了光学一致性。
第二层是航空级镁铝合金镜架。镁铝合金的密度只有钢的一半,但强度足以满足结构需求。
第三层是定制化微型光机模组。光机是显示系统的核心引擎,体积越小,眼镜设计的空间就越大。
三层叠加后,整机重量比同类产品轻了20%以上。
但减重不是唯一的事。发布会上还透露了三个关键细节:通过了1.7米跌落测试不碎裂,解决了智能眼镜一个核心心理障碍;针对亚洲人脸做了上千次模拟仿真测试,解决了长期被忽视的人体工学问题;最重要的是,没有为减重而牺牲功能——摄像头、显示模组、5+1麦克风阵列、扬声器,一个不少。
一位参与前测的汽车媒体用户提到,女生对饰品的颜值和重量很敏感。她测过很多眼镜,但使用率都不高。而讯飞这副,她带回家第一反应是:“跟我好几个品牌的口红一样重。”

多模态降噪:让AI学会“看谁听谁”
戴得住,只是开始。第二道坎硬得多——在真实世界的复杂噪声里,AI怎么能知道你想听谁说话?
林会杰在发布会上没有罗列“95%、98%”之类的数据,直接用现场演示来回应。
第一个演示是跨语言电话同传。林会杰喊了一句“小飞小飞,打电话给同事Andy,看看展会现场”,全程没动手。眼镜自动调起通讯录、拨号、启动翻译。电话那头Andy用西班牙语描述展会现场,林会杰眼前的镜片实时浮现中文字幕,同时还伴有语音播报。通话结束后,手机上留下了全程记录和一份双语总结,关键信息、共识、待办事项一应俱全。
这个演示的看点不在翻译本身,而在于AI跨设备跨终端的主动调度能力。
但真正的技术硬实力,体现在第二个演示:80分贝复杂声场下的精准识音。林会杰请了5位同事上台模拟真实展会场景——多人同时交叉对话、背景噪音、多语言混杂。旁边有台分贝仪实时显示噪音水平。当噪音冲到80分贝以上,林会杰与Andy交谈时,眼镜镜片依然能精准呈现Andy说话的英文转写与中文翻译。

80分贝是什么概念?相当于嘈杂的餐厅或大型展会现场。绝大多数现有AI翻译眼镜在这个分贝水平下,几乎无法稳定工作。
支撑这种能力的是多模态AI降噪系统,这也是讯飞眼镜一个关键的技术差异点。
传统解决方案有两种:麦克风阵列方向波束(基于声源方位猜测)和AI算法降噪(基于语音特征过滤)。但本质上都是在“猜测”哪个声音是目标。
讯飞的解法很巧妙:让眼镜不只“听”你说话,还要“看”你说话。这套系统用上了全球首创的唇动识别技术,配合5+1麦克风阵列和眼镜内置摄像头。麦克风做声源定位,摄像头追踪视线方向并捕捉唇动——三者融合,系统就能锁定“你正看着的那个人”,增强他的声音,同时压制其他声音。林会杰的总结是九个字:“看谁听谁,看谁翻译谁。”
这其实是在用工程手段复刻人脑的一个本能——心理学中著名的“鸡尾酒会效应”。在几十人同时交谈的派对上,人耳依然能锁定聊天对象的声音。人类靠的是双耳定位,加上对说话人嘴型和表情的视觉辅助。讯飞的多模态降噪,本质上就是给眼镜装了一个“鸡尾酒会大脑”。
一位前测用户上台分享时提到,他测过市面主流翻译眼镜,结论是:安静室内大家都能打80分,但一到展会、餐厅、商超这些嘈杂环境,效果直接不及格。听不清楚,翻译自然不准。而讯飞这副眼镜,核心就干了一件事:让眼镜听清楚。
听清了,听懂了,才谈得上翻译得对。

GlassClaw:从“我看我听”到“我来办”
前两道坎,让AI眼镜“在场”看和听。第三道坎,是让它动起来,替用户办成事。
为此,讯飞发布了AI助理——GlassClaw。
林会杰特意将它和普通语音助手做了区分:它是多模态的,能看懂你看到的画面、听懂你听到的声音、理解上下文,还能主动帮你规划下一步。
现场连续演示了几个动作。
先是海报识别。林会杰看着一张活动彩页问:“我眼前的海报是什么?”眼镜读懂内容、翻译过来,还告诉他海报里提到的两场采访都取消了。
紧接着,林会杰下了条相当长的指令:“查一下BEYOND主办方和讯飞之前的合作,看看有没有深入合作的机会?写一份合作提案,发邮件给主办方,抄送同事。”
这一连串动作,跨了信息检索、知识库调用、文档生成、联系人查找、邮件发送等多个环节。GlassClaw接下任务后,生成了提案,找到了同事的邮箱,把邮件发了出去。现场让同事和主办方当场确认——邮件确实收到了。整个执行过程只花了几分钟。
这正是当下Agentic AI产品形态化的关键节点:让AI从“问答-工具调用”的层面,进化成替用户完成任务的行动者。讯飞将这件事做在了眼镜上,让眼镜成为Agentic AI的载体——一个用户抬眼就能调用、不必掏手机的入口。
林会杰透露了一个细节:“我自己也是GlassClaw的忠实用户,每周的工作周报都是由它来完成的。”这暗示讯飞内部已经把它当作日常生产力工具在使用。
同一套逻辑还延伸到了“智能提词器”。对需要频繁开会、发言、演讲的人群,提词内容能实时显示在眼前,跟着语速自动滚动。配套的充电胶囊能当实体遥控,按键控制暂停、翻页,把握发言节奏。

当工具真正“消失”于无形
整场发布会下来,讯飞反复回到同一个画面:
发布会上看到一张外文PPT,你抬手机想拍,还没拍下来就翻页了。国外客户打电话来,你手忙脚乱地找另一个翻译设备。国企开会,你不方便掏出手机。
这些场景有一个共同点——都需要“双手”。手机时代,所有智能都藏在一块需要掏出来、点亮、解锁、打开应用的玻璃里。而讯飞AI眼镜希望做到的,是“解放双手”。它把智能从口袋里那块需要被唤醒的玻璃,挪到了你永远睁着的眼睛前面。
手机的智能是“召唤式的”——你得主动去找它;眼镜的智能是“在场式的”——它就在那里。
发布会尾声,林会杰说:“未来的世界,每一个信息、每一段对话、每一个场景,都应该在你的眼前自然流动,跨越语言和时空的界限,打通物理世界与数字世界的桥梁。眼镜将成为连接人与世界、人与知识、人与人之间沟通的新一代交互入口。讯飞AI眼镜要让每个人都拥有‘第二双眼睛’和‘第二个大脑’。”
这话说得很大。但落到这片40克的镜片上,它又变得很具体。


