游乐游手机版
首页/科技数码/文章详情

机器人何时学会摸闻尝?顶尖实验室突破AI感知盲区

时间:2026-06-11 13:21
人工智能长期依赖视觉和听觉,忽视了触觉、嗅觉与味觉这些“沉默感官”,难以全面感知物理世界。多感官智能正推动触觉、嗅觉、味觉的数字化,通过跨模态对齐提升机器人对真实环境的理解,在医疗、电商、元宇宙等领域具有广泛应用前景。

说起来你可能也有这样的经历:网购一件毛衣,图片再高清、细节再放大,你还是拿不准它穿上身会不会扎人、闷不闷热。冰箱里的牛奶过没过期,光看包装上的日期有时也靠不住,鼻子凑上去一闻,答案反而清清楚楚。

这些再普通不过的生活经验,恰恰暴露了当下人工智能的一个真实短板。过去几年,AI越来越会看、会听、会说——能识别图片、理解语音、生成文字,进步确实快。可一旦走出屏幕,来到厨房、病房、工厂、农田这些真实场景,它面对的就不再是数据,而是实实在在的物理世界:杯子要用多大的力才能拿稳而不捏碎?草莓熟到什么程度才适合采摘而不碰伤?老人摔倒前,身体重心的变化是怎样的?食品是不是已经开始腐坏?单靠摄像头和麦克风,AI根本没法做完整判断。因为要看懂这个世界,除了看见颜色、听见声音,它还得摸到纹理(触觉)、闻到气味(嗅觉)、分辨味道(味觉)。

长期以来,触觉、嗅觉与味觉被称为“沉默感官”。尽管它们和视觉、听觉一样,是人类感知世界的重要组成部分,但在AI的世界里,却常常被忽视。原因也不难理解——视觉能捕捉光影,听觉能捕捉声波,这两种物理信号有成熟的数字化手段。而触觉是复杂的机械力反馈,气味由几百种化学分子混合构成,味觉则依赖多个受体的协同作用,信号本身就难以捕捉,更别说有统一的标准了。于是,多感官智能被推到了前台,它的目标很直接:让机器拥有更接近人类的感知能力。如今,全球多家顶尖科研机构正在合力推进这场全感官数字化探索,AI也正在逐步突破视听领域的局限,走向真正的“五感俱全”。

唤醒沉默感官,突破AI感知盲区

人类认识世界,从来不是靠单一感官完成的。你买桃子时,不会只看颜色,还会凑近闻一闻,用手按一按——成熟的桃子带着淡淡的果香,按上去果肉柔软却不塌陷。正是因为多感官的协同作用、多维度信息的融合,我们才能快速、全面地判断一件事物的真实状态。看到一杯热茶冒着白气,自然会想到杯壁可能烫手;闻到厨房里一丝焦味,立即会意识到锅可能烧糊了;拿起一枚鸡蛋时,手指会自动调整力度,既不让它滑落,也不把它捏碎。这些判断看似轻松,背后全是视觉、嗅觉、触觉和过往经验的快速配合。

ChatGPT的文本生成、AlphaGo的棋艺,确实展现了AI在抽象计算和逻辑推理上的卓越成就。但面对一个充满柔软、滑腻、潮湿、弹性、温度和气味的真实世界,传统AI的局限性暴露无遗——感知维度不完整。没有物体的触感、气味这些关键信息,机器人连精准抓取、判断食物新鲜度这样的基础任务都难以完成。这恰恰是莫拉维克悖论的一个具体写照:计算机可以轻松实现高级逻辑推理,却很难复刻人类那些看似“本能”的感知和运动能力。早在1950年,图灵在《计算机器与智能》中就曾预见——AI的发展不应只停留在逻辑推理层面,它还应具备类似人类的感知能力,通过多感官与世界交互,积累认知经验。这正是当前具身智能的核心方向,而多感官智能,恰好是这条路上最关键的一块拼图。

机器人要打扫房间、护理老人、完成装配、参与救援,就必须知道物体能不能碰、该怎么碰、碰到什么程度才安全。多感官智能的意义,不只是让机器人更灵巧,更在于让AI开始懂得“分寸”——什么时候该轻拿轻放,什么时候该加大力量。技术发展到这一步,机器不再只是被动执行命令,而是要学会主动理解环境。这一探索的重点,是推动触觉、嗅觉、味觉等“沉默感官”的数字化,把那些原本难以捕捉的物理信号,转化成机器可以解读、处理和模拟的数字符号。这不仅是一项技术突破,更是一次让AI与物理世界“共情”的重要尝试,使人机交互从简单的指令响应,升级为真正意义上的感官协同。

跨模态对齐,让AI学会“闻、尝、摸”

其实,人类对多感官智能的探索,早在100多年前就开始了。这些年来,科学家们主要解决了感官信号怎么“捕捉”的问题,而当前科研工作的核心已经转向另一个层面:怎么让AI“理解”和“应用”这些感官信号。多感官合在一起,AI才能真正靠近人。

值得注意的是,真正的多感官智能,并不只是多装几个传感器那么简单。关键是要让AI把不同感官的信息串联起来,共同形成一个判断。这对具身智能尤其重要。未来的机器人,不可能每一步都等着人来发指令,它得自己判断草莓能不能摘、老人要不要扶、零件是否安装到位、机器有没有出现异常。只有把视觉、听觉、触觉、嗅觉等信息综合起来,它才可能在真实环境中做出稳妥的反应。

麻省理工学院(MIT)多感官智能实验室的研究理念很清楚:多感官智能不是孤立传感器的简单叠加,而是一个统一的物理世界感知基座。跨模态对齐,正是现阶段最核心的技术突破口。简单说,跨模态对齐的目标,就是让AI能够通过一种感官信号,去推断其他相关的感官信息。就像人看到面包出炉,会自然而然地想到它可能外脆里软。通过这项技术,AI也能把单一感官信号转化为更全面的认知信息,从而提升判断的精准度,让技术真正落地应用。

MIT最新的机器人实验,很能说明跨模态对齐的实际效果。研究人员让AI观看一段揉捏橡皮泥的视频,AI通过分析橡皮泥的形变和颜色变化,竟然能精准推断出橡皮泥的触感强度,以及人类揉捏橡皮泥时所用的力度。换句话说,AI不再只是“看到”一个动作,而是开始“理解”这个动作背后意味着什么。这让机器人摆脱了那种生硬的操作模式,人机协同的流畅度明显提升。

除了触觉与视觉的协同,嗅觉和味觉的AI化也在从实验室走向实际应用。目前的AI模型已经能够捕捉人类呼出气体中的挥发性有机化合物,而这些化合物的种类和浓度,与肺癌、帕金森病等疾病密切相关。放在二十年前,这类检测需要依赖昂贵的质谱仪,耗时数周才能出结果;而现在,集成多感官智能芯片的移动设备就能实现快速、精准的检测,为疾病早期筛查提供了全新的技术支撑。

未来的发展方向,是具备全感官感知能力的综合模型,能够融合所有感官信号,实现对物理世界全面、立体的认知。MIT多感官智能实验室正在研发的全感官大模型,目标就是复刻人类多感官协同、多维度信号融合的认知模式。让AI在与物理世界的交互中不断学习、不断优化,对事物形成更完整的认知,最终实现更自然、更智能的人机协同。比如,利用柔性印刷电路板技术,科学家正在开发柔性触觉皮肤的自动化设计,未来可以让普通物体也拥有高灵敏度的触觉感知功能,应用于可穿戴设备、远程医疗等领域。再比如,AI辅助嗅觉与味觉创造,可以利用生成式AI开发全新的香水配方、食物风味,为美妆、食品行业提供创新支撑。健康与社会化AI,则通过捕捉人类生理信号,实现对疲劳、压力甚至病理状态的识别,为心理健康和精准医疗提供支持。

多感官智能,重塑文明发展的智能图景

随着多感官智能技术走向成熟,它必将从实验室逐步渗透到医疗、电商、元宇宙等多个领域,深刻影响人类的生活和工作方式。

在远程医疗领域,这项技术有望打破隔空诊疗的局限。现在的医生通过视频看诊,只能观察患者的外在症状,很多关键信息无从获取。未来,医生戴上触觉反馈手套,可以远程感知患者身体肿块的硬度、大小;通过数字化味觉传感器分析患者的代谢物,也能更精准地判断身体状况。这不仅能显著提升远程诊疗的质量,还能推动优质医疗资源向偏远地区延伸。比如在远程手术中,柔性触觉设备可以帮助医生精准感知组织硬度,大大降低操作失误的风险。

在电子商务领域,多感官智能将把购物体验从“所见即所得”升级为“所感即所得”,从根本上解决网购中感知缺失的痛点。想象一下,未来你网购一件衣服时,超声波波束成形技术可以直接模拟出面料的触感;网购美食时,味觉和嗅觉模拟器能让你“云试吃”,提前感知食物的味道和香气。这种体验升级,对消费者来说是实实在在的便利。

在元宇宙与数字孪生领域,真正的沉浸式体验或许很快就会到来。现在的元宇宙主要聚焦于视觉和听觉,缺少触觉、嗅觉和味觉的支撑,总感觉缺了点什么。多感官智能技术的加入,将让虚拟场景具备更全面的感官体验,数字世界与物理世界的边界会进一步模糊,娱乐、社交的方式也可能因此发生根本性改变。

此外,在农业、食品、工业等领域,多感官智能同样大有用武之地:农业上可以借助嗅觉感知农作物的生长状态和病虫害的发生;食品行业可以快速检测食品的新鲜度和有害物质;工业上,机器人可以完成更精细的组装和检测任务,大幅提升生产效率和产品质量。

多感官智能百年探索史

嗅觉 >>
1906年,美国宾夕法尼亚州一家影院为了增强观影沉浸感,通过风扇向观众席吹送玫瑰精油的气味。这是人类首次将嗅觉体验引入媒体传播,也标志着嗅觉数字化探索的开端。

20世纪60年代,一种新的“气味电影”技术问世。影院在座椅下方铺设管道系统,可以根据剧情同步释放对应的气味。但最终因为成本高昂、气味残留等问题,没能实现商业化。

1999年,硅谷一家初创公司推出了一款内置64种基础气味“墨盒”的数字化气味设备,能合成多种气味,并配合网页、视频同步释放。这款设备曾广受关注,拿到了巨额融资,但受限于当时的技术水平,最终还是没能走进市场。

2019年,嗅觉AI迎来了历史性突破。谷歌与Osmo公司利用图神经网络,对5000种分子结构进行深入分析,构建了人类主嗅觉图谱。这意味着,仅凭分子结构就能精准预判气味,嗅觉数字化从盲目模拟进入到了精准预判的阶段。

触觉 >>
20世纪40年代,为了安全处理放射性物质,美国阿贡国家实验室的科学家雷蒙德·戈尔茨研发出早期的遥操作机械臂,触觉反馈技术也随之萌芽。核心目的很简单:让操作人员感知机械臂与物体的接触力度,避免损坏物体或造成安全隐患。

不过,由于传统的压力传感器阵列分辨率较低,无法识别物体表面的细微纹理,机器人很难获得精准的触觉感知,只能完成一些简单的抓取动作。

2009年,麻省理工学院的一个研究团队研发出了GelSight技术。它彻底摒弃了传统压力传感器的思路,改用光学成像原理来捕捉微观触觉信号。这项技术能够实现微米级的立体几何形状还原,清晰呈现物体表面的纹理细节,让机器获得了超越人类手指的触觉感知精度。从此,机器人可以完成分拣、组装等精细操作,为工业机器人和服务机器人的发展提供了核心技术支撑。

味觉 >>
味觉数字化是难度最高、起步最晚的。原因也很直接:味觉感知过程非常复杂,不仅与食物的化学成分相关,还受到个人生理差异、情绪状态等因素的影响,要精准复刻味觉体验,技术挑战远超嗅觉和触觉的数字化。

2012年,新加坡国立大学研制出了“数字棒棒糖”,这是人类首次通过数字技术模拟出味觉。这款设备通过电流刺激舌尖的味觉受体,可以模拟酸、甜、苦、咸四种基础味觉。虽然模拟效果还比较粗糙,但为后来的味觉数字化探索提供了一个全新的思路。

近几年,日本明治大学研发出了一款“海苔卷合成器”。它借鉴了彩色打印机的三基色原理,内置五种电解质凝胶,分别对应甜、酸、咸、苦、鲜五种基础味觉,通过调节电流强度来实现多种复杂味觉的合成。这项技术未来有望在游戏、美食、医疗等领域发挥作用,比如实现虚拟味觉体验,或者辅助治疗味觉障碍。

技术越贴身,越要讲分寸

百年来,人类一直在尝试通过技术来再现各种感觉。如果说过去的AI只拥有眼睛和耳朵,那么未来的AI将慢慢长出“手指”、“鼻子”和“舌头”。当机器开始理解什么是柔软、清香、酸甜、粗糙和温热的时候,它才能真正走出屏幕,走进我们的生活现场。


MIT最新机器人实验让AI学习橡皮泥的触感

然而,技术越贴身,越深入地介入人的感受,就越需要被谨慎对待。触觉、嗅觉、味觉数据看似平常,但背后可能包含了一个人的健康状态、生活习惯、情绪变化等隐私信息。如果被过度采集或滥用,其风险恐怕不亚于人脸、指纹和语音信息的泄露。因此,未来多感官智能技术要真正进入家庭、医院和公共空间,就必须同步建立相应的标准,确立清晰的伦理规范和隐私保护机制。

必须牢记的是,机器哪怕拥有了五感,也不意味着它能完全替代人的感受,更不应该取代人去感受世界。相关技术更理想的发展方向,应该是去弥补人类看不见、够不着、感觉不到,包括来不及判断的部分——比如协助医生更早发现疾病,降低安全生产风险,让老人活得更有尊严。

目前,多感官智能的发展仍处于初级阶段,未来的探索之路还很漫长。这场全感官数字化探索,不仅仅是AI的技术突破,更是人类认知世界方式的一次革命性延伸。它正在推动人机协同向更智能、更高效的方向演进,为人类文明的发展注入全新的动力。

来源:https://www.163.com/dy/article/KV4FDCLJ05506BEH.html
上一篇上海启动全国首个光计算实验室攻坚AI算力瓶颈 下一篇亮亮视野入选北京文旅十大科技应用场景
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
多点触控技术实际应用案例分享
科技数码 · 2026-06-30

多点触控技术实际应用案例分享

多点触控技术借助电容或光学感应实现多指同时识别,重塑了移动设备交互、创意设计、教育协作及零售公共服务等场景,未来将与增强现实、智能家居等技术深度融合,使人机交互更自然高效。

MultiTouch多点触控全面教程指南:从入门到实际使用
科技数码 · 2026-06-30

MultiTouch多点触控全面教程指南:从入门到实际使用

多点触控技术使屏幕同时识别多指操作,涉及传感、坐标追踪和手势识别。基础手势如双指缩放、旋转及多指滑动提升效率。在创意软件中实现画布控制与参数调节,游戏带来沉浸式操控。保持屏幕清洁、用指腹触碰可优化体验。

Lily Camera无人机空中拍摄真实应用案例与心得分享
科技数码 · 2026-06-30

Lily Camera无人机空中拍摄真实应用案例与心得分享

LilyCamera是一款无需遥控器的抛飞式自拍无人机,通过视觉与GPS追踪实现自动跟拍,瞄准运动与旅行场景。但因技术、供应链和资金问题未能量产。其概念推动了行业跟拍功能发展,强调用户体验简化与工程务实的平衡。

Lily相机使用中常见问题解决方法
科技数码 · 2026-06-30

Lily相机使用中常见问题解决方法

使用中遇到开不了机、连不上或画质模糊等问题,可先充满电、重启设备、检查镜头及App版本。续航下降可调整高耗电设置,充不进电需用原装配件并清理接口。定期更新固件与应用能解决多数故障,官方支持与用户论坛可获取进一步帮助。

Lily Camera从入门到实际使用的完整详细教程指南
科技数码 · 2026-06-30

Lily Camera从入门到实际使用的完整详细教程指南

LilyCamera是一款抛飞即用的自动跟拍相机,通过计算机视觉与GPS追踪技术,配合腕带追踪器实现无需遥控器的极简操作。其理念影响了后续消费级无人机和运动相机的视觉跟踪系统发展。适用于跑步、骑行等动态场景,充分体现了对用户使用场景的深刻洞察。