机器人何时学会摸闻尝？顶尖实验室突破AI感知盲区

时间：2026-06-11 13:21

人工智能长期依赖视觉和听觉，忽视了触觉、嗅觉与味觉这些“沉默感官”，难以全面感知物理世界。多感官智能正推动触觉、嗅觉、味觉的数字化，通过跨模态对齐提升机器人对真实环境的理解，在医疗、电商、元宇宙等领域具有广泛应用前景。

说起来你可能也有这样的经历：网购一件毛衣，图片再高清、细节再放大，你还是拿不准它穿上身会不会扎人、闷不闷热。冰箱里的牛奶过没过期，光看包装上的日期有时也靠不住，鼻子凑上去一闻，答案反而清清楚楚。

这些再普通不过的生活经验，恰恰暴露了当下人工智能的一个真实短板。过去几年，AI越来越会看、会听、会说——能识别图片、理解语音、生成文字，进步确实快。可一旦走出屏幕，来到厨房、病房、工厂、农田这些真实场景，它面对的就不再是数据，而是实实在在的物理世界：杯子要用多大的力才能拿稳而不捏碎？草莓熟到什么程度才适合采摘而不碰伤？老人摔倒前，身体重心的变化是怎样的？食品是不是已经开始腐坏？单靠摄像头和麦克风，AI根本没法做完整判断。因为要看懂这个世界，除了看见颜色、听见声音，它还得摸到纹理（触觉）、闻到气味（嗅觉）、分辨味道（味觉）。

长期以来，触觉、嗅觉与味觉被称为“沉默感官”。尽管它们和视觉、听觉一样，是人类感知世界的重要组成部分，但在AI的世界里，却常常被忽视。原因也不难理解——视觉能捕捉光影，听觉能捕捉声波，这两种物理信号有成熟的数字化手段。而触觉是复杂的机械力反馈，气味由几百种化学分子混合构成，味觉则依赖多个受体的协同作用，信号本身就难以捕捉，更别说有统一的标准了。于是，多感官智能被推到了前台，它的目标很直接：让机器拥有更接近人类的感知能力。如今，全球多家顶尖科研机构正在合力推进这场全感官数字化探索，AI也正在逐步突破视听领域的局限，走向真正的“五感俱全”。

唤醒沉默感官，突破AI感知盲区

人类认识世界，从来不是靠单一感官完成的。你买桃子时，不会只看颜色，还会凑近闻一闻，用手按一按——成熟的桃子带着淡淡的果香，按上去果肉柔软却不塌陷。正是因为多感官的协同作用、多维度信息的融合，我们才能快速、全面地判断一件事物的真实状态。看到一杯热茶冒着白气，自然会想到杯壁可能烫手；闻到厨房里一丝焦味，立即会意识到锅可能烧糊了；拿起一枚鸡蛋时，手指会自动调整力度，既不让它滑落，也不把它捏碎。这些判断看似轻松，背后全是视觉、嗅觉、触觉和过往经验的快速配合。

ChatGPT的文本生成、AlphaGo的棋艺，确实展现了AI在抽象计算和逻辑推理上的卓越成就。但面对一个充满柔软、滑腻、潮湿、弹性、温度和气味的真实世界，传统AI的局限性暴露无遗——感知维度不完整。没有物体的触感、气味这些关键信息，机器人连精准抓取、判断食物新鲜度这样的基础任务都难以完成。这恰恰是莫拉维克悖论的一个具体写照：计算机可以轻松实现高级逻辑推理，却很难复刻人类那些看似“本能”的感知和运动能力。早在1950年，图灵在《计算机器与智能》中就曾预见——AI的发展不应只停留在逻辑推理层面，它还应具备类似人类的感知能力，通过多感官与世界交互，积累认知经验。这正是当前具身智能的核心方向，而多感官智能，恰好是这条路上最关键的一块拼图。

机器人要打扫房间、护理老人、完成装配、参与救援，就必须知道物体能不能碰、该怎么碰、碰到什么程度才安全。多感官智能的意义，不只是让机器人更灵巧，更在于让AI开始懂得“分寸”——什么时候该轻拿轻放，什么时候该加大力量。技术发展到这一步，机器不再只是被动执行命令，而是要学会主动理解环境。这一探索的重点，是推动触觉、嗅觉、味觉等“沉默感官”的数字化，把那些原本难以捕捉的物理信号，转化成机器可以解读、处理和模拟的数字符号。这不仅是一项技术突破，更是一次让AI与物理世界“共情”的重要尝试，使人机交互从简单的指令响应，升级为真正意义上的感官协同。

跨模态对齐，让AI学会“闻、尝、摸”

其实，人类对多感官智能的探索，早在100多年前就开始了。这些年来，科学家们主要解决了感官信号怎么“捕捉”的问题，而当前科研工作的核心已经转向另一个层面：怎么让AI“理解”和“应用”这些感官信号。多感官合在一起，AI才能真正靠近人。

值得注意的是，真正的多感官智能，并不只是多装几个传感器那么简单。关键是要让AI把不同感官的信息串联起来，共同形成一个判断。这对具身智能尤其重要。未来的机器人，不可能每一步都等着人来发指令，它得自己判断草莓能不能摘、老人要不要扶、零件是否安装到位、机器有没有出现异常。只有把视觉、听觉、触觉、嗅觉等信息综合起来，它才可能在真实环境中做出稳妥的反应。

麻省理工学院（MIT）多感官智能实验室的研究理念很清楚：多感官智能不是孤立传感器的简单叠加，而是一个统一的物理世界感知基座。跨模态对齐，正是现阶段最核心的技术突破口。简单说，跨模态对齐的目标，就是让AI能够通过一种感官信号，去推断其他相关的感官信息。就像人看到面包出炉，会自然而然地想到它可能外脆里软。通过这项技术，AI也能把单一感官信号转化为更全面的认知信息，从而提升判断的精准度，让技术真正落地应用。

MIT最新的机器人实验，很能说明跨模态对齐的实际效果。研究人员让AI观看一段揉捏橡皮泥的视频，AI通过分析橡皮泥的形变和颜色变化，竟然能精准推断出橡皮泥的触感强度，以及人类揉捏橡皮泥时所用的力度。换句话说，AI不再只是“看到”一个动作，而是开始“理解”这个动作背后意味着什么。这让机器人摆脱了那种生硬的操作模式，人机协同的流畅度明显提升。

除了触觉与视觉的协同，嗅觉和味觉的AI化也在从实验室走向实际应用。目前的AI模型已经能够捕捉人类呼出气体中的挥发性有机化合物，而这些化合物的种类和浓度，与肺癌、帕金森病等疾病密切相关。放在二十年前，这类检测需要依赖昂贵的质谱仪，耗时数周才能出结果；而现在，集成多感官智能芯片的移动设备就能实现快速、精准的检测，为疾病早期筛查提供了全新的技术支撑。

未来的发展方向，是具备全感官感知能力的综合模型，能够融合所有感官信号，实现对物理世界全面、立体的认知。MIT多感官智能实验室正在研发的全感官大模型，目标就是复刻人类多感官协同、多维度信号融合的认知模式。让AI在与物理世界的交互中不断学习、不断优化，对事物形成更完整的认知，最终实现更自然、更智能的人机协同。比如，利用柔性印刷电路板技术，科学家正在开发柔性触觉皮肤的自动化设计，未来可以让普通物体也拥有高灵敏度的触觉感知功能，应用于可穿戴设备、远程医疗等领域。再比如，AI辅助嗅觉与味觉创造，可以利用生成式AI开发全新的香水配方、食物风味，为美妆、食品行业提供创新支撑。健康与社会化AI，则通过捕捉人类生理信号，实现对疲劳、压力甚至病理状态的识别，为心理健康和精准医疗提供支持。

多感官智能，重塑文明发展的智能图景

随着多感官智能技术走向成熟，它必将从实验室逐步渗透到医疗、电商、元宇宙等多个领域，深刻影响人类的生活和工作方式。

在远程医疗领域，这项技术有望打破隔空诊疗的局限。现在的医生通过视频看诊，只能观察患者的外在症状，很多关键信息无从获取。未来，医生戴上触觉反馈手套，可以远程感知患者身体肿块的硬度、大小；通过数字化味觉传感器分析患者的代谢物，也能更精准地判断身体状况。这不仅能显著提升远程诊疗的质量，还能推动优质医疗资源向偏远地区延伸。比如在远程手术中，柔性触觉设备可以帮助医生精准感知组织硬度，大大降低操作失误的风险。

在电子商务领域，多感官智能将把购物体验从“所见即所得”升级为“所感即所得”，从根本上解决网购中感知缺失的痛点。想象一下，未来你网购一件衣服时，超声波波束成形技术可以直接模拟出面料的触感；网购美食时，味觉和嗅觉模拟器能让你“云试吃”，提前感知食物的味道和香气。这种体验升级，对消费者来说是实实在在的便利。

在元宇宙与数字孪生领域，真正的沉浸式体验或许很快就会到来。现在的元宇宙主要聚焦于视觉和听觉，缺少触觉、嗅觉和味觉的支撑，总感觉缺了点什么。多感官智能技术的加入，将让虚拟场景具备更全面的感官体验，数字世界与物理世界的边界会进一步模糊，娱乐、社交的方式也可能因此发生根本性改变。

此外，在农业、食品、工业等领域，多感官智能同样大有用武之地：农业上可以借助嗅觉感知农作物的生长状态和病虫害的发生；食品行业可以快速检测食品的新鲜度和有害物质；工业上，机器人可以完成更精细的组装和检测任务，大幅提升生产效率和产品质量。

多感官智能百年探索史

嗅觉 >>
1906年，美国宾夕法尼亚州一家影院为了增强观影沉浸感，通过风扇向观众席吹送玫瑰精油的气味。这是人类首次将嗅觉体验引入媒体传播，也标志着嗅觉数字化探索的开端。

20世纪60年代，一种新的“气味电影”技术问世。影院在座椅下方铺设管道系统，可以根据剧情同步释放对应的气味。但最终因为成本高昂、气味残留等问题，没能实现商业化。

1999年，硅谷一家初创公司推出了一款内置64种基础气味“墨盒”的数字化气味设备，能合成多种气味，并配合网页、视频同步释放。这款设备曾广受关注，拿到了巨额融资，但受限于当时的技术水平，最终还是没能走进市场。

2019年，嗅觉AI迎来了历史性突破。谷歌与Osmo公司利用图神经网络，对5000种分子结构进行深入分析，构建了人类主嗅觉图谱。这意味着，仅凭分子结构就能精准预判气味，嗅觉数字化从盲目模拟进入到了精准预判的阶段。

触觉 >>
20世纪40年代，为了安全处理放射性物质，美国阿贡国家实验室的科学家雷蒙德·戈尔茨研发出早期的遥操作机械臂，触觉反馈技术也随之萌芽。核心目的很简单：让操作人员感知机械臂与物体的接触力度，避免损坏物体或造成安全隐患。

不过，由于传统的压力传感器阵列分辨率较低，无法识别物体表面的细微纹理，机器人很难获得精准的触觉感知，只能完成一些简单的抓取动作。

2009年，麻省理工学院的一个研究团队研发出了GelSight技术。它彻底摒弃了传统压力传感器的思路，改用光学成像原理来捕捉微观触觉信号。这项技术能够实现微米级的立体几何形状还原，清晰呈现物体表面的纹理细节，让机器获得了超越人类手指的触觉感知精度。从此，机器人可以完成分拣、组装等精细操作，为工业机器人和服务机器人的发展提供了核心技术支撑。

味觉 >>
味觉数字化是难度最高、起步最晚的。原因也很直接：味觉感知过程非常复杂，不仅与食物的化学成分相关，还受到个人生理差异、情绪状态等因素的影响，要精准复刻味觉体验，技术挑战远超嗅觉和触觉的数字化。

2012年，新加坡国立大学研制出了“数字棒棒糖”，这是人类首次通过数字技术模拟出味觉。这款设备通过电流刺激舌尖的味觉受体，可以模拟酸、甜、苦、咸四种基础味觉。虽然模拟效果还比较粗糙，但为后来的味觉数字化探索提供了一个全新的思路。

近几年，日本明治大学研发出了一款“海苔卷合成器”。它借鉴了彩色打印机的三基色原理，内置五种电解质凝胶，分别对应甜、酸、咸、苦、鲜五种基础味觉，通过调节电流强度来实现多种复杂味觉的合成。这项技术未来有望在游戏、美食、医疗等领域发挥作用，比如实现虚拟味觉体验，或者辅助治疗味觉障碍。

技术越贴身，越要讲分寸

百年来，人类一直在尝试通过技术来再现各种感觉。如果说过去的AI只拥有眼睛和耳朵，那么未来的AI将慢慢长出“手指”、“鼻子”和“舌头”。当机器开始理解什么是柔软、清香、酸甜、粗糙和温热的时候，它才能真正走出屏幕，走进我们的生活现场。

MIT最新机器人实验让AI学习橡皮泥的触感

然而，技术越贴身，越深入地介入人的感受，就越需要被谨慎对待。触觉、嗅觉、味觉数据看似平常，但背后可能包含了一个人的健康状态、生活习惯、情绪变化等隐私信息。如果被过度采集或滥用，其风险恐怕不亚于人脸、指纹和语音信息的泄露。因此，未来多感官智能技术要真正进入家庭、医院和公共空间，就必须同步建立相应的标准，确立清晰的伦理规范和隐私保护机制。

必须牢记的是，机器哪怕拥有了五感，也不意味着它能完全替代人的感受，更不应该取代人去感受世界。相关技术更理想的发展方向，应该是去弥补人类看不见、够不着、感觉不到，包括来不及判断的部分——比如协助医生更早发现疾病，降低安全生产风险，让老人活得更有尊严。

目前，多感官智能的发展仍处于初级阶段，未来的探索之路还很漫长。这场全感官数字化探索，不仅仅是AI的技术突破，更是人类认知世界方式的一次革命性延伸。它正在推动人机协同向更智能、更高效的方向演进，为人类文明的发展注入全新的动力。

来源：https://www.163.com/dy/article/KV4FDCLJ05506BEH.html

机器人