我们知道,人工智能的目标之一就是让计算机模拟人类的视觉、听觉、触觉等感知能力,尝试去看、听、读,理解图像、文字、语音。在此基础上,再进一步赋予机器思维能力与行动能力,最终成为像人类一样的存在。

目前,人工智能机器人的感知能力已经取得了显著进展。机器视觉方面,机器人已经能够实现图像识别、目标检测、文字识别等一系列功能,应用广泛;自然语言处理方面,基本的语音理解、机器翻译、语音对话已不再是难题;机器触觉方面,灵活的物体感知、抓握推举等操作也能顺利完成。
但问题就卡在了这里——单一感知,或者说感知能力之间无法互通,这成了当前人工智能机器人难以实现类人化突破的关键瓶颈。换句话说,在单一感知、单一任务上,机器人的准确度、稳定性和持久性可能远超人类,可一旦要完成多道工序的复杂任务,表现就远逊于人类了。
人工智能机器人要想实现质的飞跃,就必须在感官能力上实现多模态的感知融合。如今,除了我们熟知的机器视觉,机器人正在机器触觉和听觉方面寻求突破,并通过视觉、触觉、听觉的融合,大幅提升整体感知能力。
对于人工智能机器人,普通人要么抱有很高的、不切实际的幻想,担心机器人革命很快到来;要么对机器人的通用能力充满怀疑,觉得它只能在少数场景替代人类。
只有深入到人工智能机器人的“案发现场”,不吹不黑地审视一下机器人感知能力的发展现状,才能真正看清当前机器人感知补全计划的真实进展。
机器视觉和机器触觉
作为地球上最有智慧的生物,人类感官获取的信息中,83%来自视觉,11%来自听觉,3.5%来自嗅觉,1.5%来自触觉,1%来自味觉。
在这五种感官中,如果只能保留一种,相信大多数人都会选择视觉。要知道,我们大脑近1000亿个神经元中,绝大多数都在处理视觉信息。而在所有感知信息中,动态的视觉信息最为复杂,以至于人类只能靠闭上眼睛主动隔离,才能称之为“休息”。
正因为视觉信息的重要与复杂,人工智能技术的发展除了自然语言处理,主要就集中在机器视觉上。
这一轮人工智能浪潮的兴起,也正是因为图像识别取得了突破性进展。如今,机器视觉已经在工业、安防、日常消费电子、交通等各个领域全面铺开,越来越多的摄像头背后,都具备了AI的图像识别能力。
对大多数人工智能机器人来说,除了视觉能力,移动行走和抓取能力同样关键,而这离不开触觉的帮助。对于功能单一的自动化机器人,只需设定好固定参数、移动轨迹和抓取力度,就能不休不眠地完成任务。但人工智能机器人需要灵活适应各种不同材质、形状和软硬度的物体,此时既需要机器视觉的识别能力,也需要触觉对物体进行判断。
过去,大多数机器人的抓握解决方案都只依赖视觉感知。主要方法是通过数据库进行图像匹配,实时监测目标物体的状态和自身动作,最终调整合适的抓取算法。然而,抓握时的接触力度是视觉无法替代的,机器还需要触觉感知数据。
就像人类一样,我们尝试抓取物体时,会组合运用多种感知能力,最基础的就是视觉和触觉。由于视觉会受到光线、阴影、视线遮挡等因素影响而误判,我们通常会更有效地利用皮肤触觉,来获得对物体的完整感知。
人体的触觉感知是一个非常复杂的生物电信号反应过程,赋予机器触觉能力同样需要经过复杂的处理。模拟人体触觉反应,机器人的触觉传感器必须将物体的质地、光滑程度以及形态进行数字模拟处理,把压力和振动信号转化为计算机可处理的数据信号,从而进行触觉算法的训练。
机器触觉的难点在于识别触觉传感器获取的抓握等微小振动——既要能识别抓握物体时发生的滑动振动,以及物体与其他物体摩擦产生的振动,还要能区分不同物体的振动。这正是研究者们重点攻克的方向。
实现突破的方法在于:我们需要更好的触觉传感器,性能要优于现有的压力传感器,并且能够嵌入柔性材料中,实现像人类皮肤一样的人造皮肤。
最近,新加坡国立大学的两名研究人员就开发出了一种人造皮肤,搭载在能够模拟生物神经网络的人造大脑上,通过英特尔Loihi神经拟态处理器运行。基于这一技术,研究团队成功完成了机械手臂读取盲文的测试。同时,借助视觉传感器和这种人造皮肤,机械手臂的抓取能力也明显提升。未来,拥有这种触觉能力的机器人,可以在物品分拣中更加灵活、细致、安全;在护理行业,能更好地看护和帮助人类;在外科手术机器人领域,也能更精准地完成自动化手术。
视觉与触觉的结合已经为机器人感知提升提供了可能,那么,听觉能力的加入又会带来哪些效果呢?
机器听觉的补全
这里说的机器听觉,并不是特指对人类语音的识别——这类语音识别已经在智能音箱等消费级产品中得到广泛应用。机器听觉指的是,通过声音传感器对所有物体发出的声音进行判断。
(重卡变速箱听力诊断)
相比机器视觉对物体的直接判断,机器听觉确实是人们一直忽略的领域。在日常场景中,我们不仅用视觉来判断物体的远近、颜色和大小,也常常用听觉来识别物体的距离、质地,甚至推测事件的发生。这一点,对视障人士来说尤为重要。
最近,卡内基·梅隆大学(CMU)的研究人员发现,通过增加听觉感知,人工智能机器人的感知能力可以得到显著提升。
这次CMU机器人研究所首次对声音与机器人动作之间的相互作用进行了大规模研究。研究人员发现,不同物体发出的声音可以帮助机器人区分物体,比如金属螺丝刀和金属扳手。机器听觉还能帮助机器人确定哪种类型的动作会产生声音,并利用声音来预测新物体的物理属性。经过测试,机器人通过听觉对物体进行分类的准确率达到了76%。
为实现这一测试,研究者用60个常见物体,在机器人的托盘上进行滑动、滚动和撞击,记录了15000个交互的视频和音频,形成了一个大数据集。
此外,研究者还可以通过摇晃容器或搅拌物质的声音,来预估颗粒状物质的数量和流量,比如对大米和意大利面的评估。显然,通过声音对比,可以预测许多视觉无法直接判断的物理属性。
机器听觉无法区分红色方块和绿色方块,但它可以在看不见的情况下,通过撞击声来区分两个不同物体。这正是机器听觉的价值所在。最终,就连研究者自己都对声音识别物体的效果感到惊讶。
在应用方面,研究者首先想到的是给未来的机器人装上一根手杖,通过敲击物体来识别物体——这画面倒是挺有趣。但可以想象,在未来智能安防、管道线路检测以及身体检测等领域,机器听觉将发挥更大作用。至于对人类声音的识别——比如音乐、情感等声音内容——应用前景就更加广阔了。
机器人多模态感知融合的应用前景
正如感觉器官对人类的重要性一样,感知系统对机器人的重要性同样毋庸置疑。
要知道,人类很少只用一个感官去获取信息,也很少只用一个感官去指导行动。就像在一场“攀爬-赛跑-游泳”的三合一比赛中,我们在单一项目上可能无法胜过猴子、豹子和海豚,但整场比赛,人类却能同时完成三个项目。我们在感知事物时,往往也是多感官同时发挥作用,相互协调、反复验证,从而加深对外界物体的认识。更复杂的是,我们甚至还要借助记忆、推理等理性认知能力,对感知信息进行加工,得出更复杂的认知。
相比人类的多感官应用,机器人的单一感知或简单组合感知能力,加上目前基于算法模型对感知数据的分析和对比模式,使其难以产生更复杂的推理知识。因此,机器人在认知复杂度上略逊于人类,但在识别物体的准确度和规模上则远超人类。
现在,多模态感知融合的推进,正使机器人逐渐接近人类在认知复杂度上的水平。未来,面对照明与遮挡、噪声与混响、运动与相似等复杂交互场景,机器人将变得更加游刃有余,从而带来各种显著的实际应用。
多模态感知融合可能应用的领域包括:
· 特殊化的精密操作领域。比如高难度外科手术,手术机器人可以通过对目标的精确观察和相关组织的分离、固定,进行比外科医生更精准的操作。
· 高危或高难度机器人作业。比如危险物品的搬运、拆除,普通人无法进入的管线等区域的检测检修,地下墓xue或海底物品的搬运打捞,以及通过机器听觉对密封空间进行声音探测等。
在安防、灾害救援、应急处理等需要灵活应对的场景,都可以逐步交由多感知系统的机器人处理,或通过人机协同远程完成。
此外,随着机器人感知融合能力的提升,对综合感知数据的训练,能帮助机器人更好地理解人类本身的复杂性。尤其是可以建立更复杂的情感计算模型,更好地理解人类在表情、声音、皮肤温度、肢体动作等方面传递的情感信号,为更高级的人机互动提供新的可能。
就目前来看,人工智能机器人仍然是一个复杂的系统工程。要实现多模态感知融合,还需要对传感器性能、算法协同、多模态任务、环境测试等多方面进行综合攻关。
这个过程必定艰难,但取得成果后的前景无疑一片光明。在我们期待人类与机器人和谐共存的未来时,自然更希望这些机器人不再是一台冷冰冰的机器。
