人工智能,正在从学术界的“私藏”转身为一股足以重塑世界的力量,其背后的核心推手,就是深度学习。它让徘徊了六十多年的人工智能,终于迎来了属于自己的高光时刻。
我们或许正降落到一片新的大陆之上。深度学习带来的这场技术革命,有可能彻底碘伏过去二十年互联网对技术的认知,让技术体验实现一次跨越式的飞跃。
那么,深度学习究竟是什么?它的意义到底在哪里?
先从概念入手。可以这样总结一句话——深度学习是一种基于多层神经网络,以海量数据为输入,让机器自行学习规则的方法。这里面有几个关键点。
第一个关键词:多层神经网络。
深度学习所依托的多层神经网络,其实算不上新鲜事物,甚至在80年代一度被认为没什么前途。但近年来的不断算法优化,让它实现了突破性的进展。过去很多算法是线性的,可世界上绝大多数事物的特征,都是复杂非线性的。举个例子,一张猫的图像里,就包含了颜色、形态、五官、光线等多种信息。深度学习的关键,正是通过多层非线性映射,把这些因素成功分开。
那为什么要“深”呢?多层神经网络比浅层的好在哪里?简单说,就是能大幅减少参数,因为它可以重复利用中间层的计算单元。还是拿认猫来打比方。它会逐层学习猫的特征:最底层从原始像素入手,刻画局部的边缘和纹理;中层把这些边缘组合起来,描述不同类型的猫的器官;而最高层描述的,则是整个猫的全局特征。
这种学习需要超强的计算能力,同时还得有源源不断的海量数据输入。过去,在信息表示和特征设计上,大量工作依赖人工,严重影响算法的有效性和通用性。深度学习则彻底碘伏了“人造特征”的范式,开启了数据驱动的“表示学习”——由数据自己提取特征,计算机自己发现规则,进行自学习。
可以理解为:过去,人们对经验的利用,靠人类自己完成;而在深度学习里,经验以数据的形式存在。深度学习,就是在计算机上从数据中产生模型的算法。
那么问题来了,前几年讲大数据、讲各种算法,跟深度学习到底有什么区别?过去的算法模式在数学上叫做线性,x和y关系对应,是一种函数映射。这种算法在海量数据面前很快遇到了瓶颈。国际上著名的ImageNet图像分类大赛,用传统算法,识别错误率一直降不下去;而上了深度学习方法后,错误率大幅降低。2010年,获胜系统只能正确标记72%的图片;到了2012年,多伦多大学的Geoff Hinton带领团队,利用深度学习新技术实现了85%的准确率。2015年,一个深度学习系统以96%的准确率,第一次超越了人类(人类平均是95%)。
计算机认图的能力,已经超过了人。尤其在图像、语音等复杂应用中,深度学习取得了压倒性的性能优势。这背后,其实是思路的彻底革新。
不妨来看几个脑洞大开的例子。
1. 计算机认猫。 我们通常能用很多属性描述一个事物,其中有些属性很关键、很有用,另一些可能没什么用。这些属性被称为特征,特征辨识就是一个数据处理的过程。传统算法认猫,也是标注各种特征去认——大眼睛、有胡子、有花纹。但特征写多了,猫和老虎就容易混淆,狗和猫也分不清楚。这种方法叫作“人制定规则,机器学习规则”。深度学习的方法则完全不一样:直接给你上百万张图片,说里面有猫;再给你上百万张图片,说里面没有猫。然后训练一个深度网络,让它自己去学习猫的特征。最终,计算机自然就知道谁是猫了。
2. 谷歌训练机械手抓取。 传统方法肯定是写好函数,让机械手移动到某个精确的空间坐标点,通过程序实现一次抓取。而谷歌的做法是,用机器人训练一个深度神经网络,帮助机器人根据摄像头输入和电机命令,预测抓取的结果。简单说,就是训练机器人的手眼协调能力。机器人会实时观测自己的机械臂,不断纠正抓取动作。所有的行为都从学习中自然浮现,而不是依靠传统的系统程序。为了加快学习进程,谷歌用了14个机械手同时工作,经过将近3000小时的训练(大约80万次抓取尝试),智能反应行为开始出现。公开数据显示,没有经过训练的机械手,前30次抓取失败率为34%;而训练后,失败率降到了18%。
3. 深度学习能学会写文章吗? 斯坦福大学的计算机博士Andrej Karpathy曾用托尔斯泰的《战争与和平》来训练神经网络。每训练100个回合,就叫它写一篇文章。100个回合后,机器知道要空格,但还在写乱码;500个回合后,能正确拼写一些短单词;到1200个回合,开始出现标点符号和长单词;到了2000个回合,已经能拼写复杂的语句了。整个过程里,没有人告诉机器语法规则,连标点和字母的区别都没告诉它,只是不断把原始数据灌进去层层训练,最终输出——竟然是一句句看得懂的语句。
4. 硅谷一家公司用深度学习实现图像深度信息的采集。 很多人知道,市面上早已有无人机可以实现对人的跟踪。传统做法是,把一个人看作图像系统里的一堆色块组合,通过人工方式选择特征,比如颜色特征、梯度特征。简单举例:如果你穿着绿色衣服,突然走进草丛,就可能跟丢;或者脱了一件衣服,几个人长得相似,也容易跟丢。而且要在已有基础上继续优化,调整颜色特征非常困难,调整后还可能对过去的某些状况失效。而硅谷这个团队,用深度学习只区分前景和背景。区分之后,背景全部用数学方式随意填充,再不断生成大量背景数据用于自学习,只要把前景学出来就行。了解下来,很多传统方法还在依赖双目视觉,用计算机做局部匹配,再推算空间位置,而深度学习的出现,让很多公司辛苦积累的软件算法直接作废了。“算法为核心竞争力”正在转变为“数据为核心竞争力”,技术人员必须进入新的起跑线。
5. 胃镜胶囊摄像头。 大家都知道做胃镜的体验很痛苦,而且肠胃镜要分开做,小肠还看不见。有一家公司出品了一种胶囊摄像头,吃进去后在消化道里每5秒拍一张图,连续拍摄,然后排出体外。整个肠道和胃部的问题都被完整记录。但医生光把那些图看完,就需要五个小时。传统机器检测的漏检率又高,需要医生复查。后来,团队引入深度学习,采集了8000多例图片数据灌进去,让机器不断学习。结果不仅提升了诊断的精确率,减少了医生的漏诊,还降低了对稀缺好医生的经验依赖。机器自己学会了规则,帮助医生做出决策。
看完这些案例,不妨再思考一个问题:20世纪70年代末80年代初,个人电脑突飞猛进,但人工智能的商业化却步履维艰。乔布斯曾这样定义个人计算机的价值——“它是我们思维的自行车”。那么,今天的人工智能呢?深度学习呢?它到底给我们带来了什么?未来,对行业和社会会产生什么影响?中国公司的机会又在哪里?这些都是接下来要深入探讨的问题。
