自动驾驶90%的问题已解决 但距离成功还差太远

2018-04-17 16:49:05 来源: 网易智能 热度:
          
在上周O'Reilly和英特尔联合主办的AI Conference 2018北京站大会上,Uber资深研究科学家、哥伦比亚大学计算机科学系兼职教授Erran Li发表了演讲,分享了自动驾驶的新发展以及挑战。
 
Erran Li称,目前Uber的自动驾驶系统有360度的雷达系统,也有RGB的镜头,理论上来讲车当中的硬件传感器比人的眼睛和耳朵这要做得更好。但是在软件上我们要解决3D的物体探测、物体运动以及决策的问题。
 
Erran Li认为,在自动驾驶当中,如果你把90%的问题都扫除了,那么剩下10%甚至要花100倍的精力来做。对于自动驾驶未来还有一些挑战,需要一些本质性的突破。
 
以下为Erran Li演讲实录:
 
Erran Li:大家好,今天我想为大家分享一下未来在自动驾驶方面的一些新的发展以及挑战。
 
事实上,人和其他的人类的代理可以说是无处不在的,Uber造了一个自动驾驶的车,它可以驾驶的比普通的人更加好。我们可能会骑车,可能会驾车,也可能只是在散步,所以自动驾驶需要识别各种交通的信号,比如说有信号灯,还有一些交通方面的指示牌,所以我们需要处理各种各样的情况。大家可以看到这辆车,事实上它在远离,我们需要搞清楚这辆车为什么后退,它的意图是什么。所以我们怎么样来构建这样的一个系统?要比普通的人驾驶的更好,我们如何来处理这个复杂的情况?我想大家在北京开车都有经验,可能北京的路况比这个要复杂得多。
 
这里有硬件的情况,也有软件的情况,大家可以看到,比如说Uber的自动驾驶系统,我们有360度的雷达系统,我们也有RGB的镜头,理论上来讲车当中的硬件传感器比我们人的眼睛和耳朵这种传感要做得更好。
 
软件是怎样的一种情况?我们是否用人工的来编写软件,来处理所有这些可能遇到的复杂的情况呢?我想所有会开车的人,或者说所有的来设计这些系统的人都不会用手工来编程。我们事实上可以运用海量的数据,来让我们的计算机进行自我学习,处理这些复杂的情况。在机器学习的过程当中,我们想要解决什么问题和解决的结果是什么?
 
我们首先要解决的问题就是3D的物体探测。大家可以看到这个视角上面激光雷达的情况,可以看到我们可以对每一个物体都建立输出和输入,都是3D的。它可能是一个人,也可能是一个物体,我们如何解决这个问题?我们用深度学习的建模,这是一个活动中的模型。我们要探测出身边所有的这些车辆,而且也把它用一个非常精致的盒子标志出来。在探测的过程当中,用这种标示的方面,试图能够给我们解决一些问题。问题在于除了我们需要探测到,而且我们也要在一秒钟当中它们会发生什么样的情况,如何来进行跟踪。这是一个跟踪的问题。一般来说,我们都是用筛选器来做。在深层的建模当中,同样的数字就显示出了同样的一辆车在各种不同的框架当中的情形。大家可以看到,深层学习的模型跟踪表现还是不错的。
 
除此之外,除了探测、追踪以外,我们也需要预测这些物体会向哪个方向行动。可以看到这些活动中的物体,不奇怪的是我们可以用预测的建模来做到这一点,大家可以看到各个不同的活动中的物体,他们可以有多种行进轨道,我们也可以预测这些多种的行进轨道,而且把它们排一个层次排序。在这个路口当中有多种轨道,绿色的轨道有三种情况。
 
我们取得一个很良好进展的就是决策的过程。在决策的模型当中,我们也取得了长足的进展。可以看到深层学习的模型当中,我们掌握了控制度,比如说我们有黑盒的深层学习的模型,这是一个很好的模型。这是一个在活动中的可以看到一个模拟的模型,深层学习尽管在天气不太好的情况下,可以说也跟着道路跟得不错。
 
 
我们是否已经解决了所有的问题?我们能不能立刻看到身边到处都是自动驾驶汽车呢?事实上在自动驾驶当中,如果你把90%的问题都扫除了,那么剩下10%你可能要花10倍的精力来做。我们可以宣称说,我们可能已经把90%的问题都解决了,但是我们仍然还有10%的障碍没有扫除。有的人说不是这样的,可能我们花的不是10倍的精力,也许可能要花100倍的精力,无论几倍,我们都需要花更大的精力来攻克难关。现在我们解决了90%问题的这些技术,它很有可能不是我们来解决剩下一公里问题的技术。我们未来有一些挑战,需要一些本质性的突破。
 
问题众多,下面给大家只列举出其中的一些。大家可以看到,在深层学习的模型当中有一些表达,这些表达并不具备“鲁棒性”,它与我们人类学习的表达是不一样的。我们可能用黑白的贴纸放在这个上面作为停止符,但是机器学习却无法识别,它们可能没有办法识别这是一个停止符,他们可能只是认为这是一个限速符。所以我们的研究当中,这些问题我们也做了很多的努力,也取得了不少的成功。但是这种分类打分的方法还是很难的,所以大家可以看到,这些深层学习的模型在目前已经有很多可以运用了。
 
我们需要做的是什么?我们需要学习鲁棒和抽象的表达。因为我们人类的视觉可以说对这些攻击是非常鲁棒的,我们怎么样从人类视觉当中学到一些洞见和洞察?还有理解这个情景,要掌握情景,了解人类的行动和人类的意图。我们在驾驶的过程当中很容易就能够觉察出其他驾驶员的意图,但是深度学习就有困难了,我们在情景理解方面进步还不够。
 
最后的挑战是决策过程,如果大家再考虑一下这个问题,我们的大脑是通用智能。我们如果专注于一个问题,就能做出比较好的决策。但是我们还没有达到人工智能这种水平,我们可能还需要通用智能来解决驾驶的问题,但是面临着一个很大的挑战。怎么样能够做出序列性的决策?目前的规划,设想其他人类的代理是被动的,尽管他们可能在运动,但是他们是有自己未来的轨道的,也就是我们假设他们是被动的,只能解决了90%的问题,但是最后一公里还解决不了。我们所需要的是一个框架,在一个多代理的环境当中进行多框架的决策。我们可以了解其他决策者的意图,而且能够构建这种驾驶的政策,让我们能够完成各种工作,而且驾驭各种纷繁复杂的情况.

责任编辑:向宜芳