病友们都在看杂志、刷Instagram的时候,Shari Forrest打开了手机上的一个aPP,开始训练一个将要用在无人车上的人工智能。
54岁的Forrest并非工程师或程序员,她靠撰写教材来谋生。尽管如此,在平时有空时,Forrest依然会在Mighty AI上登录,然后把自己的时间花在给行人、垃圾桶,以及任何其他你不希望无人车撞上的东西做标记上。
Mighty AI是一家人工智能众包服务平台。在这里,Forrest的“同事”们在全球范围内还有20万人。这家公司提供的主要服务包括计算机视觉、自动驾驶、自然语言处理等。今年1月,公司刚刚宣布完成1400万美元B轮融资。
“如果能趁着排队的工夫赚几块钱的话,何乐而不为呢。“Forrest说。
对于无人车产业而言,在自动驾驶时代真正到来之前,类似Forrest所做的这种数据标注工作都是不可或缺的。要对自动驾驶赖以实现的AI进行训练,所需的数据量往往超出了想象。
谷歌和通用这种公司很少去提这件事情,但正是像Forrest一样的人们组成的劳动力大军,构成了那些嗡嗡作响的数据中心背后的基石。
多数开发自动驾驶技术的公司会聘用成百上千名员工,然后把这种教会无人车识别行人、骑行者和其他障碍物的工作外包到印度或中国。这些工人需要对长达数千小时的视频逐帧进行标记。
“机器学习是个神话,就像《绿野仙踪》一样。”硅谷硬件孵化器公司Lemnos Labs的投资人Jeremy Conrad说,“标记团队对每家公司都至关重要,我们一段时间内仍然需要他们,因为户外环境十分多变。”
人工智能、传感器质量和计算能力的巨大进步,给无人车的革命打下了技术基础。然而,尽管出现了这些创新,但在未来很多年内,人类仍然需要在幕后默默奉献,才能让这些系统保持最好的状态。
“在我看来,人工智能从业人员整体都很自大,认为电脑可以解决一切。”Mighty AI创始人兼CEO MATt Bencke说。人工智能系统也都存在同样的问题:电脑需要通过人工添加标签的庞大数据进行“学习”,然后利用这种‘模型’在今后看到类似的物体和形态时将其识别出来。
训练无人车面临的挑战比其他人工智能应用更大,因为汽车所要面临的场景和环境是开放性的。即便是针对不同时间的灯光和天气环境进行调整后,城市环境仍会因为建筑、活动或事故而在一夜之间发生变化。
“标注过程通常都是一项非常隐秘的成本,很少被人提及。”自动驾驶创业公司Drive.ai首席执行官Sameep Tandon说,“这非常痛苦,也非常麻烦。”
无人车所需的精度也高于其他人工智能系统。汽车之所以能够自动驾驶,是通过将它们借助摄像头和传感器看到的周围环境,与车载3D地图进行比对来实现的。安全是头等大事:如果GOOGle Photos的面部识别无法正确认出一张照片中的人,那也没什么大不了;但如果Waymo的无人车无法识别行人,就会引发致命事故。
在争相开发无人车的过程中,企业的衡量标准都是他们的累计行驶里程。Waymo今年5月表示,他们的汽车已经在公共道路上试驾了300万英里,而特斯拉去年表示,他们已经借助Autopilot系统,通过现有的车主收集了1000多万英里的驾驶数据。
然而,里程越多,就意味着这些公司的后台数据处理人员需要手工从事更多工作。短短几英里的驾驶里程就会产生数十GB的数据,这些数据很快就会变得过于庞大,以至于无法通过车载无线网络进行传输。相反,必须首先保存在硬盘之中,然后再传输到到外包中心。
这样一个拥有尖端技术的行业,却采用如此陈旧的模式,的确令人感到意外。
硅谷自动驾驶系统开发公司PlusAI首席执行官David Liu表示,每驾驶一个小时,就需要花费数百个小时才能将其转化成有用的数据。
他说,“我们需要几十万,甚至几百万小时的数据”才能让无人车随处行驶,并且需要“数十万人来实现这一目标”。
但大型科技公司通常不肯披露无人车所涉及的人工程序。Waymo、Uber和特斯拉均拒绝对此置评。
“很难听到有人谈论此事。”华盛顿大学计算机科学与工程教授Dan Weld说,“他们都喜欢说,机器学习很神奇。”
曾经担任Waymo和Uber工程师的Anthony Levandowski曾于2013年在加州大学伯克利分校的公开演讲中,将谷歌的印度团队称作一个由“人类机器人(20.15 +0.05%,诊股)”组成的团队,他们负责标记街景服务采集的各种图像。
这种劳动密集型工作的成本并不低。业内人士估计,要创建和维护每座美国城市的地图,一年的花费约为数十亿美元。
有的创业公司从中看到了机会,PlusAI、Deepmap和Drive.ai都声称可以使用“深度学习”来降低人工成本(关于Drive.ai完全用深度学习来做无人车的方案,戳这里),但仍然可以维持安全驾驶所需的精度。但其他业内人士仍然怀疑,深度学习难以彻底摆脱对人类的依赖。
Mighty AI的 Bencke指出,Facebook、YouTube和Twitter面临的挑战,是如何在他们的社交平台上应对欺凌和恐怖主义等各种负面内容。“如果深度学习具备这种能力,你不认为它现在就应该已经解决这个问题了吗?”他说,“这个问题没有无人车那么复杂,而且市场很大。”
当下,AI的智慧在更大程度上仍然取决于它所用来训练的数据的质量。Bencke称自家的平台会用自己的机器学习技术,来判定每个人最为擅长的领域,并以此来分配工作。没人因此变得富裕,但对于Mighty AI来讲,这无关紧要。
Forrest说,自己去年在这项工作上挣了300美元,大部分都用来网购了。她从没见过无人车,更别提乘坐一次。但她知道自己正让它们变得更为聪明,也对这项技术的未来充满信心。