对于一个未经训练的人工智能来说,世界不过是一个模糊的数据流。大多数人类都可以无障碍地理解周围的画面和声音,但只有这些画面和声音被明确地标记出来,算法才能掌握这一技能。
如今,人工智能公司DeepMind开发了一种新的AI技术,通过让其观察短小的视频片段,AI就能学会一系列视觉和听觉的概念并将其识别区分。例如,这种人工智能可以理解草坪修剪或挠痒痒的概念,但它还没有掌握如何用语言来描述它感受到的画面或声音。
对此,加州大学伯克利分校教授皮利特·阿格拉沃尔说:“我们想要制造一种机器,它能以自主的方式不断从自身所处的环境中学习进步。”阿格拉沃尔说,这个项目让我们更接近创造真正人工智能的目标,通过自学来观察和倾听周围的世界。
大多数计算机视觉算法需要输入大量的标签图像,这样它就能区分不同的物体。通过展示成千上万张猫咪的照片,它很快就能学会识别猫,即使是之前从未见过的图片。
但DeepMind的项目负责人Relja Arandjelovic表示,这种被称为“监督学习”的教学算法是不可扩展的。它的算法不再依赖于人标记的数据集,而是通过将所看到的与所听到的内容相匹配,从而学会识别图像和声音。
像人一样学习
“人类尤其擅长这种学习,”瑞士伯尔尼大学的教授保罗·法瓦罗说道。他说:“我们身边可没有人到处跟着我们,告诉我们一切都是什么。”
据悉,他是通过两个网络来创建算法的:一个专门识别图像的网络,以及一个识别音频的网络。他展示了从短片中截取的图像识别网络,而音频识别网络则从每段视频中截取的1秒的音频片段中进行了训练。
第三个网络将静态图像与音频片段进行对比,以了解视频中哪些声音与哪些视频中的图像相符合。总之,这个系统是经过40万个视频中截取的6000万个静态音频训练的。
该算法学会了在没有单一概念的特定标签的情况下,如何识别音频和视觉概念,包括人群、踢踏舞和水。举个例子,当你看到某人拍的照片时,大多数时候它知道哪个声音与哪个图像有关。
视觉与听觉
“这种合作学习方法还可以延伸到除了视觉和听觉之外的感官,”他说。“比如,同时学习视觉和触觉功能,可以让人工智能在黑暗中搜索物体,并学习诸如摩擦力等物体属性。”
消息称,DeepMind将在10月下旬在意大利威尼斯召开的计算机视觉国际会议上展示这项研究。
虽然DeepMind项目中的人工智能与现实世界没有互动,但研究人员表示,完善自我监督学习最终会让我们创造出能够在现实世界中运行的人工智能,并从它所看到和听到的东西中学习。
但在我们达到这一目标之前,自我监督式学习可能是一种很好的方式,这样可以训练图像和音频识别算法,而无需输入大量人类标记的数据。DeepMind的算法可以将80%的音频剪辑按照时间的顺序正确地归类,这使得它在音频识别方面比许多在标签数据上训练的算法更出色。这些可喜可贺的成果表明,类似的算法或许能够通过分析YouTube上数百万个在线视频等海量未标记的数据集来学习更多的知识。“世界上的大多数数据都没有被标记出来,因此开发从未标记的数据中学习的系统是有意义的,”阿格拉沃尔教授这样说道。