编者按:因为深度学习最近在语音识别、图像识别等领域取得的突破,很多人都把人工智能与深度学习混为一谈。但深度学习只是AI的一方面,实际上还有其他一些AI的分支也正在取得进展,并且这些技术分支在很多领域都有极大的应用潜力。投资人Nathan Benaich系统地阐述了AI的6个值得关注的领域以及其潜在应用于相关的公司和研究人员,是分析和跟踪AI的一篇很好的介绍文章。
提炼出一个能被普遍接受的适合于人工智能(AI)的定义已经成为最近多次的话题之争。一些人把AI重新贴上“认知计算”或者“机器智能”的标签,而有的则不恰当地将AI和“机器学习”混为一谈。这部分是因为AI不是一种技术。实际上它是包含了从机器人到机器学习等许多学科的一个广泛领域。我们大多数人断言,AI的终极目标是开发出能执行以往属于人类智能范畴的任务以及认知功能的机器。为了实现这一点,机器必须能自动学习这些能力而不是对每一台机器进行端到端的显式编程。
从无人车到语音识别与合成,过去10年AI领域取得的进展之多令人赞叹。在此背景下,AI已经成为越来越多公司与家庭的讨论话题,他们认为AI作为一项技术不再需要20年的时间才能到来,而是认为这个东西现在已经在影响着自己的生活。的确,热门媒体几乎每天都会报道AI,而技术巨头都在接二连三地阐述自己重大的长期AI战略。尽管若干投资者和既有企业渴望理解如何在这个新世界中捕捉价值,但绝大部分还在抓破脑袋想搞清楚这一切到底意味着什么。与此同时,政府正在与社会自动化的潜在影响作斗争(参见奥巴马的告别演说)。
考虑到AI会影响到整个经济,这场对话的参与者代表了开发或使用AI系统的各种意图,不同的理解水平以及不同经验程度。同样地,一场有关AI的讨论,包括问题,以及据此获得的结论和建议等,这些东西应该以数据和事实而不是猜测为基础,这一点是至关重要的。发表的研究、技术新闻公告、推测性的评论以及思想实验把结果的潜在影响疯狂地外推实在是太容易了(有时候是太令人兴奋了!)。
以下是AI在对未来数字化产品和服务潜在影响能力方面尤其值得注意的6个领域。我将描述它们分别是什么,为什么重要,目前是如何应用的,同时还将提供攻关这些技术的公司和研究者的清单(但绝对不是详尽的)。
1、强化学习(RL)
强化学习是一种通过试错法学习的范式,其灵感源自人类学习新任务的方式。在典型的强化学习设定里面,一个代理会承担在数字化环境中观察其当前状态的任务,并采取能让自己被设定的累计长期奖励最大化的动作。作为每次动作的结果,代理从环境接收反馈,这样它就可以知道动作是促进还是妨碍了自己的进展。一个RL代理因此必须在对环境进行探索以找到累积奖励的优化策略与探索实现所要达到目标的最佳策略之间做出权衡。这种办法因为Google DeepMind在玩Atari和围棋(Alphago)游戏中的表现而变得流行。RL在现实世界的一个例子是Google数据中心在优化制冷效率当中的应用。Google的RL系统取得了将制冷成本降低40%的效果。在可模拟的环境(比如视频游戏)中采用RL代理的一个重要的天然优势是训练数据是可以生成的且成本极低。这与有监督的深度学习形成了鲜明对比,后者往往需要昂贵且在现实世界中很难获得的训练数据。
应用:多个代理以共同的模型在环境中以自己的实例进行学习,或者通过在相同环境下进行互动和相互学习,学习在像迷宫或者城市街道那样的3D环境下为无人车进行导航,运用逆向强化学习通过学习某个人物的目标来概括观察到的行为(比如学习驾驶或者赋予非玩家视频游戏角色以类似人类的行为)。
主要研究人员:Pieter Abbeel (OpenAI),David Silver,Nando de Freitas,Raia Hadsell,Marc Bellemare (Google DeepMind),Carl Rasmussen (剑桥大学),Rich Sutton (Alberta),John Shawe-Taylor (伦敦大学学院)等。
公司:Google DeepMind,Prowler.io,Osaro,MicroPSI,Maluuba/微软,NVIDIA,Mobileye。
2、生成模型
相对于用于分类或回归分析任务的判别模型,生成模型学习的是训练例子的概率分布。通过从这一高维分布中采样,生成模型可以输出新的类似与训练数据的例子。这意味着,比方说,基于真实脸部图像训练出来的生成模型可以输出类似脸部的合成图像。要想了解这些模型如何工作的细节,可参见Ian Goodfellow精彩的NIPS 2016指南文章。他介绍的生成对抗网络(GAN)架构,是目前研究界尤其热门的方向,因为这种架构提供了一条通往无监督学习的道路。GAN有两个神经网络:一个是生成器,它会以随机输入噪声作为输入,接受合成内容(比如图像)的任务;另一个是鉴别器,它会学习真正的图像看起来是什么样的,然后接受辨别由生成器创造的图像是真的还是假冒的。对抗训练可被看成是一个游戏,在这个游戏里面,生成器必须交替学习如何通过噪音来创造出逼真的图像,逼真到鉴别器再也无法分清真伪的地步。这一框架正在被延伸到许多数据形态和任务当中。
应用:模拟未来可能的时间序列(比如说强化学习的任务规划);超清晰图像;通过2D图像修复3D结构;对小型的带标签数据集进行归纳;从一个输入推出多个正确结果的软任务(比如预测视频的下一帧);在对话接口(如聊天机器人)中创建自然语言;加密;当并非所有数据都带标签时进行半监督学习;艺术风格的变换;合成音乐和语音;图像修复。
公司:Twitter Cortex,Adobe,Apple,Prisma,Jukedeck*,Creative.ai,Gluru*,Mapillary*,Unbabel。
主要研究者:Ian Goodfellow(OpenAI), Yann LeCun和Soumith Chintala(Facebook AI Research), Shakir Mohamed和A?ron van den Oord(Google DeepMind), Alyosha Efros(Berkeley)等。
3、带记忆的神经网络
为了让AI能像我们人类一样归纳不同的现实世界环境,它们必须能够不断学习新任务并记住如何在未来执行所有这些任务。然而,传统神经网络一般都不能记住此类任务序列。这一缺点的术语叫做灾变性失忆(catastrophic forgetting)。之所以会发生这种情况,是因为在一个神经网络中对于解决任务A很重要的权重在该网络随后受训解决任务B时会发生变化。
不过有若干强大的架构能赋予神经网络不同程度的记忆功能。这些就包括了长短期记忆人工神经网络(LSTM,递归神经网络的派生),这种网络能处理和预测时间序列;为了自行学习复杂数据结构并在其中导航,DeepMind的可微神经计算机结合了神经网络和内存系统,学习的弹性权重合并(elastic weight consolidation)算法,视之前在任务中的重要性不同,这种算法可放慢特定权重的学习;渐进性神经网络( progressive neural networks),这种神经网络可以学习任务相关模型的横向联系,从而从此前学过的神经网络中析取出有用的功能来执行新任务。
应用:可归纳到新环境的学习代理;机器臂空子任务;无人车;时间序列预测(比如金融市场,视频,物联网等);自然语言理解和下一个单词预测。
公司:Google DeepMind,NNaisense(?), SwiftKey/微软研究院, Facebook AI Research。
主要研究人员:Alex Graves, Raia Hadsell, Koray Kavukcuoglu(Google DeepMind), Jürgen Schmidhuber(IDSIA), Geoffrey Hinton(Google Brain/Toronto), James Weston, Sumit Chopra, Antoine Bordes(FAIR)。
4、从更少的数据学习,建立更小的模型
深度学习模型因为需要庞大规模的训练数据才能实现最好性能而引人关注。比方说, 让参赛队伍挑战自己的图像识别模型的ImageNet Large Scale Visual Recognition Challenge(ImageNet大规模视觉识别挑战赛)拥有120万张手工标记的训练图像,涵括了1000个对象类别。如果没有大规模的训练数据,深度学习就没有办法集中到优化设置上面,注入语音识别或者机器翻译之类的那些复杂的任务就无法执行得好。当单个神经网络用于端到端解决一个问题(也就是说,把说话的裸音频录音作为输入然后输出说话的录音文本)时,这一数据需求只会越来越高。这跟用多个神经网络各提供中间表示是不一样的(比如说,裸语音音频输入→音素→单词→录音文本输出)。如果我们希望AI系统解决那些训练数据尤其具有挑战性、成本又高、又敏感或者获得又十分耗时的任务时,从较少例子(比如1次或0次学习)形成可学习优化解决方案的模型就很重要了。当针对小规模数据集进行训练时,其挑战包括过度拟合,处理异常值的困难,训练和测试之间不同的数据分布等。一个替代的方案是用一个共同的流程将机器学习模型执行之前任务获得的知识转移过去以改善新任务的学习,这被称为是迁移学习(transfer learning)。
一个相关问题是利用类似数量或者数量显著减少的参数开发更小型的最新深度学习架构。其优势包括更有效的分布式训练,因为数据需要在服务器之间进行沟通;从云导出新模型到边缘设备需要更少的带宽;可以部署到内存有限的硬件,灵活性得到了改进。
应用:训练浅层网络学习模仿原本基于大型带标签训练数据而训练出来的深度网络的表现;参数更少但表现与深度模型相当的架构(比如SqueezeNet);机器翻译。
公司:Geometric Intelligence/Uber, DeepScale.ai, 微软研究院, Curious AI Company, Google, Bloomsbury AI。
主要研究人员:Zoubin Ghahramani(剑桥大学), Yoshua Bengio(蒙特利尔大学), Josh Tenenbaum(MIT), Brendan Lake(纽元大学), Oriol Vinyals(Google DeepMind), Sebastian Riedel(UCL)。
5、用于训练与推理的硬件
AI取得进展的一个主要的催化剂是图形处理单元(GPU)被重新利用到了训练大型神经网络模型上面。GPU跟按序列进行计算的中央处理单元(CPU)不一样,它提供了大规模的并行架构,可并发处理多个任务。考虑到神经网络必须处理庞大(有时候还是高维)的数据,在GPU上面训练要比在CPU上训练快得多。这就是为什么自2012年AlexNet(首个在GPU上实现的神经网络) 发布以来GPU实际上已经成为淘金热的铁铲原因。这方面NVIDIA一直处于领先地位,把英特尔、高通、AMD以及最近进入的Google甩在了身后。
但是GPU并不是专门用于训练或推理的硬件;它们原来是为了替视频游戏渲染图像而创造的。GPU具有很高的计算精度,但却不是随时之需,同时还遭遇了内存带宽和数据吞吐量的问题。这为Google之类的大公司内部新型的初创企业和项目开放了竞技场,使得后者可以设计和制造特殊的针对高维机器学习应用的芯片。新芯片设计有望实现的改进包括更高的内存带宽,基于图的计算而不是基于向量(GPU)或者标量(CPU),更高的计算密度,每瓦特的效率和性能提升。这令人兴奋,因为AI系统显然为它的所有者和用户带来了加速回报:更快更高效的模型训练→更好的用户体验→用户与产品的互动更多→创造出更大规模的数据集→通过优化改进模型性能。因此,那些能以更高计算效率和能效更快训练并部署好AI模型的人将具备重大优势。
应用:模型训练更快(尤其是基于图的训练);以很高的能效和数据效率做出预测;在边缘层(物联网设备)运行AI系统;随时侦听的物联网设备;云基础设施即服务;无人车、无人机和机器人。
公司:Graphcore, Cerebras, Isocline Engineering, Google(TPU), NVIDIA(DGX-1), Nervana Systems(英特尔), Movidius(英特尔), Scortex。
主要研究人员:?
6、仿真环境
正如前面讨论过那样,AI系统训练数据的生成往往是很有挑战性的。此外,AI如果想在现实世界中发挥作用的话必须推广到许多情况下也适用。而开发可模拟真实世界的物理结构和行为的数字化环境,可以为我们衡量和训练AI一般智能提供试验场。这些环境以裸像素的形式呈现给AI,后者然后采取行动以便解决被设定(或者学会)的目标。在这些模拟环境下训练可以帮助我们理解AI系统时如何学习的以及如何对它们加以改进,但也能为我们提供有可能转移到现实世界应用的模型。
应用:学会驾驶;制造;工业设计;游戏开发;智慧城市。
公司:Improbable, Unity 3D, 微软(Minecraft), Google DeepMind/Blizzard, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard