就像人在竞争/合作环境中会进步更快一样,如果让多个人工智能来进行对抗或者协作,它们的学习和进化速度是否会得到大幅提升?
位于Google本部的人工智能团队Google Brain(不是 DeepMind),就针对这个问题在去年做了一个很有趣的实验。结果发现:他们搭建的人工智能系统,在实验里自己创造出了一个加密算法,不光人猜不透,还能“自我升级”,让算法无法破解。这一切,就发生在三个人工智能系统的比赛中。
研究者用到了三个并不复杂的神经网络来搭建这个实验,它们分别名为 Alice、Bob和 Eve。
Google 大脑的两个人工智能竟然自主“进化”了
Alice 和 Bob 为同一方,均未学过任何的加密知识,而是单纯依靠二者之间的共识(一段共享的密钥 K),去自己“琢磨”,设计出一个加密的方法……研究者给出一段16个字节的原文本 P,Alice 按照自己设计出的方法输出一段密文 C。Bob 再用密钥 K 配合 Alice 发来的密文 C,自己设计出解密的方法,不断尝试,解密出一个答案。
而 Eve 则扮演“敌方”的监听者的角色,能够窃听到密文 C,在没有密钥 K 的前提下,同样是自己设计解密方法,去猜测原文本是什么。
研究者没有对 Alice、Bob 和 Eve 进行过任何的加密训练,实验的全称也没有外部输入任何加密知识,全靠猜。至于猜没猜对,研究者不会给它们简单的“对”或者“错”,而是会分别告诉 Alice、Bob 和 Eve,它们以及对方猜的答案,和原文本之间错了多少位。
整个实验的逻辑和战争时期的电台通讯差不多。但需要注意的是 K 并非加密方法,只是一串非常单纯的密钥而已。就好像同在旧上海的两个共军特工,双方都知道对方是自己人,但仅此而已,没有通用的密码本,只能靠不断地试错去逐渐明白对方采用的加密方式,还要不断地提升自己的加密技巧,好让国军特务无法突破。
等等,你说什么?提……升?
没错!尽管实验开始之前谁都不知道“加密”到底是个什么玩意,这些神经网络还真的在过程中提高了加密技巧……它们会根据上一轮各自的错误程度,去修改加密算法。
研究人员发现,当总猜测次数超过了六、七千次的时候,作为“己方”的 Bob 和“敌方”的 Eve,每次猜测的错误位数都呈现出了下降的趋势。Eve 的性能提升比较缓慢,在之后的将近五千次尝试中错误的位数从8降低到了 6;而 Bob 的准确度飞速提高,很快就将错误位数降低到了 1 位……
Google 大脑的两个人工智能竟然自主“进化”了
这还没完——有没有看到上图中,接近一万次左右的时候,红线 (Bob) 的错误率又提高了?发生了什么?
这正是整场试验最有趣之处。那时的 Alice 做了一个决定:“提高”它设计的加密算法复杂程度……
Alice 的决定,立刻影响了另外两个神经网络的性能。好在 Bob 只花了一千次左右的尝试就回到了正轨,继续降低错误率直至 0,很快和 Alice 之间建立了完整的共识,之后无论 Alice 怎么调整都能很快完成修正。
至于 Eve,再也找不到之前的感觉,错误率再度升高,在后来的几次 Alice 调整算法中,完全失去了方向。
这个实验的环境,在深度学习领域被称为生成式对抗网络 (Generative Adversarial Network, GAN)。这种结构通常有两个、三个甚至多个神经网络,各自扮演自己的角色,在环境搭建好之后人类研究者只输入极少量的原始信息,主要用来观察神经网络各自的表现。
生成式对抗网络是时下人工智能学界最热门的技术之一。一般来说,当人类想要研究人工智能“举一反三”的能力时,生成式对抗网络是体现效果最好的技术。去年年底,苹果公司公开发表了它的第一篇人工智能论文,介绍了一种能降低图像识别功能开发成本技术,采用的就是类似于生成式对抗网络的结构。
Google 大脑的两个人工智能竟然自主“进化”了
这个实验证明了什么?至少从实用的角度,我们发现作为两个未经训练的神经网络,Alice 和 Bob 有能力在一万次尝试之内学会一种加密算法,而且没有进行直接的对话——这就好比两个三岁小孩用了几个小时就研究明白了大学级别的密码学……还挺让人印象深刻的。
至于人工智能是不是已经学会了欺骗?倒不用担心它会背着人类偷偷搞事情。Alice 和 Bob 所采用的加密算法,的确是两个神经网络自己摸索出来的,人类没有提供教学。但毕竟人类是实验环境的搭建者,需要做一些非常细致的工作,比如设计和搭建神经网络,以及对正确、错误、胜利和失败的定义等等。
更有趣的是,不光是 Brain 团队,Google 之前收购的另一家公司 DeepMind 也在搞类似的人工智能合作-对抗实验。
Google 大脑的两个人工智能竟然自主“进化”了
DeepMind 找了两个人工智能玩对抗游戏。第一个游戏名叫 Gathering(上图左),比赛收集苹果,人工智能控制的玩家可以用激光冻结对方。研究者发现,当苹果的余量充足时,双方相安无事,但当余量不足时,对抗就比较激烈了,冻结的情况经常发生。而当其中一方换成级别更高人工智能时,它会更主动地提前冻结对手。研究者猜测这种行为源自更复杂的策略,只有高级智能才可以掌握。
第二个游戏名为 Wolfpack(上图右),两个人工智能一同扮演红色的“狼”,在复杂的障碍环境中追逐蓝色的“羊”,但规则要求只有双方都在羊的附近时,才能形成包围,捕获从而得分。
和第一个游戏类似的情况出现了:研究者发现,引入的人工智能界别越高,约容易明白得分的道理和最快路径……