周志华:机器学习技术是AI应用的关键

6月1日上午,2018中新人工智能高峰论坛在南京举行。会上,南京大学计算机科学与技术系主任、人工智能学院院长、欧洲科学院外籍院士周志华发表了演讲,阐述了他对于机器学习前沿思考。周志华表示,机器学习无所不在,很多AI应用背后关键支撑就是机器学习技术。
周志华:机器学习技术是AI应用的关键-DVBCN

周志华称,从技术上看,神经网络其实是个简单的数学函数,通过迭代嵌套得出的系统。在一些图像视频处理任务中,深度神经网络有时候并不是最佳的选择。

“当我们重新审视神经网络模型的时候,提出是不是可以基于不可微构件进行深度学习?”周志华介绍说,他的团队最近提出了一个叫做“深度森林”的模型,这是一个“非神经网络”,且不使用BP算法训练的深度学习模型。周志华透露,这个模型目前已经与蚂蚁金服合作,应用在反套现的检测上,目前性能表现很好。

关于机器学习能够解决的任务,周志华认为,围棋属于封闭静态环境的任务,他不是“最难的任务”,以往的机器学习就可以解决这种封闭静态环境任务。“我们今天面对的是动态开放环境下的机器学习挑战,最关键的就是鲁棒性。”周志华称,这就要求AI必须很好的应对未知环境,是通往鲁棒人工智能的核心环节。

在AI产业发展方面,周志华认为,目前AI广泛应用的代表是互联网行业,因为后者拥有大量的数据。但是,未来在一些数据量小的领域可能应用前景更大。

周志华在最后表示,AI产业发展真正需要的是人才,“与一般软件产业相比,AI产业将更凸显个人英雄主义”。(小羿)

以下是演讲内容:

周志华:王部长、李院士,各位领导、各位朋友,大家上午好!

首先刚才主持人报到的这个题目和我实际讲的题目有一点点差别,我今天跟大家汇报的这个题目是“关于机器学习前沿的一点思考”,因为我本人主要是从事机器学习方面的研究。

前段时间我们经常都听说现在我们处于一个大数据的时代,但是我想现在我们所有人都非常清楚,这个大数据并不意味着真正大的价值,要得到数据里面的价值,我们就必须要进行有效的数据分析,而今天我们要通过计算机来进行数据分析,就必须要进行机器学习。前面很多嘉宾讲到的人工智能的应用里面,最关键的支撑原因就是机器学习。

今天我想谈一谈关于机器学习方面的一些思考,首先因为我是从学术研究出发,所以我先谈一谈关于技术上的一些考虑。

今天我们谈到人工智能的热潮也好,还是人工智能的产业也好,其实很大程度上就是因为机器学习技术,尤其是里面的深度学习技术取得了巨大的进展。所以我们可以看到各种各样的应用中,特别是在图像、视频、语音,包括我们现在用到的讯飞这么一个实时的翻译器,其实背后都有很多深度学习的技术在起作用。

但是如果我们今天问到一个问题,深度学习是什么呢?我想绝大部分人的回答,通常都说深度学习就是深度神经网络。我给大家看一个例子,有一个很著名的学会叫siam,它有一个旗舰的报纸叫《Siam News》,它里面谈到机器学习深度学习就是一个子女。当我们要谈深度,这里面每一个节点是什么东西呢?以往我们从生理学上得到一点基本的启发,如果一个细胞得到很多的信号,这个简单的现象在1943年就被两位学者总结成了这么一个简单的数学公式,非常的简单,就是几个加和,再减掉一个数,再用函数处理一下,这个公式一直到今天我们还在使用。今天我们看到这么复杂的深度学习系统,它的奥秘是什么呢?最基本的单元就是它。所以我们可以看到所谓的神经网络也好,深度神经网络也好,就是一个简单的函数。

在2012年的时候,在这个著名的比赛获胜的网络用了8层,在2016年的时候用到了1207层,所以这是一个非常巨大非常庞大的系统,我们怎么样让这些系统工作起来呢?这里面用到很多技巧。但是非常重要的,我们可以看到这个里面最基本的单元就是我们刚才说到的这个函数,是连续可为的。今天深度神经网络的成功和它最后使用的基础构建是使用了可为的构建,这个是密不可分的。

现在很多的学者在反思,第一个就是太多超参数,我们现在大量的时间都花在调参数上,甚至大家觉得这件事情好像不应该是科学技术的事情,好像是一个体力活。另外有的结果我们还很难重复,此外还有很多很多的问题。

另外我们就算不从学术上考虑的话,因为大家有的时候会说你们学术上做什么我不关心,能给我提高性能就好。其实就算从这个角度来看,我们可以看一看今天深度神经网络所获胜,有好的效果的,主要是哪些应用呢?主要涉及到图像、视频、语音这样的任务。但我们其实有大量的任务不是这些,比如说我们在电商里面做图像推荐,就不是这些任务。这里面有大量买机票的,有订旅馆的等等,可以看到即使在今天绝大多数获胜的模型还不是深度神经网络。

今天的深度神经网络是多层的,可参数化的可微分的非线性模块构建的,需要用BP算法来训练的这样一种模型。今天我们认为有一个很前沿的问题,就是能不能基于不可微构建来进行深度学习?比如说深度学习是不是就等于深度神经网络?我们有没有可能在图像、视频、语音之外更多的任务,得到更好的性能?

最近我们自己的研究,在这方面做了一点点工作,我们提出了一个新的模型,叫做深度森林,这不是一个基于深度神经网络的模型,但是在很多任务上已经取得了深度神经网络的模型。

这件事情最近也有一些反响,如果大家关注最近的新闻可以看到我们和蚂蚁金服公司合作,做到蚂蚁金服反套现的技术上,这还是一个开头,是一个非常初的技术,未来再发展下去会有更多的机会。

在我们提出深度森林之后,国际上有很多学者也在反思深度学习这个领域,比如说Keras的创始人说可微层是当前模型的根本弱点。以往我们知道深度学习很有效,但其实深度学习这个屋子里面只有一种是叫深度网络学习模型。但是还有其他的模型,今天我们可以看到深度学习的效用在大多数领域里面已经应用得相当充分了,当我们有了新的模型之后,有没有可能在更多的领域重新得到一种更多的价值呢?可能这是一个值得探讨的方向。

第二个部分,我想谈一谈机器学习技术新的任务。人工智能学界很早就知道对这种规则明确的棋类游戏,机器学习一定会超过人类。我们说围棋棋盘361个点,每个点上有三种可能,所以它的可能性是3的361次方。我们宇宙中现在所有知道的原子的个数是10的80次方,这实际上告诉我们什么呢?如果你靠强力计算,一个状态一个状态去评估,哪怕量子计算机做出来,或者更强大的计算机做出来,围棋问题也是解决不了的,所以这不是一个单单靠强力计算能解决的事情,必须要有聪明的算法。但是聪明的算法现在已经有了。

从另外一个角度,其实比围棋更困难的问题很多,因为围棋有一个很基本的假设或者说共性的条件,就是精确感知,我下围棋的时候棋子落在什么地方大家都看得很清楚,不会把你遮起来,而且大家对什么获胜这一点也有共识。

有很多问题不是这样的,我们平时打麻将,就是不完备信息,你只能看到桌上的牌,看到自己的牌,其他几家牌看不到,实际上打麻将这件事情就比围棋更难。大家可能觉得现在有些打麻将的游戏已经打得很好了,这是为什么?很多程序背后是作弊的,你看不到大家的牌,他能看得到。另外麻将的牌张数只有136张,张数比较少,如果张数达到361张,和围棋棋盘一样,我们就可以有严格的数据证明它比围棋复杂得多。

总的来说,它属于一种封闭环境、静态环境的任务。我们以往的机器学习其实主要就在解决这样的任务,我们假定很多东西不变的,我们假设评价目标恒定等等,但是今天我们解决的任务目标变了,比如说我们一条破冰船开到两极去,它看到的险情在变的,目标还会多样化等等,所以我们今天的任务是在开放环境下怎么样更好地做机器学习,这时候好的时候要好,坏的时候也不能太坏。

如果我们看看国际上对于人工智能发展的讨论,国际人工智能大会有一个主席的报告,就是由学会的主席来对未来做一个判断,他的题目就是说“通往鲁棒的AI”,随着人工智能技术取得巨大发展,我们越来越多地面对高风险应用。这个鲁棒的人工智能怎么来呢?就要求我们的系统必须要能够很好地应对未知环境,实际上用我们的话来说就是开放环境,所以开放环境下的机器学习是我们这个领域特别要关注的事情。

第三方面,我想简单地谈一谈关于人工智能产业发展的一点粗浅的想法。

今天我们可以看到人工智能技术在很多产业广泛应用,但是如果大家问到底什么产业是代表性的呢?我想主要就是互联网行业。人是什么?很基本的一个原因是他们积累了大量的数据,我们的机器学习技术也好,人工智能技术也好,是提供了利用数据的方法。其实我们马上就可以看到,经过十多年的努力,我们所有的行业可以说都有很多的数据。事实上人工智能技术可以进入所有这些领域,所以今天我们应该问的不是说人工智能技术在哪些领域可能能用得好,而是应该问的是下面人工智能技术会在哪些领域取得更大的提高。

我想现在人工智能技术已经用得很好的领域反倒不太容易取得更大的提高,现在用得比较少的领域用进去之后可能进展会更大。未来的话人工智能技术确实就应该像电力一样,迟早会进入所有的行业。

人工智能产业发展到底需要什么呢?是不是需要设备呢?其实不是的,我们基本不需要什么特殊精密设备,是不是需要数据呢?现在数据遍地都是。真正需要的是什么呢?其实真正需要的是人才。

特别是和一般的软件产业比,人工智能产业应该是一个非常凸现个人英雄主义的行业。前几天如果大家关注新闻,可能看到有一件,我们组里面一个还没有毕业的学生被一个研究企业聘请去做创业指导,高校毕业出来的人才一定要在企业里面经过两三年的打磨以后才能做这个事。以往我们做软件的话,一个软件一定要有很多人来做。今天人工智能这个行业它的代表性就是它是软件业里面的一个明珠,个别人的聪明才智在哪个方面取得算法上的突破,可能就真的带来生产力。所以今天这个行业的特点,就决定我们人工智能的人才培养是特别重要,所以现在可以说进入了一个全球增强人工智能人才的年代。

但是高水平人工智能人才培养的造血能力,我们认为它真的会导致产业核心竞争力的差别,而且人工智能人才培养基地会直接促进人工智能产业人才急剧形成。

最近我们南京大学成立了一个人工智能学院,我们也希望从源头做起,为国家培养高水平人工智能人才。南京政府也非常支持我们这个学院的成立,我也欢迎各位以各种方式来支持我们南京大学人工智能学院,谢谢!

推荐阅读:HGX-2:Nvidia推出的集AI和高性能计算于一身的平台

相关文章
四川省:2027年算力总规模达到40EFLOPS,5G基站总数达32万个
四川省:2027年算力总规模达到40EFLOPS…
阿里巴巴9月份季度业绩:优酷运营亏损逐步减少,云智能集团收入为296.10亿元
阿里巴巴9月份季度业绩:优酷运营亏损逐…
【破局】这家广电有线省网将率先成立人工智能(AIGC)实验室?
【破局】这家广电有线省网将率先成立人…
权威报告:大模型深度赋能传媒行业,媒体融合也走向智慧融媒
权威报告:大模型深度赋能传媒行业,媒…
中国电影电视技术学会发布《AIGC媒体应用产业图谱(1.0版)》
中国电影电视技术学会发布《AIGC媒体应…
【前沿】专家学者话6G:从刚需、标准、试验等视角看6G网络
【前沿】专家学者话6G:从刚需、标准、…
我还没有学会写个人说明!