不断成熟的“人工智能”(AI)技术,让学术领域和企业家们更加意识到高效利用这项技术的重要性。如何在日新月异的当下不断挖掘人工智能的深度、拓宽应用广度是必须思考的问题。恰逢2017年开春之际,DVBCN&AsiaOTT推出了人工智能年度人物专栏,聚焦当前人工智能领域,本期分享第四范式先后系科学家杨强对人工智能的真知灼见。
杨强 / 第四范式首席科学家。人工智能领域学术界的领军人物,华人界唯一的国际人工智能协会院士,人工智能前沿科技的领导者。华为诺亚方舟实验室主任,香港科技大学计算机与工程系教授, IAPR Fellow, AAAS Fellow ,IEEE大数据期刊主编,ACM杰出科学家。两次获得国际数据挖掘领域最高级别竞赛KDD Cup世界冠军。发表论文400多篇,被引用超过20000次。
杨强先生认为人工智能研究需要的五大条件:够大的数据积累、清晰的问题边界、外部反馈、庞大的计算资源以及顶级的数据科学家。而想要满足这些条件可不是一件容易的事情,因此AI亟需降低门槛。这也是第四范式正在做的事情。他认为我们一方面可以发展低数据依赖性的迁移学习技术;另外,开发一个真正通用的人工智能平台,减少对高端人才和巨大资金支持的需求,降低整体投资成本和风险。
深度学习存在一些局限
杨强说深度学习有一些局限这个观点是成立的。它的局限来自于几个方面,因为一个模型毕竟是一个现实的反映,等于是现实的镜像,它能够描述现实的能力越强就越准确。但是我们看到深度学习有一个限制,因为机器学习都是用变量来描述世界的,深度学习能handle的变量数是有限的,深度也是有限的,另外它对数据的需求量随着模型的增大而增大,现实中有那么大、那么质量高的数据的情况还不多。实际上一方面是数据量,一方面是数据里面的变量,深度学习来描述数据的复杂度还不够复杂,所以这方面还是有局限性的。
但深度学习它是不是目前最好的机器学习的方法? 杨强表示应该说目前对某些问题是最好的,比方说人脸识别、语音识别,但是对其他的问题并不是最好的,比方说对于有延迟的反馈,比如机器人的行动。AlphaGo下围棋也不是深度学期包打所有的,它还有强化学习的一部分,反馈是直到最后那一步才知道你的输赢。还有很多其他的学习任务都不一定是深度学习才能来完成的。
杨强表示现在他做的一项研究是把深度学习、强化学习和迁移学习结合起来,让深度学习有目标。基于有目标的延迟反馈的机器学习在现有的深度学习中做的不是太好,比如 RNN 能够解决序列到序列的学习(Sequence to Sequence Learning),但它比较短视,没有最终目标和最终反馈。这就会出现很多问题,比如说推荐系统就没有办法在对话中有效地,自然地使用。同时,在自然语言对话中,只会出现毫无目的的闲聊,使得用户体验会不太好。要改变这些问题,就一定要引入强化学习,这样才可以进行推理并具有长期的目标。同时在这些算法之上再加一个迁移学习的算法层。这样,可以把一个通用的学习模型「个性化」到每个人不同的需求和兴趣上。这是目前所聚焦的研究领域。
AI的商业风口
智能客服
杨强表示,人机交互的智能客服,产生了很多外界公开的数据以及内部的数据、知识库等,都可以用来制造机器人。尤其是可以用客服过去的数据来做训练,这个数据量现在在垂直领域是逐渐在增加的。现在的对话系统也已经逐渐成为深度学习和强化学习的焦点。
新闻领域
另外一个杨强认为比较看好的领域是新闻领域,新闻的分发和自动写作。有很多编辑、解说、自动校对、作家等,其实是数据量足够多的,有这么多的文本,而且外界反馈也越来越多了。他指出,给一篇文章,可以用机器学习来做自动摘要。 这样一个工作的外部反馈来自哪里呢?实际上写的那些paper就是一个外部反馈,因为每篇paper都有摘要,如果一篇paper被收了,就说明摘要写的还不错,所以外部反馈还是可以实现的。
特定任务的智能机器人
例如Amazon 的KIVA机器人,杨强说Amazon一个很大的优势就是所有的仓储都是由机器人来完成的,但是它也有工人,被雇来用手做抓取,因为现在机器人的抓取是非常难的,那么人和机器的优点就结合起来了。此外,医疗机器人也是非常专业的一个领域,它可以给人开刀缝线,但它不是自动的,而是通过远程控制的,但控制的精密度非常高,如果它收集到足够量的数据,是可以达到自动的效果的,以后可能开刀就由机器人来代劳了。杨强还指出在医护领域,无障碍辅助的应用领域痛点特别强烈,现在数据量可能还不是特别多,因为毕竟这一群体还是少数人,但是痛点很强,所以未来也许会有数据。
AI+有机食品
杨强讲到,他在香港曾去访问过一个有机食品工厂,这个实验室里的每一株菜,周边的所有环境全都记录起来,比如湿度、温度、光照,然后就可以收集这样的数据训练一个机器学习的模型,最后用这个模型来做蔬菜。所以得来的蔬菜滋味可以控制,要脆感还是要甜的,都可以通过模型学习出来。
FINTECH智能投顾
杨强表示其实金融是一个非常好的领域,第四范式在金融领域也积累了很多成功案例。金融领域里的任务都是非常清楚的,而且每个任务的数据都有痕迹、有数据足迹,数据的维度也是多维度的数据,有外界的、也有内界的,非结构数据比较多,例如文本和报告。数据也是形成了孤岛,链条也非常长,并且链条里面都有衔接。
中国人工智能发展
谈到目前国内的人工智能发展情况,杨强表示国内目前还是相当乐观的,很多大学都在研究人工智能。但与国外相比,国内的不足之处也比较明显,国内过多去做机器学习,而忽略了人工智能的其他领域,比如逻辑推理、智能规划、机器学习的可解释性和多智能体等前沿领域。
对人工智能科研人员的建议,杨强认为国内的人工智能研究不能太跟风,要对自己的研究领域有信心、不断创新,尤其是在大学的研究者,每个大学的教授应该是独树一帜的,自己领先一个子领域,而不是跟着别人去做。其实在科研和工业界都是需要持续创新力的,不过对公司而言,还是要首先考虑生存,也不要以为人工智能可以包罗万象。
“现在人们对于人工智能有许多担忧,弥合公众对人工智能的误读是科学家该做的事情,规避人工智能不被某些集团垄断、引导人工智能走向大众更是一个科学家的使命。”
—— 杨强
关于未来的展望,杨强觉得未来应该是几个人在运行一个公司,每一个人都能率领成千上万个机器人,这些机器人在做不同的事情,也是它被训练得很擅长的事情。他指出就当前的现状来说,在一个传统行业里,往往是20%的人在做80%的工作,那么这20%的人就是未来的运营公司的人,剩下80%的人所做的工作将交由机器来完成。一个公司的自动化,智能化程度,也代表了这个公司在商业上的反应速度和竞争力。
杨强表示人工智能给人类带来的变革是非常深远的,人工智能不仅仅是一场比赛、一个应用,而是整个社会真正地彻底地在改变。机器和人将成为一个共同的“军队”不断地攻克堡垒,推动人类进程向更好的方向发展。