北京时间2018年11月28日,第六届中国网络视听大会在成都盛大召开,此次大会为期4天,以“凝心聚力 创造美好新视界”为主题,其中,11月30日下午举行的“AI赋能 俯瞰视界”人工智能应用发展论坛上,由武汉大学教授、博士生导师唐存琛担任主持,金山云CDN及视频云产品中心总经理宗劼、华数传媒互联网技术部副总经理安竹勇、央视国际网络有限公司技术事业群副总经理韩嫕、声网 Agora首席产品架构师侯希明、小米人工智能与云平台语音总监王育军、金山云AI首席算法架构师苏驰担任嘉宾,以AI赋能视听视频产业前沿技术,云计算驱动视听体验创新为主题的圆桌对话也如期展开。
Q:在网络视听领域方面,短视频是一个很容易突破的点,各位嘉宾认为应该从哪个方面入手更能提高效率?
宗劼:对于AI而言,最关键的核心是应用场景,金山视频云关注的是如何为客户提供更好的服务,在节省成本的基础上,交出一份高品质的服务。在AI技术上,金山云提倡运用智能的压缩算法,在保证图像和视频大幅度提高时,保证产品在有线网络带宽的正常传输,这对于金山云而言是最基础的层面。同时,由于传输内容的多样性,金山云在对于内容识别、内容分辨和内容理解上将多做一些识别,有助于提升客户的体验度。
安竹勇:对于媒体宣传而言,AI在应用视频方面还不够成熟。目前,AI还处于初级阶段,主要任务是辅助人们的工作。目前杭州的天眼系统就是利用图像识别辅助交警实现智能抓拍。
侯希明:对于如何做好AI的问题,目前有两个方式:一个是内升,一个是外因。内升是指质量本身,金山在软件视频方面会在考虑成本因素的前提下,把视频质量做到极致。第二是外因,智能语音的实现还有很多难题需要解决,其中涉及语言不同领域的辨识度方面存在巨大瓶颈。
王育军:随着应用场景逐渐多样化,依然需要坚持做传统的云业务。在传统云业务里,其中识别和语音识别都属于传统问题。众所周知,声纹一直是市场上的弱需求,有关它的数据一直是一个瓶颈。同时,除了把传统的语音识别的业务做好外,还应该做好推广的任务,在更多的人接触人工智能产品后,间接的会为人工智能造就更多的数据。
苏驰:人工智能只处于初级阶段,目前人工智能比较成熟的技术就是人脸识别。同时,人工智能识别的技术能帮助我们有效的对监管内容进行审核。为了加速AI的落地,我们将通过算法和数据的搜集,达到AI替人做决策的目的。这将有助于线上的内容监管和娱乐内容的理解,形成一个有效的人机互动环境。
Q:对未来人工智能的长期布局,各位嘉宾有什么高见?
苏驰:人工智能对规则的掌握比较快,但是在变通方面还有待加强。未来AI发展的第一个方向是学习推理能力,其次是迁移学习能力,最后是试错的能力。目前,对数据标准的好坏没有明显的界定,这需要阿法狗通过强化学习去试错,这才会帮助AI具备强化学习的功能。
王育军:未来人工智能还是解决刚需问题。众所周知,刚需既来自用户,也来自企业。从技术角度出发,刚需是满足大家愿意看到的需求。而从企业角度出发,通过大规模的增加机器和大规模增加数据解决问题,是企业的刚需。
侯希明:目前就AI而言,很多的公司已经在投入布局,包括自动驾驶、人机交互、自然语言处理、人脸识别。而金融行业做AI有很多细分的赛道,其中就包括企业的IPO,企业IPO会提供大量的数据上来,你怎么对它的数据做智能识别,在提交给证监会之前把所有的内容识别并纠正出来,这就是AI很好的应用。
安竹勇:目前,人工智能的人脸识别可以说是非常成熟的技术。众所周知,人脸建模是AI技术里相对容易的领域,但也还处在辅助人工的阶段,并没有做到人工决策的阶段。而在语音识别问题上,应用层面的需求比较迫切,对于解决中文语音识别的问题一直处于瓶颈期,其中包括识别中文中间很多的密码语言和小语种的方言,甚至一些暗语,这都需要人工智能有更大的投入。
宗劼:从业务角度入手,人工智能分为两大类。目前,人工智能叫自适应机器学习,它由数据、搜集和算法三部分组成。而另外一个观点是常识智能,即小孩通过慢慢的学习积累形成的常识理论,这是人的智能,不是人工智能。值得注意的是,从问题的角度来看,金山云对整个人工智能做的做大的贡献就是算率。金山云通过两种方式把算率最大化,一个是组合起来最大化,还有一个则是使用最大化。
Q:目前,应用当中哪些技术是实践中可以应用的,哪些技术是行业短期内迫切需要的?
安竹勇:我个人觉得图像识别已经相对成熟,在生活中已经应用得非常多。但是,目前规划后一步要做的就是选一些辅助的工作,只是入手的角度不一样。前面是对原数据的辅助,后面是辅助类似于内容整合和内容编排。2019年,新的探索项目会产生,类似智能编排。基于之前布局了智能标签,智能场景化的原数据,人工智能就能有序完成推荐。
Q:图像识别与图像语义或者是行为识别之间是什么关系?
侯希明:图像识别是一个非常广的概念,刚刚提到的是指人脸的范畴。目前,虽然有很多人在做物体识别的研究,但是行为识别也逐渐受到关注。例如,微软正在研究人走动的时候,根据人走动时的形状来推测行人的行为。虽然人脸识别技术已经相当成熟,但是在物体识别和行为识别上的研究很早就开始了。关于物体识别和行为的技术,由于物体识别的复杂性,落地到民用阶段还有一定的距离。
Q:人工智能如何解决非规则变化的现实问题?
苏驰:虽然计算机有吞并的能力,但是语音识别和语意的识别都属于阶段性层面的产物。当计算机阶段性的得到一个反馈,反馈有可能是指一个结果或者是一个过程,我们把这一系列反馈称作为系列的输入。值得注意的是,这跟视频一样可以把不规则的东西变成规则,相当于微分进行处理。
Q:随着AI技术应用领域不断扩展,一些有关法律方面的问题应该怎么看待?
王育军:从就业角度来看,人工智能在提高效率的同时,也会造就一些列问题。语音识别系统智能客服产生后,人们可以从繁重的工作中解放出来,客服人员可以做机器的老师,设计规则,标注数据等。人工智能的长处是补足人类不足的新场景。从法律的角度讲,目前人工智能引起关注最多的是用户隐私的问题。虽然人脸检测只应用于辅助阶段,但是对用户的隐私窥探也存在着隐患。例如,小米在使用任何数据时,都要通过两会的审核。