圆桌对话：AI赋能视听视频产业前沿技术，云计算驱动视听体验创新

北京时间2018年11月28日，第六届中国网络视听大会在成都盛大召开，此次大会为期4天，以“凝心聚力创造美好新视界”为主题，其中，11月30日下午举行的“AI赋能俯瞰视界”人工智能应用发展论坛上，由武汉大学教授、博士生导师唐存琛担任主持,金山云CDN及视频云产品中心总经理宗劼、华数传媒互联网技术部副总经理安竹勇、央视国际网络有限公司技术事业群副总经理韩嫕、声网 Agora首席产品架构师侯希明、小米人工智能与云平台语音总监王育军、金山云AI首席算法架构师苏驰担任嘉宾，以AI赋能视听视频产业前沿技术，云计算驱动视听体验创新为主题的圆桌对话也如期展开。

Q：在网络视听领域方面，短视频是一个很容易突破的点，各位嘉宾认为应该从哪个方面入手更能提高效率?

宗劼：对于AI而言，最关键的核心是应用场景，金山视频云关注的是如何为客户提供更好的服务，在节省成本的基础上，交出一份高品质的服务。在AI技术上，金山云提倡运用智能的压缩算法，在保证图像和视频大幅度提高时，保证产品在有线网络带宽的正常传输，这对于金山云而言是最基础的层面。同时，由于传输内容的多样性，金山云在对于内容识别、内容分辨和内容理解上将多做一些识别，有助于提升客户的体验度。

安竹勇：对于媒体宣传而言，AI在应用视频方面还不够成熟。目前，AI还处于初级阶段，主要任务是辅助人们的工作。目前杭州的天眼系统就是利用图像识别辅助交警实现智能抓拍。

侯希明：对于如何做好AI的问题，目前有两个方式：一个是内升，一个是外因。内升是指质量本身，金山在软件视频方面会在考虑成本因素的前提下，把视频质量做到极致。第二是外因，智能语音的实现还有很多难题需要解决，其中涉及语言不同领域的辨识度方面存在巨大瓶颈。

王育军：随着应用场景逐渐多样化，依然需要坚持做传统的云业务。在传统云业务里，其中识别和语音识别都属于传统问题。众所周知，声纹一直是市场上的弱需求，有关它的数据一直是一个瓶颈。同时，除了把传统的语音识别的业务做好外，还应该做好推广的任务，在更多的人接触人工智能产品后，间接的会为人工智能造就更多的数据。

苏驰：人工智能只处于初级阶段，目前人工智能比较成熟的技术就是人脸识别。同时，人工智能识别的技术能帮助我们有效的对监管内容进行审核。为了加速AI的落地，我们将通过算法和数据的搜集，达到AI替人做决策的目的。这将有助于线上的内容监管和娱乐内容的理解，形成一个有效的人机互动环境。

Q:对未来人工智能的长期布局，各位嘉宾有什么高见?

苏驰：人工智能对规则的掌握比较快，但是在变通方面还有待加强。未来AI发展的第一个方向是学习推理能力，其次是迁移学习能力，最后是试错的能力。目前，对数据标准的好坏没有明显的界定，这需要阿法狗通过强化学习去试错，这才会帮助AI具备强化学习的功能。

王育军：未来人工智能还是解决刚需问题。众所周知，刚需既来自用户，也来自企业。从技术角度出发，刚需是满足大家愿意看到的需求。而从企业角度出发，通过大规模的增加机器和大规模增加数据解决问题，是企业的刚需。

侯希明：目前就AI而言，很多的公司已经在投入布局，包括自动驾驶、人机交互、自然语言处理、人脸识别。而金融行业做AI有很多细分的赛道，其中就包括企业的IPO，企业IPO会提供大量的数据上来，你怎么对它的数据做智能识别，在提交给证监会之前把所有的内容识别并纠正出来，这就是AI很好的应用。

安竹勇：目前，人工智能的人脸识别可以说是非常成熟的技术。众所周知，人脸建模是AI技术里相对容易的领域，但也还处在辅助人工的阶段，并没有做到人工决策的阶段。而在语音识别问题上，应用层面的需求比较迫切，对于解决中文语音识别的问题一直处于瓶颈期，其中包括识别中文中间很多的密码语言和小语种的方言，甚至一些暗语，这都需要人工智能有更大的投入。

宗劼：从业务角度入手，人工智能分为两大类。目前，人工智能叫自适应机器学习，它由数据、搜集和算法三部分组成。而另外一个观点是常识智能，即小孩通过慢慢的学习积累形成的常识理论，这是人的智能，不是人工智能。值得注意的是，从问题的角度来看，金山云对整个人工智能做的做大的贡献就是算率。金山云通过两种方式把算率最大化，一个是组合起来最大化，还有一个则是使用最大化。

Q：目前，应用当中哪些技术是实践中可以应用的，哪些技术是行业短期内迫切需要的?

安竹勇：我个人觉得图像识别已经相对成熟，在生活中已经应用得非常多。但是，目前规划后一步要做的就是选一些辅助的工作，只是入手的角度不一样。前面是对原数据的辅助，后面是辅助类似于内容整合和内容编排。2019年，新的探索项目会产生，类似智能编排。基于之前布局了智能标签，智能场景化的原数据，人工智能就能有序完成推荐。

Q：图像识别与图像语义或者是行为识别之间是什么关系?

侯希明：图像识别是一个非常广的概念，刚刚提到的是指人脸的范畴。目前，虽然有很多人在做物体识别的研究，但是行为识别也逐渐受到关注。例如，微软正在研究人走动的时候，根据人走动时的形状来推测行人的行为。虽然人脸识别技术已经相当成熟，但是在物体识别和行为识别上的研究很早就开始了。关于物体识别和行为的技术，由于物体识别的复杂性，落地到民用阶段还有一定的距离。

Q：人工智能如何解决非规则变化的现实问题?

苏驰：虽然计算机有吞并的能力，但是语音识别和语意的识别都属于阶段性层面的产物。当计算机阶段性的得到一个反馈，反馈有可能是指一个结果或者是一个过程，我们把这一系列反馈称作为系列的输入。值得注意的是，这跟视频一样可以把不规则的东西变成规则，相当于微分进行处理。

Q：随着AI技术应用领域不断扩展，一些有关法律方面的问题应该怎么看待?

王育军：从就业角度来看，人工智能在提高效率的同时，也会造就一些列问题。语音识别系统智能客服产生后，人们可以从繁重的工作中解放出来,客服人员可以做机器的老师，设计规则，标注数据等。人工智能的长处是补足人类不足的新场景。从法律的角度讲，目前人工智能引起关注最多的是用户隐私的问题。虽然人脸检测只应用于辅助阶段，但是对用户的隐私窥探也存在着隐患。例如，小米在使用任何数据时，都要通过两会的审核。

圆桌对话：AI赋能视听视频产业前沿技术，云计算驱动视听体验创新

24小时排行