声网侯希明：AI+RTC 打造实时互动新体验

2018年11月28日，第六届中国网络视听大会在成都盛大召开，大会以“凝心聚力创造美好新视界”为主题，邀请300余位重量级业界嘉宾进行分享交流。11月30日下午,由金山云承办的“AI赋能俯瞰视界”人工智能应用发展论坛上，声网Agora首席产品架构师侯希明做了题为《AI+RTC 打造实时互动新体验》的演讲，介绍了在人工智能浪潮下，RTC将带来怎样的惊喜。

图为声网首席产品架构师侯希明

声网Agora是一家做实时音视频云服务的公司，在2014年成立，创始团队来自YY，11月份刚刚拿了7000万美元的C轮融资。其产品形态主要是在移动端、PC端和网页端的SDK以及配套的云服务，用户通过集成SDK就可以实现终端之间音视频通话的能力。主要应用行业包括在线教育，直播社交，在线游戏，广电OTT，远程医疗，智能硬件等等，到目前为止在全球拥有200个数据中心，累积连接二十亿终端，日通话在3亿分钟。

侯希明本人在实时音视频领域工作超过了16年，经历了从传统的光碟格式VCD到DVD到蓝光，再到online视频，到CDN单向视频云点播直播再到实时音视频。对于他而言，明显地体会到随着音视频技术的广泛应用，AI技术对于音视频来讲越来越不可或缺，AI的加入使得实时音视频在各个行业的各个场景下的应用更加智能和完善。

这些应用主要体现在以下三点：

第一AI助力RTC提升音视频端到端的质量

众所周知，在视听的角度，一个永恒的主题就是质量，质量的背后是各种高精尖的AI算法。比如在视频领域，视频经历从发出到编码、经过传输再到解码、最后到显示的过程。在视频编码的阶段，通过窄带高清的算法可以把码率降低节省带宽，这是比较常见的智能应用，那在实时音视频有一个条件，全球的网络环境和硬件设备不对等，比如印度网络条件比较差，欧美比较好，国内有不同网络运营商的差异，各种硬件设备能力之间也有差异，发送端有很大的概率发送出非常低清的视频。

那接收端怎么享受高清体验呢?侯希明表示：“通过在解码后，显示之前，插入AI算法，通过识别视频里边的内容进行视频超分，最终在设备端来显示高清的视频效果。

同样AI算法还在提升语音质量上方面也有非常大的帮助，目前声网Agora比较典型的两个应用：一个是场景识别，另外一个是3A算法。场景识别在实时互动分成两个模式，一个是通话模式，一个是音乐模式。侯希明介绍到：“通话模式比如我们常见的会议，要求通话过程语音清晰不卡顿。而音乐模式则更多的是主播在唱歌时，后面有背景音乐放出的场景;在不同的场景下适配不同的音频算法已达到适配场景的最佳质量”。3A算法的应用主要是在智能降噪的处理上，侯希明介绍到：“我们知道现实场景面对面的沟通，即使周围有嘈杂的背景噪声，我们也会忽略这些噪声，专注在沟通本身。但是实时通话的时候，麦克风会把所有噪音收进去了，这时候就要识别把无意义的噪音消除掉，把有效的声音传过去。”

那除了音视频算法本身，实时通话离不开云服务的传输能力，在跨洲跨运营商的多方通话中，如何动态的智能的找到数据传输的最佳路径，也是提供最佳音视频服务的有力保障。

AI除了提升质量之外，声网还可以借助其做质量分析，声网目前推出了“水晶球”产品，可以对云上所有实时通话进行质量分析，实时的检测整条通话链路上的各个模块的运行状况以及对于有问题的质量给出最精确的原因分析，帮助客户在运营侧更好的处理业务逻辑。

第二AI增强RTC实时互动体验

实时音视频传输把线下的场景完整的搬到线上，使得人与人之间在任何时间和地点都可以随意沟通，除了用先进的技术提供最佳的质量体验的同时，AI还增强了交互上的体验。最具代表性的就是人脸识别互动和拟人变声，侯希明介绍到：“人脸识别在实时音视频领域主要体现在三个方面：一是美颜，二是面具变脸，三是情绪识别。”美颜在社交直播领域已经非常的成熟，坊间的说法美颜已经成为亚洲三大邪术之一;再有趣一点的应用就是加上面具表情等;再高阶一点的应用是关于情绪的识别，比如在视频客服的应用上，通过情绪识别来监测客户满意度等。在语音方面，通过声音客制化和拟人化达到各种各样的效果，比如在语音陪聊或者游戏对战组队聊天的场景下，每个游戏玩家都可以是一个萌妹子，跟你谈恋爱的可能是个机器人。

第三AI+RTC可以实现更好的业务闭环

最后，侯希明还谈到了AI如何在实时音视频领域如何实现更好的业务闭环。在广电领域，内容监管尤为重要，这一点在实时音视频领域同样重要。目前最火的监管应用是视频鉴黄和语音鉴黄，假定每5秒钟采取一个样本点进行鉴黄，一亿视频分钟数就会产生12亿张图片，数据量非常庞大，通过机器识别进行快速的分析判断，把有潜在问题的图片再传到人工那里进行二次审核是目前比较成熟的方案。

除了监管，另外一块是业务增值，典型的应用主要是语音转文字和实时语音翻译等自然语言处理功能。应用场景包括视频会议和全球同服的在线游戏等，比如跨国会议和游戏无国界组队等，实时语音翻译和转文字等功能使得沟通无障碍。

侯希明总结到，AI与实时音视频相互融合，紧密相连，是视频发展的大势所驱。在演讲的最后，侯希明表示：“声网主要专注在实时音视频的领域，希望在这样的领域跟更多合作伙伴一起打造生态，把最佳的终端体验提供给最终用户。”