小米王育军：语音技术在小米

2018年11月28日，第六届中国网络视听大会在成都盛大召开，大会以“凝心聚力创造美好新视界”为主题，邀请300余位重量级业界嘉宾进行分享交流。11月30日下午,由金山云承办的“AI赋能俯瞰视界”人工智能应用发展论坛上，小米人工智能与云平台语音总监王育军做了题为《语音技术在小米》的演讲，介绍了小米是如何运用人工智能，让语音技术快速成长的，以及在这个过程中，又实现了怎样的产品和算法创新。

图为小米人工智能与云平台语音总监王育军

在演讲的开始，王育军首先感谢了小米公司，因为对于做语音的人来说，小米有最多的语音用户场景，每天有大量的语音的需求和数据。

小米的“ABC”业务

王育军表示：“说到人工智能电视就不得不提语音，因为它是电视的基础。去年3月,小爱同学已经应用在电视上, 如今小爱同学不仅是单纯的音箱，还是人工智能的载体，我们内部管它叫人工智能的OS。”

据王育军介绍：“从2012年的大数据云服务到2017的人工智能，小米的业务主要是围绕人工智能，大数据、云技术，简称ABC。”目前小米在线活跃的智能设备数有1.32亿，线下的小米之家遍布世界，仅在国内就有超过500家的小米之家。

小米的语音识别业务

小米从去年2月份开始成立语音组，首先研究的就是语音识别。王育军表示：“我们结合小米数据的特点，不断迭代线上的语音识别数据模型，并在11月份把大部分语音场景接入小爱同学，同时跟金山云和英伟达合作把线上的服务都GPU化。”

关于小米语音识别和电视，王育军表示：“我们做语音的有一句话：得电视者得语音，因为电视的场景特别窄，而想要把电视做好，有两个关键模型，一是声学模型，一个是语音模型。我们把用户习惯的搜索数据进行改变，就成了语音模型的材料，这些可以形成种子模型。”

有了种子模型、电视模型之后，小米把目光放在了手机场景上，王育军表示：“因为手机是近场的设备，我们可以通过手机了解和获取用户的说话习惯和发音习惯。沿着这个思路我们把语音的业务扩展到儿童，因为在节假日期间，电视的观看用户有50%的是儿童。”

小米遵循的开发模式

目前小米内部遵循的开发模式还是一个测试集，这个测试集对于已经上线的产品会从线上随机抽取线上的语音请求进行测试。由于它是随机抽取的，它真实反应了大部分用户的说话习惯和线上大部分用户的请求分布。在这个测试集上，语音识别业务和语音唤醒业务，把测试集的准确率做高，任务就会做高。王育军表示：“有了这个测试集之后我们会搜集数据把它放到群里边进行迭代，最后模型迭代的结果会检测出结果是否可行，整个过程大概是6个月。”

据王育军介绍：“对于端对端的唤醒来说，我们在训练的时候会把注意力放在朝向用户的麦克风上，即把注意力放在熟知的说话人身上。对于噪声抑制，我们会放到噪声干扰小的格子上。说话人自适应是老技术，因为在小米有大量的用户场景。对于没有上线的业务，我们有大量的米粉自愿帮助我们做大量的实验。”

在演讲的最后，王育军表示：“我们做项目交互的同时一直把注意力放在研究上，一边做业务一边做研究是非常难的，但我们会一直持续这样的模式。”

小米王育军：语音技术在小米

24小时排行