人工智能领域再度热闹起来,这一次是因为智能语音助手。
在百度推出DuerOS开放平台后,国安广视搭载DuerOS的新一代G2人工智能机顶盒及智能语音遥控器又落地河北。未来2年内,河北全省预计将有200万+用户享受人工智能带来的生活改变。与此同时,阿里也推出一款内置中文人机交流系统AliGenie的智能音箱,加上腾讯在此前推出的小微智能语音解决方案,智能音箱已然成为BAT的又一战场,而谁能成为中国版的Echo也成为科技圈的一大谈资。
可在业界看来,阿里以及号称要在八月份发布自己的智能音箱的腾讯,更像是智能语音领域一个迟到的“觉醒者”。距离亚马逊Alexa的推出已经有近两年的时间,苹果的Siri、Google的Assistant、微软的Cortana等也在推出时间上占据优势。即便在国内,Fast Company 在去年年底就将百度排在最具创新的 AI 和机器学习企业榜单第三位,仅次于 Google 和 IBM。百度深度语音识别系统Deep Speech2更是入选MIT 2016十大突破性技术。
正如第三方分析机构Canalys分析师贾沫所说,智能音箱对人工智能技术要求很高。尽管目前语音识别方案较为完善,但是在深度学习等人工智能技术上并不是短时间内能够弥补的,只有深耕人工智能才有可能成为大玩家。
这次,百度的DuerOS走在了最前面
巧合的是,在阿里推出“天猫精灵X1”的同时,百度也在其AI开发者大会也首次系统阐述了百度对于AI语音交互领域的重视以及野心,以DuerOS开放平台为支撑,试图在AI领域再造安卓式的操作系统生态。
一个瞄准了智能硬件,一个要做安卓式的操作系统生态,与百度相比,阿里在智能语音交互领域的动作还是晚了不少。
巨头们纷纷瞄准智能音响,在某种程度上确认了科技领域的一个既定事实,即语音将成为下一代交互入口之一,甚至会在某些领域取代现有的图像、动作等人机交互方式。而想要实现这一宏伟目标,仅靠智能音响这一纯粹的硬件产品恐怕是难以实现的,毕竟智能音响还需要经历数据积累、业务完善、云端服务部署等一系列流程。
阿里和百度不同的选择,和两家公司对人工智能的认识不无关系。早在 2013 年年初,百度就成立了百度深度学习研究院(IDL),并在三个月之后在硅谷成立了硅谷人工智能实验室。而在当时,人工智能这个概念在业界方兴未艾,大公司中也仅有百度等少数玩家尝试进行系统性的布局。随着业界对人工智能领域在未来的不断看好,科技巨头们相继改变了对人工智能的态度:如果你失去了这块领地,那你也将失去未来。
从2014年开始,阿里、腾讯等开始陆陆续续布局人工智能领域,试图跟上百度等先驱者的节奏,并导致智能语音交互成为彼此交锋的战场之一。只不过,当追随者还在琢磨智能硬件作为发力方向的时候,百度的DuerOS已经开始了开放生态的探索。
为什么说生态才有未来?
BAT为何要把战火烧向了智能语音交互领域?一个公认的说法是,智能语音交互是基于语音输入的新一代交互模式,因此也被视为是新的物联网入口。
诚然,作为一种新型的人机交互模式,智能语音交互可以实现人机对话,即通过说话就可以得到反馈结果。将智能语音系统搭载终端硬件,在这样的“配合”下,制造商们得以进入家庭的每个角落:在客厅看电视,在卧室吹空调,在厨房用冰箱,而这些也将成为物联网时代下人机共处的具体场景。
换而言之,如果语音交互取得广泛应用,智能语音系统企业获利的同时,还将带来从元器件到内容服务全产业链的重构。对此,百度也直接放言,对话式人工智能系统DuerOS将成为百度在下一个时代重回巅峰的核心。
然而,要实现这样的场景,不仅需要深耕语音语义识别技术,还需构建完善的生态。从PC时代的Windows,到移动互联网时代的安卓和iOS,再到智能语音时代的百花齐放,巨头们一直想要实现的就是打破信息孤岛,而开放往往被证明是最正确的答案。在人工智能时代有着同样的商业逻辑,在系统级层面进行开源和开放,吸引足够多的服务和硬件合作伙伴,连接起更多的终端和数据,最终实现“万物互联”的场景。
为了构建生态,百度做出了两个重要举措,一是收购了专注语音唤醒和自然语音交互技术的人工智能创业公司KITT.AI,并相继发布了DCS(DuerOS Conversational Service)和DBF(DuerOS Bot Framework)两大基础协议,使得DuerOS成为国内软硬一体的“最全”解决方案;二是百度在硬件上跟科胜讯、英特尔、MTK、Rockchip、全志、RDA、Realtek、高通等公司合作推出了不同的开发套件,包括套件的个人版、轻量版、标准版以及开放电路板设计、开放结构设计等完整一体化参考设计,以吸引更多硬件厂商的加入。
百度的做法有何启示?
当然,在人工智能的风口下,试图从系统层面做开放的绝不止百度一家,包括科大讯飞、云知声等也有所尝试,但百度的做法押对了吗?
百度将DuerOS开放平台分为智能设备开放平台、对话核心系统、和技能开放平台三层。简而言之,对话系统提供算法能力,比如语音技术、自然语言处理技术、搜索技术、多轮对话技术等能力,以及知识图谱等大数据;技能层,整合了音乐、有声、新闻、娱乐等10大类、100多种生对话技能和爱奇艺、懒人听书这类第三方内容资源,免费开放给开发者;算法层就是上文所提到的几种软硬结合的解决方案。
不难理解百度的野心,通过这些开源的技术和服务,开发者们可以实现不同场景的智能应用,轻松设计出满足自己需求的产品,而非局限在“音箱”的形式上。语音交互平台搭载终端硬件,成就更多的智能产品,进而搭建起良性的生态产业链,这才是百度现在和未来的发力重点。
能够证明这一策略行之有效的,或许还是亚马逊Echo的成功。Echo在发布之初似乎并不讨市场喜欢,即便在音质输出和设计方面均不输专业级产品,亚马逊还推出了一套完整的音乐流媒体服务。而当诸多的开发者接入Echo,亚马逊也尝试着将Alexa开放给更多开发者,使得这款智能语音助手更加“好玩”的时候,销量便开始一路水涨船高。
DuerOS的讨巧之处在于,只需要修改17行代码,就可以在几秒钟内把搭载亚马逊Alexa的设备迁移到百度DuerOS,极大地方便了开发者的“阵地转移”,尤其对国内的开发者而言,而在这之前,整个过程至少需要五个研发人员花费3到6个月的时间。百度度秘事业部总经理景鲲也因此向开发者公开呼吁,在中国选择DuerOS。
总的来看,BAT等巨头们拥抱语音交互已经是不争的事实,只是阿里在生态的搭建上则多少显得有点瞻前顾后,虽然推出了AliGenie平台,但与百度DuerOS鼓励第三方开发产品合作共赢不同,阿里的重心还是自家产品。而腾讯在这个领域还尚未形成清晰的战略布局。以至于有业内人士对此分析称,从策略上来看,百度的DuerOS是大生态战略,而天猫精灵X1等几乎就是照抄Echo。
那么问题来了,阿里和腾讯是否会二次觉醒,在智能语音呀领域再次跟着百度DuerOS的节奏走起来吗?