7月27日消息,在中国,研究人员往往把2017年称之为交互式计算元年。无论是语音识别技术还是自然语言处理技术,都取得了巨大的进展;无论是阿里巴巴还是百度都在开发语音通信相关技术,而两家的语音交互式产品都已经进入了市场。
阿里巴巴发布的天猫精灵(Tmall Genie)智能音箱与亚马逊的智能音箱产品Echo类似,内置了阿里巴巴的数字助理阿里精灵。用户可以通过语音来在线下单,查询当日天气,播放音乐或是控制家中的其他智能设备。
同样,百度旗下的DuerOS语音交互式平台也是一种数字助理,不同的是其将电视机顶盒以及HTC智能手机等产品功能融入其中。除此之外,DuerOS与阿里精灵等数字语音助理的功能类似。百度称已经获得了DuerOS开发套件的大量订单。
百度DuerOS业务部门主管Kun Jing预计,由于亚马逊Echo等智能音箱的成功刺激到中国科技投资者的兴趣,今年将会有更多公司进入语音交互领域。
市场研究公司IDC预计,到2020年,51%的自动驾驶领域、68%的智能手机和可穿戴设备都将整合进基于语音交互的人工智能系统。Jing认为,正如触控屏让用户与移动设备的交互更为便捷一样,会话界面将会使交互更加自然,吸引更多用户进入互联世界。
基于语音的交互式计算对于中国来说也是一个选择。目前在标准化键盘上输入汉字,主要依赖于汉字发音的汉语拼音。但由于中国普通话有四个音调,而每个音调的汉字都代表着不同的含义,这导致用户必须从菜单中挑选出正确的汉字。像“yi”这样的发音对应的汉字多达60几个。当然,一些输入法可以根据上下文输入来确定最有可能的汉字,但准确率依旧不尽人意。因此,微信用户经常会通过语音聊天而不是输入汉字,也就不足为奇了。
现在,语音助理技术能够将用户的发音转换成文本命令,并根据文本的含义来做出相应。这一技术对基于任务的命令非常有效,比如可以查询天气情况或是查询特定汉语的英文翻译,但目前还无法进行多主题的流畅对话。
不得不承认的是,中文语言的复杂性仍是解决会话计算问题的巨大挑战。在汉语言中,相同汉字排列顺序不同,其含义也不同。甚至于即便以相同的次序排列汉字,前后文意思不同也会导致语义不同。此外,书面汉语并不像英文单词那样用空格加以划分,因此对于汉语言的自然语言处理来说,研究人员必须要让算法在汉字之间插入空格,从而确定汉字组合的正确含义。何况汉语还没有时态之分,没有过去式、现在或是将来之分,这使得机器分析用户要表达的时间更为困难。
除此之外,面对汉语,自然语言处理研究人员还需要应对方言等其他挑战。很多方言晦涩难懂,没有固定的搭配。
专门研究自然语言处理的清华大学副教授吴志勇(音译)指出,为了能真正理解讲话者的意图并进行适当的沟通,计算机需要对讲话者的语调变化以及重音节进行深入分析。而清华大学副教授贾佳(音译)则认为,计算机还需要理解人类情绪,因为人们在做决断时往往并不是完全依赖于逻辑。
为了让其系统更加智能化,今年百度在其平台上引入了“培训师”模式,允许软件开发人员通过系统内置的注释机器人提供语言处理的相关数据。注释机器人在收到开发者的反馈之后,会从中进行学习,然后对结果进行更正。
对于中国的自然语言处理研究人员来说,其最大的优势在于规模化的数据。当前支持自然语言处理的神经网络需要大量的数据训练。公司拥有的数据量越大,神经网络的智能化程度就越高。诸如百度和阿里巴巴这样的公司都得益于其拥有的庞大用户群。截止2016年底,百度月平均用户数位6.65亿。而截止到今年三月份,阿里巴巴月平均用户数位5.07亿。
但阿里巴巴人工智能实验室研究人员王刚(音译)表示,研究人员需要设计出这样一种高效率的神经网络,无需大量数据训练就能够从容处理自然语言。他认为,在现实世界中人们往往会用不同的方式表达同一个意思,机器无法通过训练穷举所有例证。他和同事曾提出一种让机器在较少数据训练情况下学会理解主题的方法:也就是使用相关主题的数据。比如在训练神经网络进行运动医学方面的自然语言处理时,大可以利用运动数据以及医学相关数据。王刚指出,这种方法的效果不及使用特定数据。但在缺乏相关数据的情况下,也可以通过这种方法来训练神经网络。
总之,就像Ainemo创始人宋晨枫认为,在中国市场智能语音助理成功的关键在于内容和服务。该公司曾于今年六月份发布了一款名为“小鱼”的家用语音助理机器人。
宋晨枫计划在智能语音助理中添加教育和保健的相关内容。据悉,“小鱼”家用语音机器人采用了百度的DuerOS会话平台。宋晨枫指出,语音为包括老人和幼儿在内的特殊人群访问互联网提供了新的内容和方法。