当语音识别撞上方言,谁比谁懵逼?

2017-08-04 16:18:33 来源:慧聪安防网 热度:
这几年,各种各样的技术和产品,就像地里的稻谷一样,火了一茬又一茬。这不,近段时间,智能音箱又开始强势崛起,巨头们纷纷瞄向智能音箱市场,引起了新一轮的血雨腥风。
   
这一切源于近两年智能家居开始流行的“解放双手”,在这“解放双手”的过程中语音识别是最关键的一环,有很多人断言没有语音识别的的智能家居系统都是假智能家居。人们对于语音识别未来的发展充满了信心,甚至在“语音识别”的百度百科中有这么一句话:人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。当然,小编同样是语音识别的脑残粉,对语音识别未来的发展前景充满了美好的想象。不过,在充满信心的同时,小编我不禁对一个问题充满了好奇:那些语音识别的巨头企业一直在告诉大众:我们的识别率已经达到了95%了97%了,99%了,99.9%了!看他们打了鸡血似的不断更新这个数字,真是一件可喜可贺、喜大普奔的事情。但是,小编却想歪个楼,识别率99%的语音识别搞得定方言吗?
   
讨论语音识别方言识别率的必要性
   
小编绝对不承认,这个问题的讨论仅仅是基于小编本人无处释放的无聊。所以我们就先来确定一下讨论这个问题的必要性。对于国外的情况小编不是很了解,那咱们就来探讨一下中国的方言情况。小编还记得大学时期《方言学》上课的第一天,我们那个漂亮的女教授说的第一句话就是:我想大家一定都听过“十里不同音,百里不同俗”吧。十里不同音,这就是中国的语言现状。在中国,很多的人们说着彼此几乎无法交流的语言,作为南方人小编深有感触,也许真的走出自己家的小镇,就听不懂当地人说的是什么了。普通话的普及也不过短短几十年,各种方言混杂的情况实在是太常见了。
   
那中国究竟有多少种方言呢?中国共有56个民族,除了回族没有自己的语言之外,其他所有民族都有自己的语言,这就有50多种,但这并不是全部,因为在各个方言区中又分布着多种土语。据不完全统计,中国至少有80种以上的语言。除此之外,由于受到方言的影响,很多人的普通话会有一定的口音存在。其实对于这一点,小编真的很有话语权啊,因为小编平时对一些企业管理者进行采访之后,用语音识别软件将录音转录出来时,小编就发现口音对于语音识别的干扰真的是非常非常大的啊。但是然并卵,小编的软件账号丢失了,所以这些记录都找不回来了,无图无真相啊。
   
语音识别的原理
   
好了,先忽略口音的问题,让我们回到方言识别这个问题。我们先来看看语音识别的技术原理,所谓语音识别,就是将一段语音信号转换成相对应的文本信息(我们这里不讨论作为安防手段的声纹识别,而是讨论以人机交互为目的的语音识别),系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
   
作为语音识别的前提与基础,语音信号的预处理过程至关重要。在最终进行模板匹配的时候,是将输入语音信号的特征参数同模板库中的特征参数进行对比,因此,只有在预处理阶段得到能够表征语音信号本质特征的特征参数,才能够将这些特征参数进行匹配进行识别率高的语音识别。若果让小编用一句话来进行总结就是:对语音识别来说,给它足够的数据量进行学习是关键。
 
语音识别的方言识别率究竟如何?
   
那语音识别对于方言的识别情况究竟怎么样呢?在写稿的时候,小编就近找了两个同事(一个是湖北赤壁人,一个是湖南长沙人以及小编本人是湖南邵阳人)跟我一起进行了一个简单的测试。
   
小编截取了这篇文章中的一段文字:那中国究竟有多少种方言呢?中国共有56个民族,除了回族没有自己的语言之外,其他所有民族都有自己的语言,这就有50多种,但这并不是全部,因为在各个方言区中有分布着多种土语。因此,据不完全统计,中国至少有80种以上的语言。
   
小编让同事分别用自己家乡的方言念了一遍这段话,然后用微信的语音转文字进行转写,测试结果如下:

 
湖南长沙同事的测试结果



湖北赤壁同事的测试结果
 
然后,小编其中一个多才多艺的同事表示,这样的测试结果太惨绝人寰了,而且她觉得这样催人泪下的结果,主要是因为我们说的话都太土了,于是她又用标准的武汉话念了一遍……
当语音识别撞上方言,谁比谁懵逼?
   
我还能说什么呢?微信用的可是现在最火的讯飞输入法。最后,小编又用普通话念了一遍这句话,算是为语音识别强力挽了一把尊,99%的识别率其实并不算是吹的。
 
   
当然,小编的这个讨论是国际化的,不可能仅仅局限于中国方言,接下来我们来看看国外的情况。不久前,一位来自美国的消费者最近投诉亚马逊Alexa:它并不能识别自己老妈的口音。“这些软件似乎听不懂我在说什么。”这位母亲如是说。面对母亲的抱怨,这位美国消费者决定向亚马逊反应这一问题。这件事情肯定会让人想起Siri,尽管苹果在每次发布会上都似有似无的提到一句“我们又提升了Siri的识别率”,但实际效果正如大家所看到的这样,有的时候它真的无能为力。不仅如此,小编记得在看《非正式会谈》的时候,其中一个日本嘉宾就嘲笑过另一个日本嘉宾的大阪口音,而一个美国嘉宾也嘲笑过一个美国嘉宾的俄亥俄州口音,所以说这个方言和口音的问题真的是一个全球性的问题,语音识别任重而道远啊。
   
慧聪安防网总结
   
虽然小编在前文中说,这篇文章源于小编的无聊,但是小编必须严肃地说:我所讨论的这个问题是具有非常大的现实意义的。以中国为例,因为普通话的推广时间太短,导致很多上了年纪的人基本不会讲普通话,而且,这样的人群并不在少数。当然,现在很多语音识别系统都会考虑到方言的搭载,但是不得不说这是一个很漫长的过程。
   
但是这还不是语音识别应用推广最大的问题,事实上,在小编看来,口音问题可能会是语音识别应用更大的问题。和在这个测试中,小编与同事使用纯方言这样极端的情况不同的是,口音问题在我国是一个非常普遍存在的问题,尤其是在我国南方,很多人都带有口音,而小编的经验告诉我,对于这些有一定口音的普通话识别,语音识别技术很难做到99%,能达到70%的识别率就很不错了。或许这会是小编的下一篇原创的主题,不过前提是我得先把讯飞听见的账号找回来。

责任编辑:吴一波

相关推荐

浦城法院启用庭审智能语音识别系统

“现在开庭!”12月19日上午,随着一声清脆的法槌声,一起定金合同纠纷案件在浦城县法院开庭审理。审判员话音未落,电脑显示屏上就同步出现汉字:“审判员:现在开庭”。与以往不同的是,这次庭审看不到书记员在忙碌的打字记录,但电脑显示屏上记录着庭审中审判员和诉讼参与人说的每一句话。庭审一结束,当事人就可以核对后在庭审笔录上签字。笔录怎么形成的呢

西媒:中国人工智能实力可比肩美国 “双寡头”局面已到来

西媒称,扩音器识别出了使用者的声音,并逐渐降低了音量;在人声的指挥下,窗帘打开或关闭,空调系统依据指定的温度开启,吸尘器自动关闭。科大讯飞是一家专门从事语音识别技术研发的公司,旗下拥有约2000种使用语音识别技术的产品。中国政府已经正式将该公司认定为人工智能领域的领军企业。据西班牙《国家报》网站12月24日报道,中国正经历一场真正的人工