“说话”间走进“人工智能+”时代

人工智能称得上是当前科技界最为热门的话题之一。无论将其称作“下一个风口”、“最强有力的创新加速器”，还是关于它是否比人更聪明甚至取代人的各种争论，都在说明，人工智能又一次迎来了黄金发展期。

“说话”间走进“人工智能+”时代-DVBCN

与以往几十年技术发展不同的是，这次人工智能的高潮，是伴随着生活和工作的应用而来，因此也有科学家认为，“我们或许是和人工智能真正共同生活的第一代人”。

与人工智能共同生活，语音识别技术就成了其中最重要的一环。未来，会不会出现一幅语言自然交融的场景：人与机器问答自如、说着不同语言的人们实时对话？智能语音技术正带领人类前往其中。

不再是一个需要讨论的问题

　　
在生活中，智能语音不再是新鲜事。

你可以进行语音搜索。比如，对着手机说：“我想给XX打电话”，系统通过识别，立即将电话拨出；或者，你只要对着它轻轻哼唱一段音乐，手机就能搜索出相应的一首歌。

你还可以用语音输入信息。发送手机信息甚至长篇的电子邮件，只需对着电子终端说话，语言就能变成文字输入。

下班路上，你可以通过唤醒语音操控系统，将家里的空气净化器、空调、加湿器等电器调节到最舒适健康的状态。

要开一个重要会议，合作伙伴来自美国、德国、日本等国家，语音识别可以实时将多国语言转化成文字并翻译在大屏幕上，参会者可以直接沟通。

这些语音识别技术不仅已经变为现实，而且每一天都在进步。

“语音最大的优势是，它是人类最自然的交互方式。”前百度研究院副院长余凯曾在接受媒体采访时说道，基于自然语言的搜索请求将会成为移动互联时代的主流搜索方式之一。“如今的语音搜索不同于传统搜索模式，不是基于无关联的几个关键词来反馈结果，而是能够理解用户指令，完成一项完整的任务。”

语音技术曾经并不被人们看好，走过了漫长的蛰伏期。但随着智能手机崛起，语音技术应用也迎来了爆发性增长。

去年6月初，美国“互联网女皇”（Mary Meeker）发布的《2016年互联网趋势报告》也认为，语音将成为最重要的交互入口。去年年初，美国麻省理工科技评论评选出的十大创新预测中，语音接口也被列为第三名，被认为是能解决重大问题、带来全新机遇的希望所在。

你会发现，近几年，苹果推出了Siri（苹果语音助手），谷歌发布了Google Now（谷歌语音服务），微软的Cortana（微软小娜，个人智能助理）也问世了，都希望通过语音助手来打开人工智能的大门。

同样，在中国，已发展了20多年的语音技术，也开始了一个前所未有的快速发展阶段。语音的彻底主流化已经不是一个需要讨论的问题，只是一个时间和习惯转移的问题。

那么，在语音识别率更高、语音合成效果更好的未来，语音会如触摸技术一样，成为人机交互的主流方式吗？

一个漫长的征途

如今，我们离人机交互的时代还有多远？

这是科大讯飞董事长刘庆峰在采访中遇到最多的问题之一，他每次都很坚定地回答：“以语音为主导，以键盘和触摸屏为辅助的人机交互时代正在到来。”

在他描绘的图景里，未来的人工智能会像水和电一样进入每个行业。这其中，“语音是人工智能的重要入口”。

刘庆峰介绍，人机交互的过程中主要包括两类语音技术，一类是语音合成，就是让机器“说话”，产生人造语音。另一类是语音识别，就是让机器听懂人说话，并能像人一样作出反应。

让机器人听懂人说话，并不容易。余凯曾这样解释：传统的语音识别中的语言模型是通过概率来“识别”的，比如用户说“中”字，“国”字紧随其后的可能性很大，其他字的出现概率相对就会小很多。利用不同的概率及数据建立的语言模型能够帮助机器识别语音。但是如果在口语化的环境下，用户语序不同或者有方言口音，就会大大干扰语音的解码识别过程，降低识别准确率。

但让机器像人一样作出反应，更难。很多人不禁问，从接受语音到识别语音，再到理解判断，最后反馈服务结果，机器真的能像人一样思维吗？

机器要能够准确识别语音并像人一样通过理解判断作出回应，需要基于大量的“学习”，通过学习，与人一样根据过去的经验进行判断预测。这种“学习”有两种方法：通过在数据中找寻类似事例来提供解决方案，或是通过归纳出许多数据样本的共性来对这件事情做出判断。这也是语音技术发展的难点。

一切都朝着人工智能的大目标努力，不过，做出一款类似《超能陆战队》里的大白的产品，能够完全理解人类的语言和行为，注定是一个漫长的征途。

将怎样改变世界

　　
近几年，作为国内智能语音的领军者，科大讯飞走红了。

今年6月27日，以报道新兴科技与创新商业为特色的《麻省理工科技评论》发布了“全世界最聪明的50家公司”榜单，其中排名全球第六、中国第一的，不是风头正劲的中国互联网巨头BAT中的任何一家，而是科大讯飞。

在此之前，科大讯飞曾荣获2016中国年度新锐榜“年度企业”，颁奖词是这样写的：语音和语言是它的两大撒手锏，玩语音输入，玩语音翻译，玩体感输入，玩万物互联，教育、家居、医疗、客服、车载、机器人领域无不有它紧急的身影。它的雄心是从“让机器能听会说”到“让机器能理解会思考”，深度改变人类世界。

在位于合肥高新区的科大讯飞总部大楼二层产品展示中心，一块显示屏上不断跳动的数字显示，“讯飞开放平台”正被全国各地多少位用户使用。

“无论在北京还是海南，无论打车或者叫外卖，或者设计一个新的手机APP，背后的支撑都有‘讯飞语音云’。”科大讯飞研究院院长胡国平这样说。“技术永远是科大讯飞的立身之本，我们每年将销售收入的25％投入研发中去，远超其他科技企业3％～5％的平均水平。”

如今，讯飞语音出现在各类会议的大屏幕，讯飞输入法成为互联网人的标配。“讯飞开放平台”终端用户数超10亿，日均语音服务次数突破40亿，第三方创业伙伴超过40万家。讯飞输入法的语音识别准确率达到了98%，不仅一分钟可以输入400字，还支持21种方言识别。在中文语音市场中，科大讯飞占据70%的市场份额。从全球范围看来，语音技术领域超过80%的市场份额已经回到了中国人自己的手中。

看起来并不“宏大”的语音技术，将怎样改变我们的生活？也许可以从讯飞正在落子布局的领域一窥究竟。

在智能家居领域，你不仅能够通过语音下达命令，还能随时咨询问题，比如，烧菜时，你可以问现在该放多少盐？智能家居就会立即回答你。

在汽车领域，汽车智能车载系统飞鱼助理，将全景识别、多轮交互、方言识别等技术应用于汽车，让人可以直接通过语音输入轻松进行导航，收听了解多媒体娱乐信息，对车身进行控制和信息查询等服务。

在教育领域，通过机器自动阅卷技术，原批阅一份需要40分钟左右的阅卷工作，现在只需要3分钟即可完成。此外，目前科大讯飞的人工智能机器已经替代了30%的人工客服，安徽移动甚至有75%的客服内容都被人工智能的机器替代了。

改变，正悄然而剧烈地发生。

　　
很多还处于“弱智能”阶段

“我们很荣幸入选‘最聪明的公司’，但是我觉得，科大讯飞在过去十几年做的几乎每件事都是挺笨的。”在《麻省理工科技评论》揭晓“全世界最聪明50家公司”现场致辞时，科大讯飞高级副总裁江涛说。

用最原始的笨办法打造一家最前沿的公司，这听上去挺有意思。刘庆峰解释：“创业近20年，才迎来起色，走过弯路、受过质疑，能静下心来坐10年板凳的这种决心，我觉得更重要。”

　　
2000年以前，中文语音应用几乎都被国外公司垄断，国内的语音研究机构壁垒森严、力量分散。“中文语音技术要由中国人做到全球最好，中文语音产业要掌握在中国人自己手中。”怀着这个梦想，1999年，以刘庆峰为首的中国科学技术大学十几位毕业生起航创业。

　　
然而，当时的技术并不过关。刘庆峰记得，当时语音合成出来的效果是“一顿一顿”的，连续性不好；而语音识别和语音解析则更多地停留在实验室阶段。

　　
语音技术如何赚钱，初创团队谁都说不清楚。但让机器能听会说，成为创业之初就设定的目标。

　　
2010年，讯飞输入法正式推出，宣告语音听写时代的到来。刘庆峰还记得，一位记者用福州口音尝试了讯飞输入法后激动地说，“中国终于有个像Siri（苹果语音助手）的产品出现了”。

　　
刘庆峰觉得科大讯飞的“笨”也与人工智能这个行业有关。在他眼中，科大讯飞并不是一家互联网公司，而是一家正在爬山的科技公司。“之所以要强调二者的区别，是因为在做人工智能的公司很像爬山者，需要坚持目标、不改方向，一步步地爬到顶峰，我们今天是人工智能公司，昨天是人工智能公司，明天还会是人工智能公司。但互联网公司更像是个冲浪选手，互联网的每一波浪潮都不一样，它要不停地迎接下一个浪潮，如果下个浪潮不是人工智能，也许他们就换了方向。”

　　
刘庆峰呼吁，中国要有更多“爬山型”公司：“你要征服的这个东西要是不可变的。如果你连坚守都没有，你后面做创新是不可能的。”

　　
然而现实却是，在资本的加持下，许多公司纷纷贴上了人工智能的标签。一位企业家曾在演讲中提到，他见到过一家内衣企业，也声称自己是人工智能企业。“这是非常不正常的现象。现在，人工智能领域的泡沫化特别严重。”

　　
科大讯飞执行总裁胡郁认为更需探讨的问题是，在中国，目前的人工智能技术还处于“弱智能”阶段，大多还只能达到语音助手的水平，要想获得与人类大脑类似或同等的智慧，拥有自主学习、举一反三的能力，人工智能还需要将深度学习、大数据等技术相结合，实现“涟漪效应”。

　　
“我们的很多创新其实只是停留在应用或者技术层面上，但没在科学的层面上去发现和创新，在人工智能的研究上，学术界的理论深度还应加强，如果我们只停留在技术层面的话，不可能创造未来。”

　　
的确，故事才刚刚开始，从基础研究、技术发展，到未雨绸缪建立人工智能相关的伦理规范，人工智能的未来，还面临着无数挑战和变化。

　　
对话

　　
“人工智能+”时代什么样

　　
解放周一：大潮来临时，人们总是喜欢将目光放在谷歌、苹果、BAT、小米这些满身光环的企业身上，直到明星企业家罗永浩在自己的产品发布会上对“讯飞输入法”演示之后，大多数人才意识到：这可能是“离智能时代最近的中国企业”。那么，为什么是科大讯飞呢？

　　
刘庆峰（科大讯飞董事长）：1999年，我们刚创业的时候，很多人都质疑我们：十几人的团队，怎么可能成功？但不到20年来，我们从被质疑能不能生存下来到成为人工智能领域的牵头者，体会就是一句话：走着弯曲的“直线”，每一步成长都充满艰辛和曲折。所有的但凡有前瞻性重大意义的技术，无不经历这样一条特殊曲线。

　　
2016年是人工智能正式提出60周年，而前60年可以说中国力量基本是缺席的。2016年底，科大讯飞首先在发布会上提出我们已经从“互联网+”时代进入到“人工智能+”时代。这次发布会，3000人的会场来了5000多人，100多万人在线观看，第二天发布会现场视频的传播超过600万。2016年成了中国人工智能元年。

　　
除了在中国，人工智能大潮已经在全世界势不可挡，从实验室走向了产业，从专业领域走向了开放的消费类市场，从大城市走到了乡村。尽管中国不是人工智能的策源地，但在当前这一轮语音识别技术的爆发中，中国第一次同科技发达国家站在了同一起跑线上。

　　
解放周一：在语音识别领域，我国已经跻身世界先进行列，但在人工智能的其他方面，是不是距离国际先进水平还有一定的差距？

　　
刘庆峰：一定意义上，面对人工智能，中国和美国几乎同时进入了无人区，包括技术持续创新的无人区，在应用中摸索的无人区，以及配套的政策、法规、论理、人文的无人区。这是一个非常令人激动的时代机遇。但中国的产业界、媒体界对人工智能了解更多的是应用特性和娱乐特性，而美国则深入钻研人工智能的理论研究，这些研究成果大多难以产业化，但却是最原始的理论基础上的创新。

　　
为什么中外人工智能领域的差异这么明显？国内人工智能学术界因为要跟产业对接，所以做了许多技术应用和创新；而产业界还没有更加深入、原创的研究能力，所以很少有单位能做整体性的系统创新。

　　
所以，中国的人工智能研究应该从两个方面发力：研究院所、高校应该更加着重于理论钻研，而产业界不仅要应用人工智能技术，还应该去做技术方面的大规模的融合创新。

　　
解放周一：您说，我们已经从“互联网+”时代进入到“人工智能+”时代。“人工智能＋”是一个怎样的时代？

　　
刘庆峰：“人工智能+”时代已经到来了，2016年是中国人工智能元年，2017年是人工智能应用落地年，我们已经走上了“人工智能+”的赛道。

　　
我曾经去安徽省金寨县的小学待了两天，非常有感触，我一直想，如果人工智能能使每一个乡村学校都拥有和城市学校一样的名师，中国教育将会怎样？通过“人工智能+教育”就能实现，中国的教育会往上迈一个大台阶。

　　
“人工智能+医疗”呢？现在通过学习，我们的人工智能已经可以达到一线医生的水平。我们的目标，是要让人工智能今年能在全球首次通过国家执业医师资格考试。

　　
“人工智能＋法治中国”，目前已经在电信防诈骗领域运用一些技术，并已取得成效。通过人工智能进行辅助量刑，使得一线的检察官具备了大法官、大检察官这样的公平判案的能力和水平，使得人工智能自动检查公检法体系证据链完备，防止冤假错案。

　　
我们提出：要通过人工智能为每个人赋能。在第三次人工智能的产业浪潮中，我们会不会失业？我们能干什么？“人工智能+个人”，就是我们未来要做的。围棋高手和AlphaGo之间比赛围棋是没有意义的，应该是每一个围棋高手都带一个人工智能助手，相互去PK。也就是说，未来，人工智能会成为每个人都能触摸的助手。所以，今天我们在研发和产业设计中，就要考虑人机协同的机制，不仅包括脑机接口，而且是人脑智能和机器智能的协作职能，这也是人工智能的伦理和人文道路的选择。

　　
要让每一个人站在人工智能的肩膀之上，而不是被时代所淘汰和颠覆。

“说话”间 走进“人工智能+”时代

24小时排行

“说话”间走进“人工智能+”时代