谷歌、百度、微软、Facebook、阿里……我们介绍过很多中美在人工智能领域技术和商业化方面的进展,包括印度、以色列等等地区也出现过不少创业团队。
可这里面似乎没有战斗民族俄罗斯什么事。按理说,俄罗斯有在冷战时代遗留下来的大量科技人才储备,国家对数学、计算机等学科的基础教育也足够重视,强大的黑客团队展示了俄罗斯人资技术上能达到的种种可能。而且天寒地冻的气候,好像也挺适合在家宅着撸代码的。
放眼俄罗斯、甚至整个东欧地区,在人工智能领域最活跃的可能就是Yandex了。
Yandex:把搜索引擎当做技术发展的根本
Yandex是谁?大多数人第一反应是俄罗斯的“百度”。
没错,在1990年,来自莫斯科大学的两位校友阿卡季·弗洛日和阿卡季·勃可夫斯基共同创建了俄罗斯自己的搜索引擎Yandex。“Yandex”一词俄语含义是“Языковой index”(语言索引),是英语单词“Yet Another indexer”的缩写。意味“另一种搜索引擎”。从名字就能感受到两位创始人对英语世界的反抗。
建立了搜索引擎后,Yandex逐渐开始发展为一家全能型的互联网公司:建立门户网站、创立电商平台、与联邦储蓄银行Sberbank合作推广线上支付、代理来自中国的4399小游戏、推出打车平台……基本你能想到的风口,Yandex都没错过。
和谷歌、百度一样,搜索引擎成了Yandex收集语料数据、着手机器学习技术发展的根本。
战斗民族在人工智能上发展如何?
Yandex在机器学习方面都做了什么?
首先,是时下最火的无人驾驶。据称Yandex正在着手研发无人驾驶需要的计算机视觉、语音识别等等相关的技术。目前Yandex选择了丰田普锐斯作为原型车,加上英伟达的芯片、Velodyne的雷达传感器,目标向L5级的无人驾驶冲击。
几个月以前,Yandex还晒出了旗下无人驾驶车的场地测试视频,视频中无人车的表现中规中矩,虽然实现了在无人控制的情况下缓慢驾驶,但也会有难以越过障碍、躲避行人不及时等情况。
Yandex为自己定下了目标,明年要让丰田普锐斯上公共道路测试,同时还和卡车制造商Kamaz、Daimler达成合作,计划推出无人驾驶的迷你公交车。坦白讲,Yandex对于自身无人驾驶技术的披露相当少,俄罗斯本土是否有无人驾驶必备的高精地图也不得而知,俄罗斯的无人驾驶究竟会发展成什么样,目前很难下个定论。
除了无人驾驶,Yandex还“有样学样”的推出了语音助手Alice,以此展示自己的语音识别技术。和Siri、谷歌语音助手一样,Alice可以帮助用户连接出行、购物、支付、新闻、音乐等等服务。
Yandex还给Alice加上了基于神经网络的聊天引擎,让Alice可以在社交网络上学习他人的言论,这一技术的确较为先进。在测试中,Alice甚至还学会了一些政治、暴力方面的不当言论,不过在问题曝光后,这些言论很快被技术和谐了。
除了这些以外,Yandex还开源了机器学习框架Catboost、推出了深度神经网络搜索引擎等等。
分词技术:本土搜索引擎的神器
我们想了解到的是,Yandex是如何战胜谷歌搜索,还在自然语言方面取得了相对前沿的进展。答案或许是因为Yandex独有的分词技术。
所谓分词技术,其实是中文搜索引擎中的技术。即搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
比如在搜索引擎中搜“不知道你在说什么”,就可能分成“不,知道,你,在,说什么”和“不知道,你,在,说什么”等等很多种分法,再到数据库中进行索引。
如何确定分词的方式有很多种,比如正向最大匹配法,按照中文阅读习惯,从左向右分词;又比如最短路径分词法,把一段话切出的词数最少等等。这些只是比较传统的方法,现在还可以利用NLP技术,从语义理解上进行分词;利用邻近算法,看哪些相邻字符出现的频率最多,就按照这样的方式进行分词。
如何战胜谷歌?语言壁垒是关键
同样的概念,在Yandex的搜索引擎技术中也存在,只不过不叫分词技术,叫“морфология”这个词可以被理解为“词形”。
这就要谈到了俄语这门语言的特殊性,和中文、英语不同,俄语中词与词之间的关系通常用词形变化表示,于是,同一个名词可以有12个形式,形容词甚至能达到20、30个形式……所以,俄语中会有动名词、形名词这些奇怪的东西。
于是,因为俄语的特性,在搜索中非常容易引起歧义,对搜索的精度要求也更高。比如машиностроительный这个词,在俄语中意为“机械的”。在谷歌搜索中,可以找到与之完全匹配的网页,却很难找到有关机械形容词剩下的二十多个词形变化的网页。
而Yandex搜索引擎技术擅长的,恰恰就是关键词的多义分析和查找。也形成了一些Yandex独有的搜索方式,比如加上“”即可只搜索指定单词,不搜索变形词,也利用指令只搜索形容词形态、动词形态等等。
俄语属于斯拉夫语族内的东斯拉夫语支,也就是说白俄罗斯语、乌克兰语甚至捷克、波兰等等地方的语言都会都类似的语法形态。而Yandex的分词技术在这些语言中的表现也很出色。
凭借着语言优势上的独有技术,Yandex战胜了谷歌成为了俄罗斯本土最大的搜索引擎。而大量用户使用累积的数据,更让Yandex可以发展机器学习技术对算法进行进一步优化。放到整个NLP技术里也是一样,难怪Yandex可以在语音识别上获得不小的进展。
机器学习给了这个世界一个相对平等的机会,就算技术、资金相对落后,语言上的优势仍然可以树立起壁垒,更别提语料数据这一宝贵的数据。有Yandex的案例在先,是不是意味着那些基于泰语、印度语、阿拉伯语等等小语种的搜索引擎,也会在人工智能领域有着独有的优势?
看来除了中美之外,我们还可以把眼光放到更远的地方。
责任编辑:靳玉凤