微软采用了对偶学习(dual learning)、推敲网络(deliberation networks)联合训练(joint training)和一致性规范(agreement regularization)的技术组合。对偶学习和推敲网络此前已经发布,此次新增了后两项技术。
根据微软的介绍,对偶学习类似与人类翻译的“回译”,将中文翻译成英文后,系统会将相应的英文结果再翻译回中文,并与原始的中文句子进行比对;推敲网络顾名思义,是机器翻译的不断推敲修改。
联合训练则可以理解为用迭代的方式去改进翻译系统,用中英翻译的句子对去补充反向翻译系统的训练数据集,同样的过程也可以反向进行。一致性规范则让翻译可以从左到右进行,也可以从右到左进行,最终让两个过程生成一致的翻译结果。
目前微软的这一翻译已经开放(地址:https://translator.microsoft.com/neural/),实际使用中运行可能偏慢。微软会显示两种翻译结果,从实际测试来看,微软修正后的翻译系统(右),显示出了相对更高的翻译水平。
微软亚洲研究院副院长、自然语言计算组负责人周明表示,仍有很多挑战有待解决,例如在实时的新闻报道上测试翻译系统。
考虑到中文的复杂性,中翻英常被用于考验机器翻译的水平。而近年来机器翻译水平的突飞猛进,人工智能的深度神经网络学习功不可没。
2016年9月,谷歌翻译就宣布在翻译系统中引入神经网络,令中翻英更为流畅自然。
神经网络的学习,以谷歌的机器翻译为例,翻译不再以单词为单位,而是以整句为单位,兼具单词的意义和合适的语法。这种深度学习不但能提升翻译水平,还在自动驾驶等其他需要人工智能的领域,有重要作用。
不过,机器翻译软件的英翻中水平,似乎还是有些堪忧……