Facebook使用AI来实现文字转语音系统

智慧广电 dvbcn编辑 2017-09-11 11:38 阅读 4,713 来源：DVBCN 　

在人工智能领域中，语音也是AI技术的一部分，说到语音合成，它是通过机械的、电子的方法产生人造语音的技术。TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

据媒体报道，Facebook研究员开源了其在今年七月发表的一篇论文中的语音合成方法。在论文中，他们提出了一种新的文字转语音的神经网络方法，可以将从开放场景下采样到的声音中提取的文字转化为语音。

说到神经网络，该技术基于新的移位缓冲内存储器区，评估使用者注意力，计算输出音频，以及自身的更新，可用于在开放场景下采样到的声音转化成文字，再转化成语音。该技术的网络架构比现存的同类架构要简单。

此外，通过使用与上下文无关的查找表对输入语句进行编码，该表的每个条目包含一个字符或音素。同样，能通过一个短向量来表示说话者，这个短向量也适用于新说话者。而且在生成音频之前，优先准备好缓冲区可以使生成的语音具有可变性。