该系统对人类说话录音进行采样,并使它自动生成匹配的嘴型动画。该方法可以应用到从提高管道动画的效率到使VR社交更有说服力,它可以在VR社交中实时化地呈现角色的演讲内容。
迪士尼研究所、加拿大东加利福尼亚理工大学和卡内基梅隆大学的研究人员撰写了这篇题为《广义语音动画深度学习方法》的论文。论文描述了一种已经用“深度学习/神经网络”方法训练的系统,利用单个扬声器8小时的参考画面(2543句),教导系统根据不同的语音单元(称为音素)配合生成不同嘴型及其组合。
经过训练的系统可以自主分析来自任何扬声器的音频,并自动产生相应的嘴型,然后将其用于动画模型的自动语音生成。
在VR中,该系统可以通过用户语音实时对应虚拟角色的嘴型,使其更加逼真。
一些社交应用已经在使用各种系统进行嘴形跟踪。Oculus为Unity提供了一个嘴型同步插件,其原理是基于音频输入来确定角色说话嘴型。然而与迪士尼提供的新系统相比,细节性和准确性都差了些。