迪士尼研究所和几所大学的研究员们撰写了一份新报告,报告称能通过深度学习来程序化制作语音动画。这种系统从人类演讲的音频材料中抽样,再自动产生搭配的口型动画。这种方法应用方面很广,能提高语音动画制作的效率,能在社交VR设置中通过实时模仿演讲做出更像的社交vr交互,不胜枚举。
研究者们来自于迪士尼研究中心,东安格利亚大学,加利福尼亚大学,加州理工学院和卡内基梅隆大学,一起撰写了一篇名为“深度学习方法产生语音动画”的文章。这篇文章写到有一种系统能通过“深度学习/神经网络”的训练,用八个小时读取某一位说话人的参考画面(2543个句子),最后通过各种演讲中的音素和音素的组合教会系统口型。
如下:右脸是参考画面。视频训练后,只基于音频输入,左脸上的嘴根据系统产生口型。
训练过的系统之后能分析任何一位说话人的音频,自动产生相应的嘴型,再应用到产生自动语音动画的脸部模型中。研究者们说这个系统是与说话人独立的,而且能去模仿别的语言。
“通过一种简单而有效的学习方法,系统能自动产生看起来自然的语音动画,并且是与语音输入同步的。我们的方法是:使用变化的的窗口预测,通过精确地捕捉自然动作和可视的协同发音效应,学习任意非线性映像,从音素输入序列到口型动作。这种方法有几大优势特质:实时运作,要求最小参数调音,概括产生新的输入语音序列,易于编辑产生程式化的感情丰沛的演讲,并且与现有的动画重新定向方法兼容。
以前,与动画角色录音配套的动画都是由熟练的动画设计师纯手工制作的。虽然这种系统没法做到你所期待的,像制成动画里一样高还原度的语音动画,但它可以用来制作动画的初稿,或者制作人为无法模拟的语音动画,比如说大型角色扮演游戏中非玩家角色的对话,或是预算低而雇不起动画设计师的项目(教学视频,培训视频,学术项目等等)。
至于VR,这种系统能通过实时模拟用户嘴型,使社交VR更真实。真实的口型轨迹(光学的或其它方式)可能是最精确的模拟演讲方式,但是像这样程序化产生语音动画的系统才是目前实用的方法,除非有一天口型轨迹硬件已经广泛使用了。
一些社交VR应用已经使用了各种系统来模拟口型;Oculus(欧酷来)也提供了一款唇同步插件给Unity,用来通过语音输入模拟口型。但是上文的这种系统,基于新的深度学习,它似乎给语音动画带来前所未有的细节和准确性,意义重大。