近日,微软公布的一篇新论文提出了一种新架构,它的内部表征(在执行文本问答任务时通过端到端的优化来学习的表征)可以用语言学理论的基本概念来解释。这篇论文的作者之一邓力目前已经离开了微软,加入了对冲基金巨头 Citadel 任首席人工智能科学家。
论文内容:
我们介绍了一种新架构,它的内部表征(在深度学习网络中通过执行文本问答任务来端到端优化而学习到的表征)可以用语言学理论的基本概念来解释。这种可解释性相对于新的基于原模型的准确度只有几个点的降低(BiDAF[1])。被解释的内部表征是张量积表示(Tensor Product Representation):对于每个输入词,模型选择一个符号来对词进行编码,一个放置符号的角色(role),然后将它们绑定起来。这种选择是通过软注意(soft attention)模型实现的,总体的解释是由符号的解释所构建的,与训练模型利用的一样,模型也利用对角色的解释。
我们发现了对初始假设的支持,即符号可以被解释为词汇-语义词义(lexical-semantic word meanings),而角色可被解释为对语法角色(或类别)的近似,例如主语、问词、限定词等。通过非常详细的、细粒度的分析,我们发现了在学习到的角色和又标准解析器 [2] 分配的词性之间的特定对应关系,并且在模型的帮助下找到了几个差异。在这个意义上,该模型可以在仅有无语言学相关注释的文本、问题和答案的情况下学习到语法的重要方面:模型没有先验的语言学知识。该模型仅有使用符号和角色来进行表征的方式和以一种大致离散的方式有利于这种使用的归纳偏置。