注意力机制 EMNLP 2018 | 为什么使用自注意力机制？

选自arXiv

参与:道路

最近，非循环架构(CNN，基于自我注意机制的Transformer模型)在神经机器翻译任务中的表现优于RNN，因此有研究者认为原因在于CNN和自我注意网络连接远距离单词的路径比RNN短。本文对NMT领域最流行的三种模型:CNN、RNN和自我注意机制进行了评价，发现实验结果与上述结论不一致。本文已被EMNLP 2018接收。

许多不同的体系结构对神经机器翻译是有效的(NMT)，来自循环体系结构(Kalchbrenner和Blunsom，2013；Bahdanau等人，2015年；Sutskever等人，2014年；Luong等人，2015)到卷积架构(Kalchbrenner和Blunsom，2013；Gehring等人，2017)和最近提出的完全自我注意(Transformer)模型(Vaswani等人，2017)。由于框架之间的比较主要基于BLEU值，因此很难找出哪些架构特性在本质上有助于BLEU值。

循环神经网络(RNN)(埃尔曼，1990)可以很容易地处理可变长度的输入句子，因此它是NMT系统编码器和解码器的自然选择。RNN的大多数变体(如GRU和LSTM)已经解决了训练循环神经网络的长距离依赖问题。Gehring等人(2017)介绍了一种编码器和解码器均基于CNN的神经架构，并报道其BLEU值高于基于RNN的NMT模型。此外，在模型训练期间，可以并行执行所有的分词计算，提高了计算效率。Transformer模型是Vaswani等人(2017)提出的，完全基于注意层，没有卷积和循环结构。他们报告说，该模式在英德和英法翻译中实现了最佳的BLEU值。而BLEU值指数比较粗糙，无法帮助观察不同架构如何提高机器翻译的质量。

为了解释BLEU值的增加，前人的研究进行了理论论证。Gehring等人(2017)和Vaswani等人(2017)都认为，神经网络中相互依赖的元素之间的路径长度会影响模型学习这些依赖关系的能力:路径越短，模型越容易学习这种依赖关系。这两篇论文认为《变形金刚》和CNN比RNN更擅长捕捉远距离依赖。

然而，这种说法只是基于理论上的论证，并没有得到实验的验证。作者认为无环网络的其他能力可能对其强大的性能有很大贡献。具体来说，作者假设BLEU值的提高依赖于CNN和Transformer这两个具有较强语义特征提取能力的媒体。

本文评估了三种流行的NMT体系结构:基于RNN的模型(用RNNS2S表示)、基于CNN的模型(用ConvS2S表示)和基于自我注意的模型(用Transformer表示)。受上述关于路径长度与语义特征提取关系的理论陈述的启发，研究人员评估了三种模型在主谓一致性任务(需要对长距离依赖进行建模)和词义消歧(WSD)任务(需要提取语义特征)上的性能。这两项任务基于对比翻译对测试集Lingeval97 (Sennrich，2017)和ContraWSD (Rios等人，2017)。

本文的主要贡献如下:

检验了这一理论断言：具备更短路径的架构更擅长捕捉长距离依赖。研究者在建模长距离主谓一致任务上的实验结果并没有表明，Transformer 或 CNN 在这方面优于 RNN。通过实验证明 Transformer 中注意力头的数量对其捕捉长距离依赖的能力有所影响。具体来说，多头注意力对使用自注意力机制建模长距离依赖是必要的。通过实验证明 Transformer 擅长 WSD，这表明 Transformer 是强大的语义特征提取器。

论文:为什么要自我关注？神经机器翻译体系结构的目标评估

论文链接:https://arxiv.org/pdf/1808.08946.pdf

摘要:最近，非循环结构(卷积，自我注意)在神经机器翻译任务中的表现优于RNN。CNN和自我关注网络连接长途词汇的路径比RNN短。一些研究人员推测，这就是他们对远距离依赖建模的能力得到提高的原因。但是这一理论并没有得到实验的验证，对于这两种网络的强大性能也没有其他深入的解释。我们假设CNN和自我关注网络的强大性能也可能来自它们从源文本中提取语义特征的能力。我们评估了RNN、美国有线电视新闻网和自我注意网络在两项任务(主谓一致任务和词义消歧任务)上的表现。实验结果表明:1)自我注意网络和CNN在建立长距离主谓一致模型方面的表现并不比RNN好；；2)自我关注网络在词义消歧方面优于RNN和CNN。

图1:不同神经网络的架构1:NMT。

主谓一致

主谓一致性任务是评价模型捕捉长距离依赖能力的最流行的选择，已经在许多研究中得到应用(Linzen等人，2016；Bernardy和Lappin，2017；Sennrich，2017；Tran等人，2018年).因此，我们也使用这个任务来评估捕捉不同NMT架构的长距离相关性的能力。

表2:不同NMT模型的结果，包括newstest2014和newstest2017上的BLEU值，验证集的混淆，以及长距离依赖的准确性。

图2:不同NMT模型对主谓一致任务的准确性。

图3:3:convs 2s模型和RNNS2S模型在不同距离的结果。

图4:在小数据集上训练的变压器和RNNS2S模型的结果。

工作应力设计（working stress design的缩写）

主谓一致性任务的实验结果表明，尽管CNN和Transformer中的路径较短，但CNN和Transformer在捕捉长距离依赖方面并不优于RNN。这一发现与上述理论断言相反。但是，从BLEU值的角度来看，这些架构在实验中表现非常好。因此，我们在WSD任务上进一步评估这些架构，以验证我们的假设，即非循环架构更擅长提取语义特征。