选自arXiv
参与:李亚洲刘晓坤
最近,CMU大学和蒙特利尔大学联合提出了一个新的RNN架构与多级记忆嵌套LSTM。当访问内部存储器时,嵌套LSTM比传统的堆叠LSTM具有更高的自由度,因此它可以处理更长时间尺度的内部存储器。实验还表明,NLSTM在许多任务上优于堆栈LSTM。作者认为嵌套的LSTM有可能直接取代堆叠的LSTM。
尽管已经有一些关于分层记忆的研究,但是LSTM及其变体仍然是处理时间任务的最流行的深度学习模型,例如字符级语言建模。特别是,默认的堆叠LSTM体系结构使用一系列LSTMS逐层处理数据,一层的输出成为下一层的输入。在这篇论文中,研究人员提出并探索了一种新的嵌套LSTM体系结构(NLSTM),并认为它有可能直接取代堆栈LSTM。
在NLSTM中,LSTM的存储单元可以访问内部存储器,并使用标准的LSTM门选择性地读写。与传统的堆栈LSTM相比,这一关键特性使模型能够实现更有效的时间层次。在NLSTM中,(外部)存储单元可以自由选择相关的长期信息读写到内部单元。相比之下,在堆栈LSTM中,更高级别的激活(类似于内存)直接生成输出,因此它必须包含与当前预测相关的所有短期信息。换句话说,堆叠LSTM和嵌套LSTM的主要区别是NLSTM可以选择性地访问内部内存。这阻止了内部记忆在更长的范围内记忆和处理事件,即使这些事件与当前事件无关。
在本文中,作者用直观的图表证明了非线性存储矩阵的内部存储器可以在比LSTM堆栈中的高级存储器更长的时间尺度上运行。实验还表明,NLSTM在许多任务上优于堆栈LSTM。
嵌套LSTM
直觉上,LSTM的输出门将编码仍然值得记住的信息,这些信息可能与当前的时间步长无关。根据这种直观的理解,嵌套的LSTM创造了一种时间层次的记忆。对内存的访问也是以同样的方式门控的,所以长期信息只有在上下文相关的情况下才能有选择地访问。
实验
形象化
图3:关于内部单元(左)和外部单元(右)的输入特征的单元激活的可视化。红色表示负电池状态值,蓝色表示正电池状态值。颜色越深,表示值越大。Tanh(c_t颚化符)对于内部LSTM状态是可视化的(因为c_t颚化符不受约束),而c_t对于外部LSTM状态是直接可视化的。
图4:tanh(c n _ t)的可视化,表示第一(右)和第二(左)堆叠层中输入字符的单元激活。红色表示负电池状态值,蓝色表示正电池状态值。颜色越深,表示值越大。
佩恩树库字符级语言建模
图PTB测试和验证集上的BPC(每个字符的位数)与历元曲线。
表1:嵌套LSTM模型和多基线模型之间的BPC损失比较。测试的BPC损失分别与每个模型在最小有效BPC值下的历元损失有关。
中国诗歌的生成
表2:嵌套LSTM模型和多基线模型在中国诗歌生成数据集上混淆程度的比较。
图6:汉语诗歌生成测试验证集上的字级预测混淆对历元曲线。
MNIST一瞥
表3:嵌套LSTM模型和多基线模型对MNIST瞥见任务的NLL(负对数似然)和准确性的比较。采用的历元是每个模型的验证集中精度最高的历元。与自然语言学习类似,模型的验证自然语言学习用于确定测试自然语言学习的时间。
图7:MNIST瞥见的训练集和验证集上的NLL(左)和错误率(右)与历元的关系。
论文:嵌套的LSTMs
论文地址:https://arxiv.org/pdf/1801.10308.pdf
在本文中,我们提出了LSTM(嵌套LSTM),这是一个新的RNN多级内存架构。NLSTM通过嵌套(与堆叠相反)增加了LSTM的深度。NLSTM的存储单元的值由LSTM单元(具有其自己的内部存储单元)来计算。特别是,NLSTM存储单元不像经典LSTM那样计算(外部)存储单元的值,而是使用级联:作为内部LSTM(或NLSTM)存储单元的输入并设置它。我们的实验表明,嵌套LSTM在各种具有相似参数数量的字符级语言建模任务中优于堆栈和单层LSTM,LSTM的内存可以学习比堆栈LSTM的高级单元更长期的依赖关系。
这篇文章是为机器的核心编写的。请联系本微信官方账号进行授权。
1.《lstm 学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《lstm 学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1575721.html