当前位置:首页 > 民俗文化

lstm 学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展

选自arXiv

参与:李亚洲刘晓坤

最近,CMU大学和蒙特利尔大学联合提出了一个新的RNN架构与多级记忆嵌套LSTM。当访问内部存储器时,嵌套LSTM比传统的堆叠LSTM具有更高的自由度,因此它可以处理更长时间尺度的内部存储器。实验还表明,NLSTM在许多任务上优于堆栈LSTM。作者认为嵌套的LSTM有可能直接取代堆叠的LSTM。

尽管已经有一些关于分层记忆的研究,但是LSTM及其变体仍然是处理时间任务的最流行的深度学习模型,例如字符级语言建模。特别是,默认的堆叠LSTM体系结构使用一系列LSTMS逐层处理数据,一层的输出成为下一层的输入。在这篇论文中,研究人员提出并探索了一种新的嵌套LSTM体系结构(NLSTM),并认为它有可能直接取代堆栈LSTM。

在NLSTM中,LSTM的存储单元可以访问内部存储器,并使用标准的LSTM门选择性地读写。与传统的堆栈LSTM相比,这一关键特性使模型能够实现更有效的时间层次。在NLSTM中,(外部)存储单元可以自由选择相关的长期信息读写到内部单元。相比之下,在堆栈LSTM中,更高级别的激活(类似于内存)直接生成输出,因此它必须包含与当前预测相关的所有短期信息。换句话说,堆叠LSTM和嵌套LSTM的主要区别是NLSTM可以选择性地访问内部内存。这阻止了内部记忆在更长的范围内记忆和处理事件,即使这些事件与当前事件无关。

在本文中,作者用直观的图表证明了非线性存储矩阵的内部存储器可以在比LSTM堆栈中的高级存储器更长的时间尺度上运行。实验还表明,NLSTM在许多任务上优于堆栈LSTM。

嵌套LSTM

直觉上,LSTM的输出门将编码仍然值得记住的信息,这些信息可能与当前的时间步长无关。根据这种直观的理解,嵌套的LSTM创造了一种时间层次的记忆。对内存的访问也是以同样的方式门控的,所以长期信息只有在上下文相关的情况下才能有选择地访问。

实验

形象化

图3:关于内部单元(左)和外部单元(右)的输入特征的单元激活的可视化。红色表示负电池状态值,蓝色表示正电池状态值。颜色越深,表示值越大。Tanh(c_t颚化符)对于内部LSTM状态是可视化的(因为c_t颚化符不受约束),而c_t对于外部LSTM状态是直接可视化的。

图4:tanh(c n _ t)的可视化,表示第一(右)和第二(左)堆叠层中输入字符的单元激活。红色表示负电池状态值,蓝色表示正电池状态值。颜色越深,表示值越大。

佩恩树库字符级语言建模

图PTB测试和验证集上的BPC(每个字符的位数)与历元曲线。

表1:嵌套LSTM模型和多基线模型之间的BPC损失比较。测试的BPC损失分别与每个模型在最小有效BPC值下的历元损失有关。

中国诗歌的生成

表2:嵌套LSTM模型和多基线模型在中国诗歌生成数据集上混淆程度的比较。

图6:汉语诗歌生成测试验证集上的字级预测混淆对历元曲线。

MNIST一瞥

表3:嵌套LSTM模型和多基线模型对MNIST瞥见任务的NLL(负对数似然)和准确性的比较。采用的历元是每个模型的验证集中精度最高的历元。与自然语言学习类似,模型的验证自然语言学习用于确定测试自然语言学习的时间。

图7:MNIST瞥见的训练集和验证集上的NLL(左)和错误率(右)与历元的关系。

论文:嵌套的LSTMs

论文地址:https://arxiv.org/pdf/1801.10308.pdf

在本文中,我们提出了LSTM(嵌套LSTM),这是一个新的RNN多级内存架构。NLSTM通过嵌套(与堆叠相反)增加了LSTM的深度。NLSTM的存储单元的值由LSTM单元(具有其自己的内部存储单元)来计算。特别是,NLSTM存储单元不像经典LSTM那样计算(外部)存储单元的值,而是使用级联:作为内部LSTM(或NLSTM)存储单元的输入并设置它。我们的实验表明,嵌套LSTM在各种具有相似参数数量的字符级语言建模任务中优于堆栈和单层LSTM,LSTM的内存可以学习比堆栈LSTM的高级单元更长期的依赖关系。

这篇文章是为机器的核心编写的。请联系本微信官方账号进行授权。

1.《lstm 学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《lstm 学界 | Nested LSTM:一种能处理更长期信息的新型LSTM扩展》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1575721.html

上一篇

蚁人2结局什么意思 蚁人2最后幽灵恢复身体了吗

下一篇

天下行走 将夜天下行走什么意思

不能对合并单元格做部分修改怎么办 六招轻松解决Excel中无法对合并单元格做部分更改!

  • 不能对合并单元格做部分修改怎么办 六招轻松解决Excel中无法对合并单元格做部分更改!
  • 不能对合并单元格做部分修改怎么办 六招轻松解决Excel中无法对合并单元格做部分更改!
  • 不能对合并单元格做部分修改怎么办 六招轻松解决Excel中无法对合并单元格做部分更改!
aerial 是时候释放您的双手了,照片自动重建三维模型软件3DF Zephyr Aerial v4.300 WIN64中文版

aerial 是时候释放您的双手了,照片自动重建三维模型软件3DF Zephyr Aerial v4.300 WIN64中文版

介绍 中文版-3d模型软件3DF泽法航拍4.300 WIN64 iND破解版照片自动重建 3DF泽法航拍版4.300允许你从照片自动重建三维模型。这个过程是完全自动的,不需要编码目标、手动编辑或特殊设备。3DF泽法基于...

富士制动单元 变频器什么时候需要加装制动单元的,有什么作用?

富士制动单元 变频器什么时候需要加装制动单元的,有什么作用?

在控制点动频率输出Y022的同时,其输出M0011和M0013分别控制工作台的正转和反转,使工作台按照点动频率运行。编制选型I和选型II程序,控制不同频率运行的工作台对应的变频器(输入X4和X5)的加减速时间,这在龙门...

tin 地形TIN模型怎么创建?

  • tin 地形TIN模型怎么创建?
  • tin 地形TIN模型怎么创建?
  • tin 地形TIN模型怎么创建?
大众汽车将被召回 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

大众汽车将被召回 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

2017年9月5日,大众汽车销售有限公司、一汽大众有限公司、上汽大众有限公司根据《缺陷汽车产品召回管理规定》的要求,向国家质检总局提出召回计划,决定从2017年12月25日起共召回181.8340万辆。据了解,本次召回...

上海大众召回车辆查询 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

上海大众召回车辆查询 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

2017年9月5日,大众汽车销售有限公司、一汽大众有限公司、上汽大众有限公司根据《缺陷汽车产品召回管理规定》的要求,向国家质检总局提出召回计划,决定从2017年12月25日起共召回181.8340万辆。据了解,本次召回...

大众召回车辆查询 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

大众召回车辆查询 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

2017年9月5日,大众汽车销售有限公司、一汽大众有限公司、上汽大众有限公司根据《缺陷汽车产品召回管理规定》的要求,向国家质检总局提出召回计划,决定从2017年12月25日起共召回181.8340万辆。据了解,本次召回...

大众汽车召回查询 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

大众汽车召回查询 大众汽车将被召回 免费为召回车辆更换改进后的燃油泵控制单元

2017年9月5日,大众汽车销售有限公司、一汽大众有限公司、上汽大众有限公司根据《缺陷汽车产品召回管理规定》的要求,向国家质检总局提出召回计划,决定从2017年12月25日起共召回181.8340万辆。据了解,本次召回...