新智元建议
:首席运营官,执行编辑、总编辑、高级编辑、总编辑、运营总监、客户经理、咨询总监、行政助理等职位全部开放。
简历投递:jobs@aiera.com.cn
HR微信:13552313024
新智元为首席运营官和执行编辑提供高达100万英镑的年薪激励;为骨干员工提供最完整的培训体系,工资和奖金高于行业平均水平。
加入新智元,与人工智能行业的领导者携手改变世界。
要挑战冯·诺依曼,必须从三个要素入手:基本运算,如加减乘除;逻辑流控制,如if-else-then,for,while;设置内存、内存条、硬盘的寻址。DeepMind团队认为,冯·诺依曼系统中的逻辑流控制和外围存储器的使用必须写在程序中,不能通过观察例子自动生成程序。
2016年10月27日,《自然》发表了一篇由谷歌旗下DeepMind团队撰写的关于人工智能的论文,题目为“混合计算利用一个带动态外存储器的神经网络”,利用一个配置了动态外存储器的神经网络实现混合计算。本文介绍了微分神经计算机的实现细节。
DeepMind团队在伦敦工作,2014年被谷歌收购。DeepMind开发的AlphaGo在2016年初击败了围棋大师李石图。
早在2014年12月,DeepMind团队就发表了一篇论文《神经图灵机》。后来,他们改进了神经图灵机的存储管理模式,将其命名为差分神经计算机。可微就是可训练的,特别是可以用梯度下降算法来训练。
冯·诺依曼系统
当今世界,所有的计算机系统都是由冯·诺依曼在1945年设计的系统衍生而来的。冯·诺依曼系统有三大要素:
基本运算,如加减乘除。
逻辑流程控制,如if-else-then,for,while。
外围存储器、内部存储器和硬盘的寻址。
要挑战冯诺依曼,必须从这三个要素入手。DeepMind团队认为,冯·诺依曼系统中的逻辑流控制和外围存储器的使用必须写在程序中,不能通过观察例子自动生成程序。
如果把程序理解为把输入x转换成输出y的函数f,y = f,那么神经网络就是模拟任何函数的通用模型f。
但是早期的神经网络有两个弱点:
变量绑定无法实现,也就是说f的内部参数不能用不同的输入x来改变。
变长结构无法实现,即输入x和输出y的维度是固定的,不能改变。
早期神经网络的这两个弱点并不难修复。例如,递归神经网络解决了这两个问题。换句话说,RNN是图灵完备的,可以用来模拟任何函数,当然也可以模拟任何程序的函数。
既然冯·诺依曼系统的三个要素中的两个,基本运算和逻辑流程控制,可以由RNN来模拟,如果RNN也能解决存储管理的问题,那么整个冯·诺依曼系统就可以由RNN来实现。因此,差分神经计算机的重点在于存储管理。
解释使用RNN以简单的方式管理存储的原理。建议先看,再看,最后看。要特别注意以下几个方面:1。存储设置,2。寻址机制,3。应该训练哪些参数,4。如何将DNC应用于Graph运算?
保存的设置
NTM/DNC的存储设置解释为内存是一个向量的数组,即一个矩阵,每行是一个向量,每行向量的长度一致,所有行组装成一个数组。在这个例子中,将内存简化为一个标量的数组,即n行单列的矩阵,每行只存储一个数值。
什么时候需要存储向量?如果图像存储在存储器中,那么每个存储单元存储一个像素,该像素是由三个字节组成的向量。
但如果是需要存储的文章,每个存储单元需要存储一个字,每个字的长度不一样,怎么办?三篇文章都没有说,但是有两个简单的方法。
在每个存储单元上,保留一个足够长的向量。当遇到一个短字时,所有带空的字节将被0填充。
每一个单词,不管它的长度是多少,都转换成一个单词向量,单词向量的长度是固定的。第二种方法是其他论文中提到的编码方法。
此外,应当注意,存储矩阵中的行数可能很大。想象一下在存储矩阵中存储一本小说,每个字占用一行,需要占用存储矩阵的多少行。
寻址机制
DNC改进了NTM的寻址机制。NTM的寻址机制是基于内容和基于位置的混搭。为什么我们需要改进?原因有三。
NTM不能保证多个存储单元不会重叠或相互干扰。动态内存分配:分配空闲空间
NTM不能释放存储单元。如果处理一个很长的序列,比如长篇小说,那么所有的存储空间都会被占用,系统也会崩溃。动态内存分配:自由门
如果连续执行几个读和写操作,它们所使用的存储单元的位置最好是相邻的。然而,在NTM,一旦某个读/写操作跳到很远的其他存储区域,随后的操作也跳到其他区域,并且存储器丢失,并且不可能记住原始存储区域在哪里。时间链接矩阵
DNC的寻址机制将读操作和写操作分开。DNC使用基于内容的动态内存分配来处理写操作。使用基于内容的临时内存链接来处理读取操作。
1.基于内容的寻址:
将待处理的目标向量与存储矩阵中每行的向量进行比较,通过余弦距离计算它们之间的相似度。取存储矩阵中距离目标向量最短的一行。
在计算余弦距离时,我们需要一个系数向量,beta,它是经过训练的。
2.动态内存分配内存单元分配:
每个存储单元都是一个长度相等的向量。当每个存储单元空闲时,整个向量中的每个元素都可以用来写入新数据。然而,当向量中的一些元素已经被占用时,剩余的元素也可以被写入新的数据。
想象一下,如果每个向量的长度是100,如果一个向量中已经写了一个短单词,但是还有剩余的元素,可以用来标记这个单词为词性,等等。但是如果剩下的元素不多,就要把词性标注写进其他行的向量里。
DNC设计了一个存储单元占用向量u,当u = 0时,第一行向量中的所有元素都可以写入新的数据,而当u = 1时,第一行向量中的所有元素都被占用。
但是,如果内存矩阵中有两行,I和J,则可以写入完全相同的元素。谁先写取决于权向量wt。Wt体现了存储使用的策略,可以尽可能多地写入新发布的存储单元,也可以尽可能多地写入内容相似且未完全占用的存储单元。权重向量wt可以根据。
3.时态内存链接读写时序关联:
动态内存分配不记录当所有先前的写操作发生时,哪个存储单元loc发生,哪个存储单元loc发生。在先前的写入操作中记录存储单元的位置序列是有用的。
DNC使用N 2的方阵来记录时态链接,其中L记录T时存储单元J和t+1时存储单元I发生写操作的概率。L可以是简单的统计结果,也可以是加权的统计结果,权重反映的是控制策略。体重是可以训练的。
当n很大的时候,理论上l平方矩阵会占用很多空。但是,鉴于L矩阵稀疏,很多L等于0。根据DeepMind团队的估计,l实际上只占用了空之间的O,计算成本只有O。
需要训练哪些参数?
除了读写操作和寻址操作中的几个权重向量外,还有RNN作为控制器的参数。RNN可以选择结构简单的神经网络作品,也可以选择结构更复杂的LSTM作品。选择LSTM意味着有更多的参数需要训练。
训练数据通常不包含发生读写操作的存储器空的信息。例如,在NTM,优先排序实验的训练数据是一系列的配对。每对中的输入是20个向量,每个向量都有优先级。每对的理想输出是从输入的20个向量中选出16个向量,按照优先级得分排序。
注意,训练数据不包含关于执行读取和写入操作的存储单元的信息。
DNC在图形操作中的应用
本文利用DNC寻找伦敦地铁两站间的最佳路线。坐地铁本身不重要。重要的是,如果RNN学会使用图形,它能做什么。如果Graph不是地铁而是社交图呢?如果是知识图呢?
参考文献:
Graves,Alex,等,“使用具有动态外部存储器的神经网络的混合计算。”Nature538.7626 : 471-476。
格雷夫斯、亚历克斯、格雷格·韦恩和伊沃·丹尼尔卡。“神经图灵机。”arXiv预印本arXiv:1410.5401。
克里斯·奥拉& amp山·卡特,“注意力和增强的递归神经网络”,提取,2016年。
新智元招聘
运营总监职位
岗位年薪:36-50万
工作地点:北京市海淀区
部门:运营部
报告目标:首席运营官
下属人数:2
年龄要求:25-35岁
性别要求:不限
工作年限:3年以上
语言:英语6级
职位描述
负责大型展会赞助商和参展商拓展和挖掘潜在客户,人工智能和机器人行业方向
善于开拓市场,与潜在客户建立良好的人际关系
深入了解人工智能和机器人行业及相关市场情况,及时了解市场动态
积极协调部门之间的项目合作,组织跨部门合作,具有良好的影响力
领导团队实现营业额目标,监控和管理项目状态
负责公司平台运营战略计划和合作计划的制定和实施
所需员额
本科或以上学历,硕士优先,要求较高的英语沟通能力
3年以上业务发展经验,团队管理经验,熟悉业务部门的整体管理
对传统公共关系、传统综合传播总体规划和战略总体规划有深刻见解
具有敏锐的市场洞察力、准确的客户分析能力和强大的团队整体管理能力
具有出色的时间管理、抗压能力和多任务计划及整体执行能力
有丰富的电信市场网络资源和甲方市场部工作经验者优先
有前20名公关公司媒体广告部、市场部和市场开发部工作经验者优先
新智元欢迎有志之士前来面试。更多招聘职位,请访问微信官方账号,新智元。
1.《冯诺依曼结构 深度学习挑战冯·诺依曼结构》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《冯诺依曼结构 深度学习挑战冯·诺依曼结构》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1749703.html