【新智元介绍】辛顿创办的Vector College的研究人员提出了一种新的神经网络模型——神经微分方程,将神经网络与常微分方程相结合,利用ODE进行预测。用神经网络指定其推导深度,用ODE求解器自适应计算输出,而不是逐层更新隐藏层。
我们知道神经网络是一个大的层次模型,可以从复杂的数据中学习模式。这就是为什么神经网络在处理图像、声音、视频和序列动作方面有许多成功的应用。但是我们经常忘记神经网络也是一种通用的函数逼近器,所以神经网络可以作为一种数值分析工具来解决更多的“经典”数学问题,比如常微分方程(ODE)。
ResNet这个2015年诞生的残余网络,已经成为深度学习行业的经典模式。ResNet对各层的输入做了参考,并学习形成残差函数,更容易优化,大大深化了网络层。很多研究者已经把ResNet作为近似ODE求解器,开始研究ResNet的可逆性和近似计算。
在最近的一篇论文中,多位来自多伦多大学和深度学习教父杰弗里·辛顿(Geoffrey Hinton)创立的向量研究所(Vector Institute)的研究人员,将深度学习与ODE求解器相结合,提出了“神经ODE”,以更为概括的方式展示了这些属性。
他们将神经ODE作为模型组件,开发了一种用于时间序列建模、监督学习和密度估计的新模型。这些新模型可以根据每个输入调整其评估策略,并可以明确控制计算速度和准确性之间的权衡。
将深度学习与常微分方程结合起来有四个优点
残差网络、递归神经网络解码器和归一化流等模型通过将一系列变化组合成隐藏状态来构造复杂的变换:
其中,。这些迭代更新可以看作是连续变换的欧拉离散化。
当我们向网络中添加更多的层并采取更少的步骤时,会发生什么?在极限情况下,我们使用神经网络指定的常微分方程(ODE)来参数化隐藏元素的连续动力学:
从输入层开始,我们可以把输出层定义为某一时刻ODE初值问题的解。该值可以通过黑盒微分方程解算器计算,该解算器在必要时评估隐藏单元动态,以确定具有所需精度的解。图1比较了这两种方法。
图1:左:残差网络定义了一个离散的有限变换序列。右:ODE网络定义了一个矢量场,不断改变状态。圆圈代表评估位置。
使用ODE求解器定义和评估模型有几个优点:
内存效率。在论文第2章,我们解释了如何计算任何ODE求解器的所有输入的标量值损失的梯度,而不通过求解器的操作进行反向传播。不存储任何中间量的前向通道允许我们以几乎不变的内存成本来训练模型,这是训练深度模型的一个主要瓶颈。自适应计算。欧拉方法(Euler’s method)可能是求解ODE最简单的方法。现代的ODE求解器提供了有关近似误差增长的保证,检测误差的大小并实时调整其评估策略,以达到所要求的精度水平。这使得评估模型的成本随着问题复杂度而增加。训练结束后,可以降低实时应用或低功耗应用的精度。参数效率。当隐藏单元动态(hidden unit dynamics)被参数化为时间的连续函数时,附近“layers”的参数自动连接在一起。在第3节中,我们表明这减少了监督学习任务所需的参数数量。可扩展的和可逆的normalizing flows。连续变换的一个意想不到的好处是变量公式的变化更容易计算了。在第4节中,我们推导出这个结果,并用它构造了一类新的可逆密度模型,该模型避免了normalizing flows的单个单元瓶颈,并且可以通过最大似然法直接进行训练。连续时间序列模型。与需要离散观测和发射间隔的递归神经网络不同,连续定义的动态可以自然地并入任意时间到达的数据。在第5节中,我们构建并演示了这样一个模型。常微分方程求解器提供了一种通用的反向传播算法
该论文的作者、多伦多大学的助理教授大卫·杜维诺(David Duvenaud)说,他们通过ODE求解器提供了一种通用的反向传播,但他们的方法是从可逆性开始的,而不是在ODE求解器的操作中反向传播(因为它消耗大量内存)。此方法已添加到自动签名中。
另一位作者、多伦多大学博士生田也表示,他们工作的创新之处在于提出并开辟了一种新的方法,在自动微分的框架下,将ODE和深度学习相结合。
此外,这项研究获得了许多意想不到的收获。比如构造一个连续的规格化流,它具有很强的可逆性,可以使用宽度,就像Real NVP一样,但是不需要对数据维度进行划分或排序。
标准化流程与连续标准化流程的比较。标准化流的模型容量由网络的深度(k)决定,而连续标准化流的模型容量可以通过增加宽度(m)来增加,使其更容易训练。来源:研究论文
还有连续时间RNN (Continuous-Time RNN),可以处理不规则的观测时间,同时使用状态相关的泊松过程来近似建模。下图显示了正常RNN和神经常微分方程之间的比较:
田说,他特别喜欢变量的瞬间变化,这为连续标准流的生成和建模开辟了一条新的途径。
目前,作者正在讨论将ODE求解器扩展到GPU,并进行更大规模的扩展。
论文:神经常微分方程
抽象的
我们提出了一种新的深度神经网络模型。神经网络用于参数化隐藏状态的导数,而不是指定隐藏层中的离散序列。网络的输出通过使用黑盒微分方程求解器来计算。这些连续深度模型存储成本恒定,其评估策略根据每次输入进行调整,速度可以通过显式牺牲数值精度来获得。我们在连续深度剩余网络和连续时间潜变量模型中证明了这些性质。我们还建立了连续归一化流,这是一个可以用最大似然方法训练的生成模型,不需要对数据维度进行划分或排序。至于训练,我们向任何ODE求解器展示了可伸缩反向传播的过程,而无需访问其内部操作。这使我们能够在更大的模型中进行端到端的ODE训练。
参考资料&:了解更多信息:
Neural ODE 论文:https://arxiv.org/pdf/1806.07366.pdfautograd:https://github.com/HIPS/autograd/blob/master/autograd/scipy/integrate.py1.《ODE Hinton向量学院推出神经ODE:超越ResNet 4大性能优势》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《ODE Hinton向量学院推出神经ODE:超越ResNet 4大性能优势》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1166944.html