选自Uber
参与:李泽南、薛璐
Horovod是Uber开源的另一个深度学习工具。其开发吸收了Facebook的“一小时培训ImageNet论文”和百度的Ring Allreduce的优势,可以帮助用户实现分布式培训。本文将简要介绍这一框架的特点。
近年来,深度学习在图像处理、语音识别和预测方面取得了很大进展。在优步,我们已经将深度学习应用到公司的业务中,从自动驾驶路线搜索到欺诈预防。深度学习使我们的数据科学家和工程师能够为用户提供更好的体验。
TensorFlow已经成为优步首选的深度学习库。因为这个框架是使用最广泛的开源深度学习框架,所以对新开发者非常友好。它结合了高性能和低级别的模型细节调试能力——比如我们可以使用Keras这种高级API,也可以使用我们自己定制的英伟达CUDA工具。此外,TensorFlow还为各种深度学习用例提供端到端支持,从实验探索到生产级模型的部署,再到云服务器、移动应用,甚至自动驾驶汽车。
上个月,优步工程部推出了米开朗基罗,这是一个内部机器学习服务平台,可以轻松地将机器学习部署到大规模系统中。本文中,优步介绍了米开朗基罗深度学习工具包(Michelangelo Deep Learning Toolkit)的重要开源组件Horovod,它可以使分布式TensorFlow深度学习项目更容易实现。
分布式的
随着Uber在TensorFlow上训练越来越多的机器学习模型,项目对数据和计算能力的需求也在快速增长。在大多数情况下,模型可以在单个或多个GPU服务器上运行,但随着数据集和训练时间的增加,训练有时需要一周甚至更长时间。因此,优步工程师不得不寻求分布式培训方法。
优步开始尝试部署标准分布式TensorFlow技术。测试了一些方法后,开发人员意识到原来的方法需要调整。首先,在遵循文档和代码示例之后,我们并不总是清楚哪些函数对应于哪些模型训练代码的分布式计算。标准分布式TensorFlow引入了许多新概念:工作线程、参数服务器、tf。服务器(),tf。ClusterSpec(),tf.train.SyncReplicasOptimizer(),TF . train . replicas _ device _ setter()等等。在某些情况下,它们可以优化,但它们也使我们很难诊断出减慢训练的bug。
第二个问题是关于Uber秤的计算性能。经过一些基准测试,我们发现标准的分布式张量流机制不能满足要求。例如,在使用128个GPU进行训练时,由于效率低下,我们损失了一半的计算资源。
图5: Horo VOD时间轴描述了Chrome的跟踪事件剖析工具中分布式训练过程中的高层时间轴。
张量融合
在分析了几个模型的时间线后,我们发现有大量张量的模型,如ResNet-101,有许多小的allreduce运算。以前我们注意到,当有足够多的张量时,环allreduce可以最大限度地利用网络,但它的效率和速度不如张量较少时。那么问题来了:如果在对张量进行环全导出之前,融合多个小数量会发生什么?
答案是:张量融合,一种在执行Horovod的环所有之前融合张量的算法。利用该方法进行实验,发现运行在非优化传输控制协议(TCP)网络上的多层模型的性能提高了65%。我们简要介绍了如何使用张量融合:
1.确定要减少哪些向量。首先选择几个数据类型相同的张量,适用于缓冲区。
2.为未分配的张量分配融合缓冲区。默认融合缓冲区大小为64 MB。
3.将所选张量的数据复制到融合缓冲区。
4.对融合缓冲液执行所有操作。
5.将融合缓冲区中的数据复制到输出张量。
6.重复,直到循环中没有张量需要减少。
我们使用Horovod、Tensor Fusion和其他建立在米开朗基罗平台上的特性来提高机器学习系统中模型的效率、速度和易用性。在下一部分中,我们将分享真实世界的基准来展示Horovod的性能。
Horovod基准
图6:在25GbE TCP上使用不同数量的NVIDIA Pascal GPU时,将标准分布式TensorFlow和Horovod运行分布式训练工作处理的图像数量与ResNet-101 TensorFlow模型进行比较。
经过调整后,我们重新运行了适用于Horovod的官方张量流基准,并与传统分布式张量流的性能进行了比较。如图6所示,Horovod的能力得到了极大的提升,我们不再浪费一半的GPU资源。事实上,使用盗梦空间V3和ResNet-101模型进行缩放可以实现88%的计算效率。也就是说训练速度是标准分布式TensorFlow的两倍。
图7:在25千兆以太网传输控制协议和25千兆以太网RDMA网络上,7:Horovod每秒处理的图像的比较。他们在不同的NVIDIA Pascal GPU上为盗梦空间V3、ResNet-101和VGG-16运行分布式培训。
由于MPI和NCCL都支持远程直接内存访问(RDMA)网络,我们使用RDMA网卡运行额外的基准测试,以确定它们是否可以提高TCP网络的效率。
我们发现,RDMA并没有显著提高盗梦空间V3和ResNet-101模型的性能,但与TCP网络相比,仅提高了3或4个百分点。然而,RDMA帮助Horovod在这两款机型上实现了90%以上的扩展效率。
同时,使用RDMA网络时,VGG-16模型的速度提高了30%。这可以用VGG-16的大量模型参数来解释,这些参数是由完全连接的层和少量层的组合引起的。这些特性改变了从GPU计算到通信的关键路径,造成网络瓶颈。
这些基准测试表明,Horovod在TCP和RDMA网络上的扩展性很好,尽管使用RDMA网络的用户只有在使用具有大量模型参数的模型(如VGG-16)时才能获得最佳性能和显著的效率提升。
我们使用Horovod来探索深度学习中的性能优化只是一个开始。未来,我们将继续使用开源社区来使用我们的机器学习系统和框架来实现性能提升。
下一步
今年早些时候,Uber开放了Horovod,使这种可扩展的机器学习模型走向整个社区。目前,Horovod仍在发展,我们正朝着以下方向继续前进:
1.让MPI更容易安装:虽然在工作站上安装MPI更容易,但是在集群上安装MPI还是需要一些努力;比如工作量管理器很多,我们需要根据硬件的不同进行调整。我们正在开发一个为集群运行Horovod的参考设计。为此,我们希望与MPI社区和网络硬件供应商合作,制定安装MPI和相关驱动程序的说明。
2.收集和分享分布式深度学习模型参数调整的经验:Facebook的“一小时训练ImageNet Paper”描述,与在单个GPU上训练模型相比,分布式训练任务需要超参数调整才能达到甚至超越前者的精度。Facebook证明了在256个GPU上训练TensorFlow模型的可行性。
3.补充一个超大型号的例子:Horovod目前支持适合单GPU和多GPU服务器的型号。我们希望将更大的模型应用于更多形式的硬件。
我们希望Horovod的简单性能让大家采用分布式训练,更好的利用计算资源进行深度学习。
原地址:https://eng.uber.com/horovod/
这篇文章是为机器的核心编写的。请联系本微信官方账号进行授权。
1.《HVD 业界 | 详解Horovod:Uber开源的TensorFlow分布式深度学习框架》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《HVD 业界 | 详解Horovod:Uber开源的TensorFlow分布式深度学习框架》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/junshi/805811.html