【linjunjie】基于深度学习的行人再认识研究综述(下)

根据雷锋网AI科技评论：本文作者罗浩是浙江大学博士生，本文是罗浩为雷锋网AI科技评论撰写的独家稿件，未经许可不得转载。

3、基于局部特征的ReID方法

的早期ReID研究侧重于全球全球特征。也就是说，通过用全图得到一个特征向量来检索图像。但是，随着全球特征出现瓶颈，开始逐渐研究局部的local feature。一般来说，提取局部特征的想法主要是图像切片、骨骼关键点定位、姿态校正等。

(1)图片切片是提取部分特征的非常常用的方法[12]。如下图所示，照片垂直分为多个部分。因为垂直切割更符合我们对人体认知的直观感受，所以在行人再认识领域很少使用水平切割。

在之后分割的多个图像块按顺序发送到长短暂内存网络(LSTM)，最后一个功能结合了所有图像块的本地特征。但是，这些缺点是对图像对齐的要求很高。如果两个图像没有上下对齐，很可能会出现比较头部和上半身的现象，相反，模型可能会被错误判断。

(2)为了解决图像不平衡的情况，解决手动图像切片失败的问题，部分论文利用先验知识对行人进行先排序。这些先验知识主要是预先训练的人体姿势(Pose)和骨架键(Skeleton)模型。论文[13]首先使用姿势估计模型估计旅客的身高，然后使用仿射变换排列相同的身高。如下图所示，行人一般分为14个键，这14个键将人体结果分为多个区域。作者设置了三种不同的PoseBox组合，以提取不同规模的局部特征。此后，这三张PoseBox校正后的照片连同原始校正后的图片一起发送到网络，包含全球信息和本地信息。特别地，这种仿射变换可以在进入网络之前进行预处理，也可以在进入网络之后进行。在后一种情况下，需要改进仿射变换。因为传统的辐射变化是无法诱导的。需要引入能够引导网络训练的大致辐射变化，本文不详细说明相关知识。

(3)CVPR2017中的任务Spindle Net[14]也使用14个人体密钥抽取局部特征。与论文[12]不同，Spindle Net不使用仿射变换来对齐局部图像区域，而是直接使用这些键来滞后感兴趣的区域(ROI)。Spindle Net网络通过通过骨骼密钥提取的网络提取14个人体密钥，然后使用该密钥提取7个人体结构ROI，如下图所示。网络中所有提取特征的CNN(橙色标记)参数都是共享的，该CNN分为三个线性子网络：FEN-C1、FEN-C2和FEN-C3。如果输入行人照片，预先训练的骨骼关键点将提取CNN(蓝色表示)，获取14个人体关键点，获得7个ROI区域(包括头部、上半身、下半身)和4个肢体小区域)。这7个投资回报率区域和原始照片将进入相同的CNN网络提取功能。原始照片经过完整的CNN获得了全球特征。三个大区域通过FEN-C2和FEN-C3子网获得三个本地特征。四个肢体区域通过FEN-C3子网获得四个局部特征。之后，这8个特征将得到重新认识特征，这是如图所示以不同规模连接在一起的全局特征和不同规模局部特征的结合行。

(4)论文[15]为解决行人姿态变化问题，提出了全球-局部对齐特征描述符(Glad)然后，将整个图片与三个局部图像一起输入到一个参数共享CNN网络中，最后提取的特征将合并全局和局部特征。为了适应分辨率大小不同的照片输入，网络使用全局平均轮询(GAP)提取每个特征。与Spindle Net略有不同的是，四个输入地物分别计算各自的损失，而不是计算一个要素的总损失。

(5)以上所有局部特征对齐方法都需要额外的骨骼关键点或姿势估计模型

。而训练一个可以达到实用程度的模型需要收集足够多的训练数据，这个代价是非常大的。为了解决以上问题，AlignedReID[16]提出基于SP距离的自动对齐模型，在不需要额外信息的情况下来自动对齐局部特征。而采用的方法就是动态对齐算法，或者也叫最短路径距离。这个最短距离就是自动计算出的local distance。

这个local distance可以和任何global distance的方法结合起来，论文[15]选择以TriHard loss作为baseline实验，最后整个网络的结构如下图所示，具体细节可以去看原论文。

4.基于视频序列的ReID方法

目前单帧的ReID研究还是主流，因为相对来说数据集比较小，哪怕一个单GPU的PC做一次实验也不会花太长时间。但是通常单帧图像的信息是有限的，因此有很多工作集中在利用视频序列来进行行人重识别方法的研究[17-24]。基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息，还考虑了帧与帧之间的运动信息等。

基于单帧图像的方法主要思想是利用CNN来提取图像的空间特征，而基于视频序列的方法主要思想是利用CNN 来提取空间特征的同时利用递归循环网络(Recurrent neural networks, RNN)来提取时序特征。上图是非常典型的思路，网络输入为图像序列。每张图像都经过一个共享的CNN提取出图像空间内容特征，之后这些特征向量被输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。而这个特征用于代替前面单帧方法的图像特征来训练网络。

视频序列类的代表方法之一是累计运动背景网络(Accumulative motion context network, AMOC)[23]。AMOC输入的包括原始的图像序列和提取的光流序列。通常提取光流信息需要用到传统的光流提取算法，但是这些算法计算耗时，并且无法与深度学习网络兼容。为了能够得到一个自动提取光流的网络，作者首先训练了一个运动信息网络(Motion network, Moti Nets)。这个运动网络输入为原始的图像序列，标签为传统方法提取的光流序列。如下图所示，原始的图像序列显示在第一排，提取的光流序列显示在第二排。网络有三个光流预测的输出，分别为Pred1，Pred2，Pred3，这三个输出能够预测三个不同尺度的光流图。最后网络融合了三个尺度上的光流预测输出来得到最终光流图，预测的光流序列在第三排显示。通过最小化预测光流图和提取光流图的误差，网络能够提取出较准确的运动特征。

AMOC的核心思想在于网络除了要提取序列图像的特征，还要提取运动光流的运动特征，其网络结构图如下图所示。AMOC拥有空间信息网络(Spatial network, Spat Nets)和运动信息网络两个子网络。图像序列的每一帧图像都被输入到Spat Nets来提取图像的全局内容特征。而相邻的两帧将会送到Moti Nets来提取光流图特征。之后空间特征和光流特征融合后输入到一个RNN来提取时序特征。通过AMOC网络，每个图像序列都能被提取出一个融合了内容信息、运动信息的特征。网络采用了分类损失和对比损失来训练模型。融合了运动信息的序列图像特征能够提高行人重识别的准确度。

论文[24]从另外一个角度展示了多帧序列弥补单帧信息不足的作用，目前大部分video based ReID方法还是不管三七二十一的把序列信息输给网络，让网络去自己学有用的信息，并没有直观的去解释为什么多帧信息有用。而论文[24]则很明确地指出当单帧图像遇到遮挡等情况的时候，可以用多帧的其他信息来弥补，直接诱导网络去对图片进行一个质量判断，降低质量差的帧的重要度。

如上图，文章认为在遮挡较严重的情况下，如果用一般的pooling会造成attention map变差，遮挡区域的特征会丢失很多。而利用论文的方法每帧进行一个质量判断，就可以着重考虑那些比较完整的几帧，使得attention map比较完整。而关键的实现就是利用一个pose estimation的网络，论文叫做landmark detector。当landmark不完整的时候就证明存在遮挡，则图片质量就会变差。之后pose feature map和global feature map都同时输入到网络，让网络对每帧进行一个权重判断，给高质量帧打上高权重，然后对feature map进行一个线性叠加。思路比较简单但是还是比较让人信服的。

5.基于GAN造图的ReID方法

ReID有一个非常大的问题就是数据获取困难，截止CVPR18 deadline截稿之前，最大的ReID数据集也就小几千个ID，几万张图片（序列假定只算一张）。因此在ICCV17 GAN造图做ReID挖了第一个坑之后，就有大量GAN的工作涌现，尤其是在CVPR18 deadline截稿之后arxiv出现了好几篇很好的paper。

论文[25]是第一篇用GAN做ReID的文章，发表在ICCV17会议，虽然论文比较简单，但是作为挖坑鼻祖引出一系列很好的工作。如下图，这篇论文生成的图像质量还不是很高，甚至可以用很惨来形容。另外一个问题就是由于图像是随机生成的，也就是说是没有可以标注label可以用。为了解决这个问题，论文提出一个标签平滑的方法。实际操作也很简单，就是把label vector每一个元素的值都取一样，满足加起来为1。反正也看不出属于哪个人，那就一碗水端平。生成的图像作为训练数据加入到训练之中，由于当时的baseline还不像现在这么高，所以效果还挺明显的，至少数据量多了过拟合能避免很多。

论文[26]是上一篇论文的加强版，来自同一个课题组。前一篇的GAN造图还是随机的，在这一篇中变成了可以控制的生成图。ReID有个问题就是不同的摄像头存在着bias，这个bias可能来自光线、角度等各个因素。为了克服这个问题，论文使用GAN将一个摄像头的图片transfer到另外一个摄像头。在GAN方面依然还是比较正常的应用，和前作不同的是这篇论文生成的图是可以控制，也就是说ID是明确的。于是标签平滑也做了改进，公式如下：

其中

是ID的数量。

是手动设置的平滑参数，当

时就是正常的one-hot向量，不过由于是造的图，所以希望label不要这么hard，因此加入了一个平滑参数，实验表明这样做效果不错。最终整体的网络框架如下图：

除了摄像头的bias，ReID还有个问题就是数据集存在bias，这个bias很大一部分原因就是环境造成的。为了克服这个bias，论文[27]使用GAN把一个数据集的行人迁移到另外一个数据集。为了实现这个迁移，GAN的loss稍微设计了一下，一个是前景的绝对误差loss，一个是正常的判别器loss。判别器loss是用来判断生成的图属于哪个域，前景的loss是为了保证行人前景尽可能逼真不变。这个前景mask使用PSPnet来得到的，效果如下图。论文的另外一个贡献就是提出了一个MSMT17数据集，是个挺大的数据集，希望能够早日public出来。

ReID的其中一个难点就是姿态的不同，为了克服这个问题论文[28]使用GAN造出了一系列标准的姿态图片。论文总共提取了8个pose，这个8个pose基本涵盖了各个角度。每一张图片都生成这样标准的8个pose，那么pose不同的问题就解决。最终用这些图片的feature进行一个average pooling得到最终的feature，这个feature融合了各个pose的信息，很好地解决的pose bias问题。无论从生成图还是从实验的结果来看，这个工作都是很不错的。这个工作把single query做成了multi query，但是你没法反驳，因为所有的图都是GAN生成的。除了生成这些图需要额外的时间开销以外，并没有利用额外的数据信息。当然这个工作也需要一个预训练的pose estimation网络来进行pose提取。

总的来说，GAN造图都是为了从某个角度上解决ReID的困难，缺啥就让GAN来补啥，不得不说GAN还真是一个强大的东西。

后言：以上就是基于深度学习的行人重识别研究综述，选取了部分代表性的论文，希望能够帮助刚进入这个领域的人快速了解近几年的工作。当然还有很多优秀的工作没有放进来，ICCV17的ReID文章就有十几篇。这几年加起来应该有上百篇相关文章，包括一些无监督、半监督、cross-domain等工作都没有提到，实在精力和能力有限。

插播预告

本周四晚上雷锋网 AI 科技评论将推出一场由清华大学在读博士孙奕帆分享的 GAIR 大讲堂，主题为「行人再识别论文及最新相关进展介绍」，了解详情并报名。

参考文献

[1] Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian. Deep transfer learning for person reidentification[J]. arXiv preprint arXiv:1611.05244, 2016.

[2] Yutian Lin, Liang Zheng, Zhedong Zheng, YuWu, Yi Yang. Improving person re-identification by attribute and identity learning[J]. arXiv preprint arXiv:1703.07220, 2017.

[3] Liang Zheng, Yi Yang, Alexander G Hauptmann. Person re-identification: Past, present and future[J]. arXiv preprint arXiv:1610.02984, 2016.

[4] Tetsu Matsukawa, Einoshin Suzuki. Person re-identification using cnn features learned from combination of attributes[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016:2428–2433.

[5] Rahul Rama Varior, Mrinal Haloi, Gang Wang. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:791-808.

[6] Florian Schroff, Dmitry Kalenichenko, James Philbin. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni.

[7] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, Shuicheng Yan. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017.

[8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang, Nanning Zheng. Person re-identification by multichannel parts-based cnn with improved triplet loss function[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1335-1344.

[9] Weihua Chen, Xiaotang Chen, Jianguo Zhang, Kaiqi Huang. Beyond triplet loss: a deep quadruplet network for person re-identification[J]. arXiv preprint arXiv:1704.01719, 2017.

[10] Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017

[11] Xiao Q, Luo H, Zhang C. Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification[J]. 2017.

[12] Rahul Rama Varior, Bing Shuai, Jiwen Lu, Dong Xu, Gang Wang. A siamese long short-term memory architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:135–153.

[13] Liang Zheng, Yujia Huang, Huchuan Lu, Yi Yang. Pose invariant embedding for deep person reidentification[J]. arXiv preprint arXiv:1701.07732, 2017.

[14] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.

[15] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian. Glad: Global-local-alignment descriptor for pedestrian retrieval[J]. arXiv preprint arXiv:1709.04329, 2017.

[16] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. (2017). AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv preprint arXiv:1711.08184.

[17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.

[18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.

[19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni–1353.

[20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.

[21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.

[22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.

[23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.

[24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.

[25] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

[26] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

[27] Wei L, Zhang S, Gao W, et al. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification[J]. arXiv preprint arXiv:1711.08565, 2017.

[28] Qian X, Fu Y, Wang W, et al. Pose-Normalized Image Generation for Person Re-identification[J]. arXiv preprint arXiv:1712.02225, 2017.

1.《【linjunjie】基于深度学习的行人再认识研究综述(下)》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《【linjunjie】基于深度学习的行人再认识研究综述(下)》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/yule/2748930.html

【linjunjie】基于深度学习的行人再认识研究综述(下)

3、基于局部特征的ReID方法

4.基于视频序列的ReID方法

插播预告

参考文献

【谢霆锋儿子】谢婷婷是白纸三字亲生父亲，爱夫真的是50多岁的受伤吗？

【车太贤电影】韩国悬疑新剧，车太贤主演，作家前作9.1分

【linjunjie】凤凰杯魔兽世界第3 39周冠军族120胜艾滋病冠军

【linjunjie】只有“快速”最佳、强大的快速通知计时器：Due评估