作者|孟让
转载自知
导语:遵循“从韩丁的开创性工作出发,谈谈知识提炼的最新进展”,作者对知识提炼的重要性做了较为全面的总结。最后一篇文章主要介绍了注意力转移、FSP矩阵和暗秩,重点是寻找不同形式的“知识”。
本文主要介绍了Tucson 17年发表的文章《神经电性迁移》,总结了注意力和Gram矩阵,利用CGANs制作KD,并以非模型压缩为目的,介绍了相互学习的KD和重生NN。
论文:
喜欢什么:通过神经元选择性转移提取知识
https://arxiv.org/pdf/1707.01219.pdf
通过条件对抗网络的知识提取训练浅层和薄层网络加速
https://arxiv.org/pdf/1709.00513.pdf
深度相互学习
https://arxiv.org/pdf/1706.00384.pdf
重生神经网络
https://arxiv.org/pdf/1805.04770.pdf
一、神经元选择性转移
等号右边第一项是交叉熵,第二项是加核技能的平方最大平均差损失。MMD损失如下:
g是Gram矩阵,每个元素是
gram矩阵表示空中嵌入的空之间的相似性(前提是需要通道正则化)。
实验
老师:ResNet1001
学生:盗梦空间
不同核函数和不同知识提取方法的NTS比较如下:
f()是学生,t是老师,MT是软标签法。
2.CGAN师生整体框架
用残差结构的MLP作为鉴别器,训练圆盘的损失函数为二元交叉熵
当然,您也可以使用LSGAN,它声称是最容易收敛的:
disc _ loss =(TF . reduce _ mean((disc _ t-1)* * 2)+TF . reduce _ mean((disc _ s-0)* * 2))/2 . gen _ loss = TF . reduce _ mean((disc _ s-1)* * 2)
但是不好意思,训练还是很难。
根据辅助分类器GANs的思想,类信息也被应用到分类器中,分类器的输出是一个C+2维向量。c是类别数。
Net2是从p2到p1的距离:
如果是多个网络,比如k >:两个网络互相学习,那么每个学生网络的损失:
BANs是取代这个交叉熵为:
本文还讨论了非最大分量在logit中的作用,并利用教师网络logit加权和非最大分量置乱进行了实验。
原文链接:https://zhuanlan.zhihu.com/p/53864403
◆
◆
1.《知识蒸馏 关于知识蒸馏,这三篇论文详解不可错过》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《知识蒸馏 关于知识蒸馏,这三篇论文详解不可错过》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1323442.html