论文:Relational Knowledge Distillation
【1】关系知识蒸馏,中的关系知识是啥?
如图1,很明显就是字面意思,传统的知识蒸馏是让学生输出与教师模型一致,而本论文提出,输出之间的关系 是要学习的知识
传统的KD loss求法:
其中是一个损失函数,它惩罚老师和学生之间的差异。可以KL散度
【2】咋算的这个关系知识?
如图2,很直观,通过teacher的输出提取出关系与学生的求loss
那么其中的怎么算的?
就是欧式距离,最终表达式:
【3】角度关系损失?Angle-wise distillation loss
上面给出的任意两点的关系,本部分是计算任意3点的关系,三点的关系依靠指标:角度来度量,那么损失就是教师与学生输出的角度之间的差距
其他计算方式与距离的相同
最终loss: