【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

论文:Relational Knowledge Distillation

【1】关系知识蒸馏,中的关系知识是啥?

如图1,很明显就是字面意思,传统的知识蒸馏是让学生输出与教师模型一致,而本论文提出,输出之间的关系 是要学习的知识

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation
图1

传统的KD loss求法:

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

 其中【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation是一个损失函数,它惩罚老师和学生之间的差异。可以KL散度

【2】咋算的这个关系知识?

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation
图2

如图2,很直观,通过teacher的输出提取出关系【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation与学生的求loss

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

那么其中的【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation怎么算的?

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

就是欧式距离,最终表达式:

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

 【3】角度关系损失?Angle-wise distillation loss

上面给出的任意两点的关系,本部分是计算任意3点的关系,三点的关系依靠指标:角度来度量,那么损失就是教师与学生输出的角度之间的差距 

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

 其他计算方式与距离的相同

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

最终loss: 

 【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

 


​​​​ 

 

 

 

上一篇:2021牛客暑期多校训练营1-Knowledge Test about Match


下一篇:零知识证明(Zero—Knowledge Proof)