j-vector(Multi-Task Learning for Text-dependent Speaker Veriﬁcation)

2024-03-11 10:57:16

本文采用多任务学习方法，在学习说话人特征的同时，学习文本短语的知识，进行text-dependent的说话人识别

实现流程

采用多任务学习，目标函数为：

C代表交叉熵，y1，y2代表了真实标签，y1,y2,是模型输出，共享的参数可由两个目标函数共同优化。
测试时将输出层去掉，取输出的平均值，所得即为j-vector。
最后使用PLDA进行打分。

实验

与原始的d-vector、r-vector相比，j-vector取得了较好的结果。

码农公寓