Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

2022-04-05 12:22:11

INTERSPEECH是由国际语音通讯协会（International Speech Communication Association, ISCA）创办的语音信号处理领域*旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。

今年的INTERSPEECH 2021于8月30号～9月3号在捷克布尔诺举行。本次的会议采用线上视频会议和线下会议同步进行的方式。

继去年11篇论文入选INTERSPEECH 2020之后，本次INTERSPEECH 2021阿里巴巴达摩院语音实验室再度有9篇论文被接收。本次被接收的论文研究方向包括语音识别，语音合成，后处理技术，前端信号处理技术等研究方向。

下文将对我们入选论文进行解读。

一、语音识别

1. 极低尺寸的设备端语音识别系统

Extremely Low Footprint End-to-End ASR System for Smart Device

近年来，端到端语音识别变得流行起来，因为它可以将声学、发音和语言模型集成到单个神经网络中，并且优于传统模型。在端到端方法中，基于注意力的模型，例如，Transformer 已经成为主流方法。端到端模型打开了在智能设备上部署语音识别系统的大门，但它仍然受到模型参数量大的困扰。本文为智能设备提出了一种占用空间极低的端上语音识别系统，以实现在不牺牲识别精度的情况下满足资源受限的目标。我们设计了跨层权重共享结构来提高参数效率，进一步利用包括稀疏化和量化在内的模型压缩方法，以减少内存存储并提高智能设备的解码效率。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

我们在公开的 AISHELL-1 和 AISHELL-2 基准测试中评估了本文的方法。在 AISHELL-2 任务上，所提出的方法实现了 10 倍以上的压缩（模型大小从 248MB 到 24MB），同时性能损失很小（CER 从 6.49% 到 6.92%）。

二、语音合成

1. EMOVIE: 中文普通话开源情感语音数据库

EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model

近几年来，神经网络语音合成技术愈发受到人们的关注，也取得了很好的成果。但是，由于缺少高质量情感数据以及先进的语音合成情感模型，如何合成更具表现力的音频成为了研究人员的一个新的挑战。在这篇文章中，我们开源了一份中文普通话情感语音数据库——EMOVIE。这个数据库的音频来自于7部中文普通话电影，考虑到需要尽量低的背景噪声，电影类型主要是故事片和喜剧片。基于字幕中的文本和时间戳信息，我们进行切音、转录和筛选，最终获得了9724句音频，共约4.18h。在数据标注的时候，我们采用 -1、-0.5、0、0.5、1五个情感极性（emotion polarity）对每个音频进行人工标注。通过极性分布图（Fig 1.a）可以看到，极性为-0.5和0.5的音频占比约79%，而-1和1的音频占比较小。通过长度分布图（Fig 1.b），EMOVIE的音频的平均长度为1.78s，每句音频平均8.93个字。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

进一步地，我们还提出了一种简单但有效的情感语音合成模型——EMSpeech，它通过输入的文本信息来预测情感标签，进而生成更具表现力的音频。通过语谱图和表现力MOS，我们看到，相比于FastSpeech2，EMSpeech能够生成更具情感的音频。同时，通过实验，EMSpeech也有一定的情感控制能力。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

三、后处理技术

1. 联合文本和音素表征学习的口语理解预训练

Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning

用于口语理解 (SLU) 的传统级联架构中，已经观察到自动语音识别（ASR）错误可能会损害自然语言理解的性能。端到端 (E2E) SLU 模型已经提出用单个模型将语音输入直接映射到所需的语义，从而减轻 ASR 错误传播。最近，针对这些 E2E 模型已经探索了预训练技术。

本文提出了一种联合文本和音素预训练的表征学习方法，可以利用音素信息来提升口语语言理解任务对于ASR错误的鲁棒性。我们探索了音素标签作为一种高层次的语音特征，设计和比较了基于条件掩码语言模型目标和句间关系目标的预训练方法。我们也探索了结合文本和音素信息在模型finetune的有效性。FluentSpeechCommands和SNIPS两个公开数据集上的实验结果表明，提出的方法可以显著提升基线模型效果以及提升口语语言理解任务对于ASR错误的鲁棒性。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

2. 区分式自训练的标点预测

Discriminative Self-training for Punctuation Prediction

标点预测任务对于提升ASR输出文本的可读性和提升下游自然语言处理任务的效果起到至关重要的作用。然而，要想取得好的标点预测效果，往往需要大量的标注的口语文本，这往往是耗费大量人力物力的。

本文提出了一种区分式self-training方法，即weighted loss和区分式label smoothing的方法，来利用无标注的口语文本数据。在英文公开数据集IWSLT2011和一个内部中文数据集上，实验表明我们提出的方法可以进一步提升很强的基线模型，包括BERT, RoBERTa和ELECTRA。另外，提出的区分式self-training方法相较经典self-training方法的效果有一定提升。我们在IWSLT2011公开数据集上获得了新的SOTA，有1.3 F1的绝对提升。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

四、前端信号处理技术

1. 联合声学特征和空间特征的会议场景混叠语音检测技术

Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings

多人会议场景，存在一个普遍的现象是多人同时说话造成的混叠语音。这种混叠语音的存在对于后续语音增强，语音识别等任务都造成了很大的挑战。本研究我们探索如何有效的检测出多人会议的音频信号中的混叠语音。不同于过往的只利用单通道的音频信号进行混叠语音检测，我们的研究探索了实际录制的8通道语音信号利用信号处理提供的声源空间信息和音频声学信息来联合进行建模进行混叠语音检测。特别的，我们提出了two-stream DFSMN来有效联合建模两种特征，以及提出了一种基于attention的pooling技术来实现句子级的建模。我们在真实录制的会议数据集上进行了实验验证，结果显示联合音频和空间信息的混叠语音检测相比于基线基于音频的检测方法可以获得明显的性能提升。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

2. 带定向麦克风的线性阵列的最小范数差分波束成形

Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones

差分麦克风阵列技术（DMA，differential microphone array）或者差分波束成形技术（differential beamforming），由于具有较多的物理特性优势，尤其适合语音信号处理，近年来成为信号处理领域研究热点，同时在工业界也被广泛使用。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

我们在差分麦克风阵列理论研究持续耕耘，继去年收录环形阵列差分波束论文之后，本次收录论文进一步在线性阵列上面拓展研究，利用指向性麦克风在线性麦克风阵列上进行差分波束设计，我们将提出的方法称之为线性差分指向性麦克风阵列（Linear differential directional microphone array (LDDMA)），此方法扩展了线性差分阵列（linear differential microphone array，LDMA）的设计理论，通过理论分析证明，指向性麦克风组成的差分阵列可以在WNG（白噪声增益）和DI（指向因子）两个维度都比目前业界常用的全向性麦克风组成的差分阵列取得明显优势。同时也探索了指向性麦克风的陷零点和差分波束陷零点的数学关系。

3. 基于神经网络掩码和注意力模型的实时多通道语音增强

Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model

近年来，虽然语音增强方法的性能得到了很大的提升，但是在远场和复杂的会议室环境中，基于麦克风阵列的语音增强方法仍然有一系列开放的问题需要进一步解决。

本文提出了一种实时的多通道语音增强方法，它由所设计的带注意力机制的复数值掩码估计网络和差分波束形成两个部分组成。

具体来说，在训练阶段，复数值掩码估计网络从多通道数据中估计出单通道目标掩码。在测试阶段，为了进一步抑制噪声，我们首先利用差分波束形成技术来抑制来自非目标方向的干扰信号，从而获得相对干净的频谱。然后将估计的掩码作用于差分波束成形所输出的频谱，作为最终的输出结果。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

实验结果表明，本文所提出的方法在PESQ和MOS等指标上取得了优于现有技术的性能。

4. 在混响环境中使用定向麦克风阵列进行 DOA 估计的 Cramer-Rao 下限

Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments

目前主流的DOA估计方法主要使用全向麦克风阵列拾取信号，利用麦克风间的相位信息进行DOA估计。本文针对混响环境下DOA估计误差大的问题，使用指向性麦克风阵列代替全向麦克风阵列，结合使用振幅和相位信息，增加DOA方法的鲁棒性，并利用克拉美罗下界（CRLB）进行理论分析。

本文通过建模混响信号为isotropic noise，建立混响的互功率谱密度矩阵，进而计算出对应的费雪信息矩阵，得到DOA估计的CRLB。通过理论分析，即对比CRLB发现对于线性阵列，基于指向性麦克风的误差下界低于基于全向麦克风的误差下界。同时利用SRP、MVDR和MUSIC三种DOA方法通过实验对比表明，基于指向性麦克风的RMSE低于基于全向麦克风的RMSE。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

5. 基于盲源分离的回声消除、去混响、声源分离统一框架

Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation

回声消除、去混响、声源分离是语音增强系统中的三个主要问题。传统系统通常采用的是级联架构，三个子任务分别由三个独立的模块完成，三个模块有各自的理论背景、目标函数和优化方法。级联架构的系统虽然具有灵活性，但是各自模块的任务迭代到最优，并不等于全局结果达到最优。本文将回声消除、去混响、声源分离这三个子任务都统一到了盲源分离的信号模型框架下，并使用auxiliary-function based in-dependent component/vector analysis (Aux-ICA/IVA)的方法进行求解。本文中的方法具有统一的信号模型、目标函数、迭代方法，实验证明这种统一框架有望比独立模块的系统具有更好的语音增强性能。

Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读

达摩院语音实验室论文下载链接：

1.极低尺寸的设备端语音识别系统

Extremely Low Footprint End-to-End ASR System for Smart Device

论文链接：https://arxiv.org/abs/2104.05784

论文来源：阿里巴巴达摩院语音实验室独立完成

2. EMOVIE: 中文普通话开源情感语音数据库

EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model

论文链接：https://arxiv.org/pdf/2106.09317.pdf

论文来源：阿里巴巴达摩院语音实验室与浙江大学合作完成

3. 联合文本和音素表征学习的口语理解预训练

Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning

论文链接：https://arxiv.org/pdf/2104.10357.pdf

论文来源：阿里巴巴达摩院语音实验室独立完成

4. 区分式自训练的标点预测

Discriminative Self-training for Punctuation Prediction

论文链接：https://arxiv.org/pdf/2104.10339.pdf

论文来源：阿里巴巴达摩院语音实验室独立完成

5. 联合声学特征和空间特征的会议场景混叠语音检测技术

Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings

论文链接：

https://www.isca-speech.org/archive/pdfs/interspeech_2021/zhang21w_interspeech.pdf

论文来源：阿里巴巴达摩院语音实验室独立完成

6. 带定向麦克风的线性阵列的最小范数差分波束成形

Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones

论文链接：

https://www.isca-speech.org/archive/pdfs/interspeech_2021/huang21_interspeech.pdf

论文来源：阿里巴巴达摩院语音实验室独立完成

7. 基于神经网络掩码和注意力模型的实时多通道语音增强

Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model

论文链接：

https://www.isca-speech.org/archive/pdfs/interspeech_2021/xue21_interspeech.pdf

论文来源：阿里巴巴达摩院语音实验室与湖南大学合作完成

8. 在混响环境中使用定向麦克风阵列进行 DOA 估计的 Cramer-Rao 下限

Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments

论文链接：

https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21h_interspeech.pdf

论文来源：阿里巴巴达摩院语音实验室与湖南大学合作完成

9. 基于盲源分离的回声消除、去混响、声源分离统一框架

Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation

开源代码地址：https://github.com/nay0648/unified2021

论文来源：阿里巴巴达摩院语音实验室独立完成

码农公寓

一、 语音识别

1. 极低尺寸的设备端语音识别系统

二、 语音合成

1. EMOVIE: 中文普通话开源情感语音数据库

三、 后处理技术

1. 联合文本和音素表征学习的口语理解预训练

2. 区分式自训练的标点预测

四、 前端信号处理技术

1. 联合声学特征和空间特征的会议场景混叠语音检测技术

2. 带定向麦克风的线性阵列的最小范数差分波束成形

3. 基于神经网络掩码和注意力模型的实时多通道语音增强

4. 在混响环境中使用定向麦克风阵列进行 DOA 估计的 Cramer-Rao 下限

5. 基于盲源分离的回声消除、去混响、声源分离统一框架

相关文章

一、语音识别

二、语音合成

三、后处理技术

四、前端信号处理技术