WangDeLiangReview2018 - (1)引入

【WangDeLiangOverview2018】

Supervised Speech Separation Based on Deep Learning: An Overview

DeLiang Wang / Jitong Chen @ Ohio

IEEE/ACM Trans. ASLP2018

 

【目录】

1. 引入

2. 学习机器(learning machines)

3. 训练目标(training target)

4. 特征

5. 单声道分离

    5.1 语音增强(speech separation)

    5.2 语音增强的泛化

    5.3 语音去混响 & 去噪(speech dereverberation & denoising)

    5.4 说话人分离(speaker separation)

6. 多声道分离(阵列分离)

7. 更多内容
 

【摘要】

语音分离(speech separation)任务是将目标语音从背景干扰中分离出来。传统的语音分离被当作信号处理问题研究。一个近年来出现的方法是将语音分离抽象成一个监督学习(supervised learning)问题,基于训练数据对语音、说话人、背景噪声进行学习。特别是,近年来提出的使用深度学习的监督分离(supervised separation)大大加速了分离性能的发展和提高。文章提供一个过去几年基于深度学习的监督分离综述。首先,介绍语音分离的背景、监督分离的构造;然后,介绍监督分离的3个主要部分:学习机器(learning machine)、训练目标(training target)、声学特征(acoustic features)。接下来,文章的大部分放在对分离算法的回顾上,包括单通道方法(monaural):语音增强、说话人分离、去混响,以及多通道方法(multi-microphone)。泛化(generalization)对于监督学习很特殊,泛化中的关键问题也被讨论。

【正文】

语音分离(speech separation)的目标是从背景干扰(background interference)中分离目标语音。人类听觉系统(auditory system)有着非常强悍的能力,来多声源混音(multiple sources mixture)中提取单个声源(sound source)。在像鸡尾酒会这样的声学环境中,我们可以在其他说话人(speaker)和背景噪声存在的情况下仍高效地聆听其中一个说话人。由于Cherry在他1953年的论文[26]中如此提出过,因此语音分离也常常被成称为鸡尾酒会问题(cocktail party problem)

语音分离是声源分离(sound source separation)的一个特例。从感知上,源分离(source separation)对应了听觉流分离(auditory stream segregation),这是听觉感知(auditory perception)中一个广泛的话题。最早在流分离(stream segregation)上做系统性研究的是Miller和Heise[124],他们发现听者将2个交替的正弦音调(tone)组成的信号分成2个流(stream)。Bregman和他的同事在这上面做了很多研究,并在一个具有开创性的论著[15]中引入了听觉场景分析(ASA, Auditory Scene Analysis)的概念,指的是将声学混音(acoustic mixture)分离并将同源声信号划分到同一组的感知过程。ASA分为同步组织和时序组织:同步组织(sequential organization),又叫分组(grouping),继承同时存在的声音;时序组织(sequential organization)依时间集成声音。将听觉特征表示为时间-频率表示法时,例如声谱图(spectrogram),则用于ASA的组织主要方法包括:时频近似,谐度(harmonicity),同幅同频调制(common amplitude and frequency modulation),开始-结束同步(onset offset synchrony),同位置(common location),以及先验知识,其他方法见[163][15][29][11][30][32];分组方法也对语音分离有很大影响[201][154][31][4]。在本综述中,语音分离主要指从有噪混音(noisy mixture)中分离目标语音信号的计算任务。

语音分离能做得多好?一种方法来衡量噪声中语音感知性能的方法是测量语音感知阈值(speech perception threshold),即达到50%可理解性/清晰度(intelligbility)时所需信噪比(SNR)水平。Miller[123]回顾了人类在被多种音调、宽带噪声、以及其他声音干扰时的可理解度。对听者做词理解性/此清晰度(word intelligibility)测试,结果如图1。一般来说,音调没有宽带噪声的干扰性强。比如,语音仍然是可理解的/清晰的(intelligible)哪怕有20dB更强的复杂音调存在。宽带噪声对语音感知是干扰性最强的,对应的SRT大约是2dB。当干扰包含其他话音(voice)时,SRT取决于多少个干扰的说话人(interfering speaker)存在。如图1,单个干扰者(interferer)时SRT大约时-10dB,但2个干扰者时急剧上升到-2dB。SRT保持不变当干扰(大约-1dB)包含4个或更多话音。不同种类的干扰存在这23dB的巨大差距!因此,需要指出,有听力损失(hearing loss)的听者,比正常听力的听者有明显更高的SRT,从宽带平稳噪声的几dB到干扰语音的10-15dB不等[44][127],显示出更差的语音分离能力。

WangDeLiangReview2018 - (1)引入

语音作为人类做主要的交流方式,从背景干扰中进行语音分离很关键,由于感兴趣的语音,或者叫做目标语音(target speech),常常被来自其他声源和混响(源于表面反射)等加性噪声(additive noise)破坏。尽管人类能够轻而易举实现语音分离,但被证明构造一个和人类听觉系统匹配的自动系统是非常有挑战性的。在1957年的书中[27],Cherry观察到:“迄今为止没有任何机器被构造出能解决鸡尾酒会问题”。他的结论对于我们领域,很可惜,在之后的60多年里仍然成立,虽然本综述所回顾的一些近年来的进展已经开始破解这个问题。

出于其重要性,数十年里,语音分离已经在信号处理中被广泛研究。取决于传感器或麦克风(microphone)的数量,可以将分离方法划分为单通道方法(单麦克风)和阵列方法(多麦克风)。单通道分离的2种传统方式是语音增强和计算听觉分析。语音增强(speech enhancement)分析语音和噪声的普遍统计特性,然后进行噪声估计从有噪语音中估计干净语音[40][113]。最最简单和最普遍的增强方法是谱减法(spectral subtraction)[13],噪声估计(estimated noise)的功率谱(power spectrum)被从有噪语音中减去。为了估计背景噪声,语音增强技术往往假设背景噪声是平稳的,也就是说他的谱特性时不变,或者至少比语音更平稳。计算听觉场景分析(CASA, Computational Auditory Scene Analysis)基于听觉场景分析[15]的感知原理,并利用分组线索(grouping cue),例如音高(pitch)和开始(onset)。例如,串联算法(tandem algorithm)通过交替进行音高估计和基于音高的分组进行分离语音。

有着2个或多个麦克风的阵列(array)使用不同的原理来实现语音分离。波束形成 (beamforming),或者叫空间滤波(spatial filtering),通过适当的阵列设置(configuration),增强特定方位的到达信号,由此衰减来自其他方位(direction)的干扰[164][14][9]。最简单的波束形成器(beamformer)是延迟-求和技术(delay-and-sum),将多个麦克风信号按照目标方位调整相位并叠加,利用相差来衰弱其他方位的信号。噪声衰减程度取决于空间、大小、阵列设置,一般来说衰减随着麦克风数量和阵列长度增加而增加。显然,空间滤波无法被应用于目标和干扰源同位或者位置接近的情况。而且,当有混响时波束形成的可用性大大减小,因为混响影响声源的方位。

近年来出现的方法将语音分离看作是监督学习问题。最初对监督语音分离的构造受到CASA里时频掩膜(time-frequency masking, T-F masking)概念的启发。作为一种分离,时频掩膜使用2D掩膜(权重)来分离目标声源[117][172][170]。CASA的一个主要目标是理想二值掩膜(IBM, Ideal Binary Mask),它显示了在混合信号的视频表示(T-F representation)中目标信号是否对某个时频单元(T-F unit)具有统治性。听力测试显示,IBM大大提高语音对于听力正常(NH, Normal-Hearing)和听力损伤(HI, Hearing-Impaired)的可理解度[16][1][109][173]。IBM作为计算目标,语音分离便成为二分类问题,是监督学习的一种基础形式。这种情况下,IBM在训练(training)时用来作为目标信号,或者叫目标函数(target function);在测试(testing)时,学习机器目标是估计IBM。虽然IBM作为监督分离中的首个训练目标,但IBM绝对不是唯一的训练目标,第3小节呈现了一系列训练目标,很多都被证明是更有效地。

由于语音分离被构造成分类问题,数据驱动方法(data-driven approach)在语音处理社群便被广泛研究。在过去10年,监督分离利用训练数据和不断增长的算力资源[21]大幅推进SOTA性能(State-Of-The-Art)。监督分离特别受益于深度学习的快速崛起——也就是本综述的主题。监督分离算法可以广泛划分为以下几个部分:学习机器、训练目标、声学特征。在本文,我们首先回顾3个部分。然后我们开始讲述代表性算法,单通道和阵列方法会在不同小节中涵盖。由于泛化是监督分离中很特殊的问题,这个问题会被探讨。

我们对综述中的一些概念进行阐明以防止混淆。语音分离(speech separation/segregation)指的是将目标语音从背景干扰中分离出来的普遍性任务,干扰可能包括非语音噪声、干扰语音、或者都有、以及房间混响。进一步的,我们认为语音分离和鸡尾酒会问题等同,而不仅仅是Cherry[26]提出的分离2个话语(utterance)。语音增强(speech enhancement),或者叫去噪(denoising),指的是分离语音和非语音噪声。如果限制到分离多个话语,我们称之为说话人分离(speaker separation)

 

上一篇:企业云计算难道仅靠大肆宣传


下一篇:Codeforces 1295E. Permutation Separation (线段树)