高清语音技术(WBS)及其在手机和蓝牙耳机中的实现

高清语音也被称为宽带语音,是一种能为蜂窝网络、移动电话和无线耳机传输高清、自然语音质量的音频技术。与传统的窄带电话相比,高清语音很大程度上提高了语音质量,减少了听觉负担。

通信产业链上的所有网络和设备都需支持高清语音才能体现出该技术的优点。到2011年6月为止,18个国家运营的20种蜂窝网络,以及33家领先的手机品牌都已支持高清语音。通过部署自适应多速率宽带(AMR-WB)语音编码,GSM, WCDMA(UMTS)和LTE蜂窝网络中已经引入了高清语音。此外, 通过使用改良的子带编码(mSBC)语音编解码技术,无线蓝牙耳机也开始支持高清语音,将免提通话与高语音质量结合在了一起。

高清语音的优点同样可以在现有网络中体现出来。随着窄带网络和设备向高清语音过渡,一种名为带宽扩展(BWE)的语音处理技术可以用来在接收终端设备上模拟类似于高清语音的通话质量,为不支持高清语音的设备提供了一个折中的解决方案。

从窄带到高清语音

传统电话系统的带宽被限制在大约300Hz到3.4kHz的音频频率范围内(图表1),这一范围通常被称为窄带语音。尽管现在的电话系统是数字式的,但其还是传承了与传统模拟系统相同的带宽。从语音质量的角度来看,窄带语音缺乏自然语音保真度,常常被形容为单薄和模糊不清。尽管如此,窄带频率范围内完整语句的语音辨别度大概是99%。

高清语音技术(WBS)及其在手机和蓝牙耳机中的实现

高清语音在采样频率为16kHz时音频带宽大约为50Hz至7kHz,因此与窄带语音相比具有更清晰的语音信号。虽然宽带语音并没有显著提高语音清晰度,但是窄带范围之外的3.4kHz至7kHz提高了单词中的摩擦音(例如f、s和th) 的识别度。宽带语音能够提供更加自然真实的语音,在主观音频质量方面比窄带语音有了显著的提高。高清语音扩展出的50Hz至300Hz的低频降低了窄带语音尖细的特点,而扩展出的高频则提高了发音清晰度。

在主观语音质量听力测试中,宽带语音在平均意见得分(MOS)中得到4.5分,而窄带语音则为3.2分(1分为质量差,5分为优秀)。宽带语音质量的提高减少了听力负担和听者的疲劳,特别是当听者处于嘈杂的环境下。移动网络运营商Orange在其网站上提供了一个音频样本作为高清语音优点的例证。2010年6月Orange公司所做的另一项调查进一步向终端用户证明了高清语音的价值:

* 96%的客户对高清语音通话表示满意;

* 86%的测试者表示,兼容高清语音将是他们未来购买手机时的一个选择标准;

* 76%的测试者愿意更换手机以获得高清语音功能。

此外,2006年爱立信和T-Mobile进行的用户试用调查也证实了高清语音的优点。在150个抽样用户中,超过70%的人认为使用了高清语音手机后通话质量更好,在嘈杂的环境中对话质量有所提高。

使用高清语音需要语音通信系统中的所有环节都支持宽带语音频率范围。采用高清语音技术的关键是在蜂窝网络和手持电话中协同部署AMR-WB编解码。作为一种宽带语音编码,AMR-WB的有效音频带宽是窄带编码AMR-NB的两倍。要完成一个高清语音通话,基站和手持电话之间协同传输以AMR-WB编码的语音,在这一过程中没有进行语音修改或从终端到终端的转换编码。如果高清语音连接无法实现,系统就会取而代之使用窄带AMR-NB编码。

扩展语音带宽

可以预计,在引入高清语音的过程中,通信系统中的某些环节会因无法支持而将语音转换为窄带频率,这实际上是在降低语音质量,增加听力负担。人工带宽扩展(BWE)通过在通信系统的终端环节为窄带语音信号加入人工生成的语音内容,弥补在传输过程中损失的高频和低频语音内容。通过这种方法,BWE将高清语音的优势拓展到了窄带和过渡的混合带宽的语音通信系统中。

BWE算法使用产生语音的声源过滤模型来估算和产生扩展频率范围内的语音内容。根据该模型,语音是由一个声源(例如声带)再加上一个模拟声道的模型产生的。BWE算法根据窄带语音估算出一个宽带声源模型,然后利用该模型的参数估算出其丢失的宽带频率内容。在实际应用中,BWE独立于源编码和发送路径处理过程的,因此它可以与传统的窄带和混合带宽的电话网络共存。

BWE主要应用于蓝牙耳机和免提设备。在这些设备的接收终端上,窄带CVSD编码语音信号首先进行解码,然后经过BWE的处理产生给受话方的扩展带宽语音信号。BWE也可以应用在高清语音电话网络上,将语音信号扩展到带宽为14kHz的超宽带(SWB)频率范围。

高清语音和音效增强

将高清语音和音效增强处理方法(如噪声抑制(NS),回声消除(AEC) )结合在一起可以改善在噪声环境下的语音清晰度,并可以提高整体通话质量。噪声抑制技术能够分析掺杂了噪音的对话,并清除噪音,增加语音辨别度。 噪声抑制算法通过大量频点估算出噪声功率谱密度,然后将噪声从对话出抽取出来。与窄带的处理相比,宽带噪声抑制在计算噪声频谱时包含了更多的频点数据来压缩扩展频率范围内的噪声。除噪声抑制外,回声消除处理方法能消除发话者和麦克风之间的声音耦合所产生的回音信号。回声消除的工作原理是从麦克风接收到的信号中分离出一个经过过滤和延迟的副本。回声消除技术能够计算出宽带语音中的自适应过滤系数。

蓝牙耳机中的高清语音

由于当前蓝牙耳机已经成为免提移动通话的流行配置,因此它们能够兼容高清语音是十分重要的。这一功能已经通过蓝牙mSBC语音编解码器变为现实。

蓝牙高级音频分发模型(A2DP)规定使用子带编码(SBC)为强制音频编解码系统,以保证手持电话和耳机间的互操作性。SBC是一种低复杂度的编解码技术,压缩比率适中,支持16kHz, 32kHz, 44.1kHz和48kHz的采样率,也因此成为蓝牙高清语音的当然之选。对于16kHz的宽带语音而言,SBC能以64kbps数据速率对其进行4:1的压缩。但是,当SBC编码帧通过蓝牙传输时,它可能与底层蓝牙数据包不相匹配。因此,mSBC编解码技术被开发用于匹配SBC和蓝牙数据包,并于2011年5月被定义为Bluetooth Hands-Free Profile 1.6中的强制编解码方式。

在编解码性能方面,mSBC可与ITU-T G.722相媲美,这一宽带语音编解码系统通常被用来作为新编解码系统的质量评判参考。一般来说,mSBC在无差错语音信号方面的客观音频质量得分比G.722更高。mSBC编码系统也在多重编码/解码通道方面保持了比G.722更高的平均语音质量水平。

小结

与传统窄带语音传输相比,高清语音提供了十分优秀的语音质量,减少了在嘈杂环境中的听力负担。在听力测试和用户试用中,高清语音都表现出了显著优势。可以通过在蜂窝网络和手持电话中部署AMR-WB语音编解码系统、在蓝牙耳机中部署mSBC语音编解码系统来实现高清语音。此外,手持电话和耳机中采用噪声抑制和回音消除等语音处理算法能够使高清语音体验更佳。随着网络运营商和设备生产商逐渐将高清语音引入消费市场,蓝牙耳机上的带宽扩展处理方法能够将高清语音的优点带给窄带和混合带宽的蜂窝网络用户。

附录:

窄带与宽带音频的特征如下:

CVSD: pcm: 8kHz, 16 bits, 1 channel.

compression ratio: 16 (controller encoding)

insert ratio: 8

pcm data rate= 16kB/s =8K*16/8

CVSD data rate=8kB/s =16kB/s* 8/16

air data: CVSD

mSBC: pcm 16kHz, 16 bits, 1 channel.

compression ratio: 4 (host encoding: 240->60)

pcm data rate= 32kB/s

mSBC data rate=8kB/s = 32kB/s / 4

air data: transparent data (mSBC)

参考文档:

1 http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=21411227&id=5748646

上一篇:.Net Core JWT 动态设置接口与权限


下一篇:Element ui 2.8版本中的table树不能默认全展开解决方法