【翻译】实用多维声技术:可还原的全球面声(Practical Periphony:the Reproduction of Full-Sphere Sound)

Michael A. Gerzon

Mathematical Institute,University of Oxford,Oxford OX1 3LB,England

本文的草稿版本于1980年,2月25日,在伦敦举办的第65届Audio Engineering Society Convention上发表

  

多维声(periphony)是指使用多个扬声器进行全球面各方向上的声音录制与回放的技术,这些方向不仅包括水平切面上的,还包含纵向切面上的。

 

由于本文的标题中提到了“实用多维声技术”(“Practical Periphony”),那么这里就需要讨论一下什么是非实用多维声技术。

图1描述了一种常见的非实用多维声技术,也就是在十二面体的12个面以及24个顶点上都放置扬声器。这种设计显而易见的不可实现,因为生活中的房间并不是消声室。

 

另一种非实用多维声技术如图2所示,就是对称四面体系统,或者其他类似的使用这种结构的扬声器系统。这种系统最开始由Pierre Schaeffer在1952年左右提出,随后由Granville Cooper以及Jerry Bruck在1970年左右进行再次发展。这种条件下,系统不实用的主要原因在于回放结果有许多缺陷(这些缺陷将在后面进行表述)。这些缺陷是由于四面体扬声器系统自身的结构造成的。自从1970年代开始重新研究多维声回放系统之后,就一直在避免系统不可实现(图1)以及劣质的听感(图2)这两种情况。

随着心理声学的空间定位理论研究的发展,新回放系统也变得可实现。这些研究提供了许多数学理论,并证明了一种优秀且简单的设计可以得到优良的听感。基于这些理论产生的系统被定义为Ambisonic。目前(注:此论文的时代),仅有一些具有水平面环绕声的Ambisonic设备,但是对于垂直面的环绕声这些理论也同样适用。一部分多维声解码器使用的设计公式将在文章最后进行阐述,本文将尽量避免过多的数学和定理的阐述,而是结合设计思路进行最大简化。

首先我们将会介绍一些在设计工作所使用的心理声学理论。简单来说,人耳具有两种定位声音的方式,一种是针对低于700Hz的低频声音,另一种是针对高于这个频率的高频声音。对于低频声音,双耳使用相位差进行定位,而针对高频声则使用强度差。这两种声音定位的方式分别基于Makita理论以及能量矢量理论。Makita理论中提到,如果声音来自人脸正对的方向,则声音到达两个耳朵的时间相同,也就是说双耳相位差(interaural phase difference)为零。(在三维世界中需要注意一下这里的描述,因为即使人脸面对一个特定方向时,依旧随意旋转。因为这里定义的双耳相位差为零的前提是人头只能绕着他所面对的方向轴进行旋转。还有一点,Makita理论对于垂直面的声音定位效果并不理想)。同样的,基于能量矢量理论,来自人脸朝向的高频声音是不存在双耳幅度差(interaural amplitude difference)的。

有一种方式可以描述上文中提到的朝向,以及这些理论中没覆盖到的方向。假设进行图3的扬声器布局(为了简化描述,这里只绘制了水平方向)。从扬声器组的中心位置向扬声器绘制向量,并定义这些向量的长度是该方向上由“所有”扬声器的和。对于低频信号,这里的“所有和”指每一个扬声器的产生的输出振幅增益(amplitude gain),对于高频信号,这里的“所有和”指能量增益(energy gain)(注:能量与振幅成平方比关系)。(对于低频信号,逆相位(antiphase)的声音具有负的增益,这种情况下,它的向量指向就是远离扬声器)。现在将所有向量的模(长度)加在一起,就得到了位于中心位置的“所有”声音的和。同时将所有向量的加到一起,最终的到的方向向量,就是Makita定位(低频)或者能量向量定位(高频)。

当脸面向其他方向,而不再是Makita向量或者能量向量所指的方向,那么产生的虚拟声音方位就会发生变化,也就是说当一个人转动他的头时,虚拟声向也会发生变化。只有当最终合成的向量的模等于所有扬声器向量模的和时,虚拟声向才在角度变化的情况下依旧保持稳定,显然如果声音也可以移动时这个结论就会成立,比如只有一个“扬声器”时(注:如现场录音时仅使用的一个麦克风)。此时虚拟声向向量的模与扬声器向量和的模的比值称为声音的向量模(the vector magnitude of sound),并且理论上应当等于一。好的解码器在设计时应当保证所有的Makita定位和能量向量定位在所有频段都是准确的,设针对低频的向量模(the vector magnitude of sound,注:比值)rV=1,而针对高频的能量向量的向量模设为rE并趋近于一,在实际操作时会发现能量向量的模总是小于一,因此目标就是为使其尽量的大。

首先帮助设计出理想的回放设备的理论基础如下:

Diameric Decoder Theorem 对称解码理论

Makita和能量向量定位重合的条件是:

(1)所有的扬声器距离中心位置的距离相同

(2)扬声器以两两相对的方式进行摆放

(3)送到每一对扬声器的信号都是相同的

额外的:

在进行“理想”的扬声器(speaker)布局时,利用“扬声器矩阵”(speaker matrix),只需要使用n+1路放大器(amplifier)即可实现,n表示扬声器对数

比如:  4个扬声器(2对)需要3个放大器

     6个扬声器(3对)需要4个放大器

     8个扬声器(4对)需要5个放大器

图2中提到的四面体扬声器无法满足对称解码理论,也就是Makita和能量向量定位不重合的。实际上,通过计算能量向量定位发现,针对高频声音会更加向四个扬声器靠近,如图4中左-前-上象限所表示的锥形区域所示。中心位置是任意一个扬声器,可以看到,比如,一个来自水平面“左-前”方的声音的能量向量定位,实际上会被推向扬声器的另一侧!而这种原理扬声器的问题,在最开始的实验中就被发现,这也是试图寻找另一种扬声器阵列的原因。

有三种扬声器布局满足对称解码理论,分别展示在图5至7中。他们是“cuboid”、“octahedron”、“birectangle”布局。在所有布局中,都不需要满足某一个矩形面长宽相等的条件,因为可以通过调整送入扬声器的信号来实现这一点,其中“birectangle”布局具有一定的优势,就是其自带了一对立体声扬声器以便满足传统的立体声录音制式。

现在我们来讨论一下针对上述布局,生成合适信号并送入扬声器的过程。送入多维声解码器的信号需要对每一个方向的声音的解析能力相同,ambisonic B-format的4通道信号就满足这个需求。这四个信号是W,X,Y,Z(图8&9)。W是全指向的信号(omnidirectional signal),比如,来自四面八方具有相同增益的声音,而X,Y,Z是三个8字形信号(figure-of-eight signal)(也就是用来进行方向余弦运算的声音)分别指向前方、左侧以及上方。为了使B-format带有相同的平均能量,X、Y、Z需要将其增益值乘以√2。

这种B-format信号也可以来自于4个多维声编码信号的相位振幅矩阵,如具有4通道多维声格式的UHJ(注:立体声矩阵编码UD-4,Matrix H,45J Stereo encoding system)。完整的多维声解码器在图10中表示。图中包含了一个产生B-format的输入矩阵,随着频率的增高,能量向量的模逐渐成为定位的主要因素,而随后的一组架滤波器(shelf filter)此时用来调整低频的向量模rV。图11中展示了架滤波器的特性,并对于平面的以及控件的ambsonic解码器都适用。需要注意的是,对于两种情况而言,架滤波器的设定是不同的。图10中的解码器同时还包含了高通滤波器(大约在20Hz)以便满足有限距离的扬声器。这是ambisonic解码系统的标准特性,关于这一特性已经在其他地方说明。最终输出的振幅矩阵需要根据扬声器的布局进行调整。在实际使用时,一种简单的实现方式如图10所示,就是提前预制好常用的扬声器矩阵(如图5,6,7中的矩阵),在使用时随时切换,同时为了能够根据真实的布局情况进行精确的调整,图中还增加了分别针对X、Y、Z方向的连续型电位器。

随着图10中的解码器可以被实现,对阵解码理论也变得可实现,这时B-format信号可以满足Makita以及能量向量重合的条件。通过对矩阵的研究发现,输出振幅的矩阵可以通过图12中的公式进行计算,这里不进行证明过程的推导。

最后,我们需要讨论一下系统设计中的平衡问题。理想状态下,就像前面提到的,针对稳定的声场模型,能量向量的模rE应当为一。但是基于B-format的水平面ambisonic的均值为0.707,虽然有一种水平面拜访的扬声器布局可以令某个方向的该值提升至0.8,但同时会使另一个方向的值降为0.6。实际上均值在0.7左右的rE已经基本满足实际需要。对于2个通道的环绕声系统,不可变的解码器最多提供0.5的rE值,此时的声场定位效果很差。

通过证明已经得知,如果使用B-format的4路信号去还原空间声场,那么rE的均值仅为0.577,这也是定位系统的最低限制值。因此非常重要的一点就是要小心的使用架滤波器去调整该值。此外,还需要选择合适的扬声器布局来改变rE的取值。在实际中,与平面定位不同的是,rE的取值需要根据方向来进行调整(如图13)。根据这种调整需要仔细的选择合适的扬声器布局。

 

原文:

【翻译】实用多维声技术:可还原的全球面声(Practical Periphony:the Reproduction of Full-Sphere Sound)【翻译】实用多维声技术:可还原的全球面声(Practical Periphony:the Reproduction of Full-Sphere Sound)【翻译】实用多维声技术:可还原的全球面声(Practical Periphony:the Reproduction of Full-Sphere Sound)【翻译】实用多维声技术:可还原的全球面声(Practical Periphony:the Reproduction of Full-Sphere Sound)【翻译】实用多维声技术:可还原的全球面声(Practical Periphony:the Reproduction of Full-Sphere Sound)【翻译】实用多维声技术:可还原的全球面声(Practical Periphony:the Reproduction of Full-Sphere Sound)

上一篇:nf_conntrack: table full, dropping packet


下一篇:mysql学习笔记