论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

基于卷积神经网络学习前端滤波器组参数的心音异常检测

作者:Ahmed Imtiaz Humayun1, Shabnam Ghaffarzadegan2, Zhe Feng2and Taufiq Hasan1

摘要:心音异常的自动检测在心脏病的早期诊断中,尤其是在低资源环境下,发挥着至关重要的作用。此任务的最新算法使用一组有限冲激响应(FIR)带通滤波器作为前端,然后使用卷积神经网络(CNN)模型。在这项工作中,我们提出了一种新的CNN结构,它使用时间卷积(tConv)层将前端带通滤波器集成到网络中,使得FIR滤波器组参数变得可学习。研究了可学习滤波器的不同初始化策略,包括随机参数和一组预先定义的FIR滤波器组系数。利用提出的tConv层,我们对可学习FIR滤波器进行了约束,以保证线性和零相位响应。使用Physonet/CinC 2016数据集,对平衡的4倍交叉验证任务进行实验评估。结果表明,与最新的系统相比,所提出的模型具有更好的性能,而线性相位FIR滤波器组方法在总体精度指标方面比基线方法提供了9.54%的绝对改进。

1 介绍

心血管疾病(CVD)每年造成约1770万人死亡,占全球死亡率的31%[1]。心脏听诊是最流行的非侵入性和成本效益的早期诊断各种心脏疾病的程序。然而,有效的心脏听诊需要训练有素的医生,这一资源在世界低收入国家尤其有限[2]。因此,基于机器学习的自动心音分类系统在护理点位置使用可连接智能手机的数字听诊器实施,对心脏疾病的早期诊断具有重大影响,特别是对于缺乏熟练医生和地理分布不均的国家。

心音图(PCG)即心音的自动分类在过去几十年中得到了广泛的研究。PCG的分析可大致分为两个主要领域:(i)PCG信号的分割,即检测第一和第二心音(S1和S2)和(ii)将记录分类为病理或生理记录。传统的心音分类方法采用人工神经网络(ANN)[3],支持向量机(SVM)[4]和隐马尔可夫模型(HMM)[5]。2016年Physionet/CinC挑战赛发布了4430个PCG记录的档案,这是迄今为止最广泛的开源心音数据集。时间、频率和统计特征[6]、梅尔频倒谱系数(MFCC)[7]和连续小波变换(CWT)是生理网挑战赛参赛者常用的一些特征。在*评分系统中,Maknickas等人[8]从未分段的信号中提取梅尔频谱系数(MFSC),并使用2D CNN。Plesinger等人[9]提出了一种新的分割方法,基于直方图的特征选择方法和每个特征的参数化sigmoid函数来区分类别。在挑战中采用了各种机器学习算法,包括SVM[10]、k-Nearest Neighbor(k-NN)[7]、多层感知器(MLP)[11]、[12]、随机森林[6]、1D[13]和2D CNNs[8]以及递归神经网络(RNN)[14]。大量的提交使用了一个集合分类器和投票算法[6],[11],[12],[13]。Potes等人[13]提出了性能最好的系统,该系统将一维CNN模型与Adaboost弃权分类器相结合,使用基于阈值的投票算法。滤波器组在音频特征工程中用作标准的预处理步骤,并且在1DCNN之前的[13]中也包含了滤波器组。然而,滤波器组的结构及其截止频率的定义并没有特别的生理意义。在这项工作中,我们提出了一个基于CNN的有限冲激响应(FIR)滤波器组前端,它可以学习FIR滤波器的频率特性,从而更有效地识别病理性心音。

2 数据集

A PhysioNet/CinC挑战数据集

2016年PhysioNet/CinC挑战数据集[15]是来自七个不同研究组的PCG记录的累积,包括一个开放训练集和一个隐藏测试集。数据集包含六个子集(a-f),对应于贡献组。训练数据包括从764名患者中收集的3153个心音记录,共84425个心动周期,范围从35到159 bpm。数据集是类不平衡的,有2488个正常心音记录和665个异常心音记录。

B 交叉验证数据集准备

考虑到数据集的不平衡性和记录的数量较少,我们对数据集进行了划分,分为4次交叉验证,验证集平衡(正常和异常记录的数量相等)。PhysioNet已经提供了301个记录的验证集(Fold 0)。其余的三个折叠是通过随机抽样创建的,没有替换。

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

 

 图1:在准备的4倍交叉验证数据集中的PCG记录

3 提出方法

A 基线实施

我们的基线系统遵循了Physionet/CinC 2016挑战赛的*得分方案[13]中提出的CNN系统。首先,我们对信号进行预处理,将其分解为四个频段(25?45、45?80、80?200、200?500 Hz)。接下来,使用PCG分割[16]提取心动周期,并将零填充为2.5s长。每个心动周期的四个不同波段被输入到1D-CNN的四个不同输入分支。每个分支有两个内核大小为5的卷积层,然后是一个整流线性单元(ReLU)激活和一个最大池2。第一卷积层有8个滤波器,而第二卷积层有4个。四个支路的输出经过展平和串联后被送入MLP网络。MLP网络有一个由20个ReLU激活的神经元组成的隐层和一个sigmoid激活的神经元作为输出。采用二元交叉熵作为损失函数的Adam优化方法。由此产生的模型提供了对每个心动周期的预测,这些预测是整个记录的平均值,并四舍五入用于推断。

B 可学习滤波器组:tConv层

对于滤波器系数为b0,b1,...bN,输出样本y[n]通过输入信号x[n]的最近样本的加权和获得。这可以表示为:

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

 

 通过相邻层之间神经元的局部连接模式,一维CNN在其输入和内核之间执行互相关。具有奇数长度N+1的核的卷积层的输出可以表示为:

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

其中b0,b1,…bn是核权重。考虑到因果系统,卷积层的输出变为:

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

 

 其中σ(·)是激活函数,β是偏差项。因此,具有线性激活和零偏差的1D卷积层充当具有N/2额外延迟的FIR滤波器[17]。我们将这些层表示为时间卷积(tConv)层(图2)[18]。自然地,这些层的核(类似于滤波器组系数)可以用随机梯度下降(SGD)来更新。这使得tConv层能够学习将信号分解为具有病理意义的子带的系数。[13]中使用的前端滤波器组与使用tConv层的模型架构结合在一起。得到的架构如图3所示。

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

 

图2:tConv层作为FIR滤波器组的操作

 

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

 

 图3:提出了CNN模型结构,包括一个可学习的前端滤波器组(tConv层)

 

在tConv网络的实施过程中,对基线模型进行了进一步的修改,包括:添加He等人[19]提出的初始化方案,在最大池之前退出激活,以及在每个卷积层之后添加批处理规范化。如表1所示,使用Parzen估计树[20],重新调整超参数以获得最佳性能。

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

 

 

C tConv层的变量

1) 线性相位tConv:tConv层的FIR直觉对内核的频率和相位响应提出了新的见解。特别是,大的核可以在激活过程中引入明显的相位畸变。滤波器的相位响应以弧度表示每个输入分量正弦将经历的相移。具有非线性相位的卷积核将在PCG信号的高频(例如杂音)和低频(例如收缩期和舒张期)模式之间引入时间偏移。为了减轻这种影响,我们提出了一种新的卷积结构称为线性相位tConv。线性相位(LP)是指滤波器的相位响应是频率的线性函数(不包括+/-π弧度处的相位包络)。一个中心有对称权值的核将具有线性相位,也就是说,它将为所有通过的频率/模式引入相等的延迟,从而确保没有延迟失真。结果将在中进一步讨论第四节-B。

2) 零相位tConv:零相位(ZP)滤波器是线性相位FIR滤波器的特例,其相位响应为零。将正反向卷积合并到tConv层[21],我们提出了一种零相位tConv层,其操作如图4所示。如果x[n]是输入信号,h[n]是核的脉冲响应,x(e)和Y(e)是x[n]和h[n]的傅里叶变换:

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

注意,时域中的翻转操作等效于频域中的复共轭。因此,ZP-tConv的效应只是频域中的平方幅度的乘积。

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

图4:零相位tConv(ZP-tConv)层中的正反向滤波

 

4 结果与讨论

A 实验评价

在我们的4倍交叉验证数据集(第2-B),在训练过程中对损失函数进行加权,以强调异常记录,因为它们仅占数据的21%。作为性能指标,计算灵敏度、特异性和Macc(灵敏度和特异性的平均值)并平均4倍。提出的tConv模型也在FIR滤波器参数固定的情况下进行了评估。3-A(tConv非学习)。结果总结见表二。

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

结果表明,采用LP-tConv方法和FIR初始化,最佳系统的平均交叉折叠Macc为87.10(±6.79)%。这表示比基线CNN系统绝对改善了9.54%[13]。与表二所示的基线相比,所提议的tConv系统的其他变体也提供了优越的性能。

B tConv层的内核初始化

正如3-C.1中所讨论的,使内核对称可以减少相位失真,这有一个额外的好处,即在tConv层中需要一半的可学习参数。与ZP-tConv相比,学习对称模式改进了Macc度量(表2)。我们还试验了零,随机和FIR初始化(初始化FIR系数为3-A)方案。可视化学习系数及其频率响应(图5),我们观察到,与低频系数相比,高频系数受训练的影响较小。

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

 

 图5:在图的面板中,每一行代表CNN模型的输入分支(1-4)。对于每个输入分支,列表示:(a)初始FIR系数,(b)tConv中的学习FIR系数,(c)LP tConv中的学习FIR系数(d)通过LP-tConv的学习滤波器的幅度(蓝色)和相位响应(绿色)

 

C 数据集的可变性及结果分析

在图6中,我们比较了所提出的LP-tConv系统在不同数据子集上的性能。该模型在PhysioNet数据的SUAHSDB(training-f)子集上表现最低。与其他Fold相比,Fold 0的性能不合格(表2)。我们无法找到信号质量和模型性能之间的任何相关性。正常心音PCG的长期谱平均值(LTSA)[22]显示了记录期间使用的传感器频率特性的差异,如图7所示。在这里,JABES电子听诊器和其他听诊器的频率包络之间有明显的区别。大约67%的训练数据属于training-e,这就产生了模型对该子集特征的依赖性。此外,training-e是使用一种独特的基于压电传感器的听诊器记录的[15],这也可能是导致次优泛化的原因之一。Fold 0在其验证集中包含较低百分比的training-e,这解释了验证性能较差的原因。

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

图6:在Physionet心音数据集的不同训练子集上验证LP-tConv每心动周期的准确性

 

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

图7:使用不同传感器采集的正常心音记录的长期谱平均值(LTSA)

5 结论

在这项研究中,我们提出了新的tConv层与CNN作为学习滤波器组正常异常心音分类。对tConv层的不同初始化策略进行了研究,同时增加了限制条件,以确保得到的FIR滤波器具有零和线性相位响应。实验结果表明,在使用physinet心音挑战数据集准备的交叉验证任务中,与最先进的解决方案相比,该体系结构的性能指标有了显著的提高。

参考文献

[1] W. H. O. fact sheet 317, Cardiovascular diseases (CVDs), May 2017.

[2] U. Alam, O. Asghar, S. Q. Khan, S. Hayat, and R. A. Malik, “Cardiac auscultation: an essential clinical skill in decline,” Br . J. Cardiology, vol. 17, no. 1, p. 8, 2010.

[3] H. U? guz, “A biomedical system based on artificial neural network and principal component analysis for diagnosis of the heart valve diseases,” J. Med. Syst., vol. 36, no. 1, pp. 61–72, 2012.

 

[4] A. Gharehbaghi, P . Ask, M. Lindén, and A. Babic, “A novel model for screening aortic stenosis using phonocardiogram,” in Proc. NBCBME. Springer, 2015, pp. 48–51.

[5] R. Sarac ?O? gLu, “Hidden markov model-based classification of heart valve disease with pca for dimension reduction,” Eng. Appl. Artif. Intell., vol. 25, no. 7, pp. 1523–1528, 2012.

[6] M. N. Homsi and P . Warrick, “Ensemble methods with outliers for phonocardiogram classification,” Physiol. Meas., vol. 38, no. 8, p. 1631, 2017.

[7] I. J. D. Bobillo, “A tensor approach to heart sound classification,” in Proc. IEEE CinC, 2016, pp. 629–632.

[8] V . Maknickas and A. Maknickas, “Recognition of normal–abnormal phonocardiographic signals using deep convolutional neural networks and mel-frequency spectral coefficients,” Physiol. Meas., vol. 38, no. 8, p. 1671, 2017.

[9] F. Plesinger, I. Viscor, J. Halamek, J. Jurco, and P . Jurak, “Heart sounds analysis using probability assessment,” Physiol. Meas., vol. 38, no. 8, p. 1685, 2017.

[10] B. M. Whitaker, P . B. Suresha, C. Liu, G. D. Clifford, and D. V . Anderson, “Combining sparse coding and time-domain features for heart sound classification,” Physiol. Meas., vol. 38, no. 8, p. 1701, 2017.

[11] E. Kay and A. Agarwal, “Dropconnected neural networks trained on time-frequency and inter-beat features for classifying heart sounds,” Physiol. Meas., vol. 38, no. 8, p. 1645, 2017.

[12] M. Zabihi, A. B. Rad, S. Kiranyaz, M. Gabbouj, and A. K. Katsaggelos, “Heart sound anomaly and quality detection using ensemble of neural networks without segmentation,” in Proc. IEEE CinC, 2016, pp. 613–616.

[13] C. Potes, S. Parvaneh, A. Rahman, and B. Conroy, “Ensemble of feature-based and deep learning-based classifiers for detection of abnormal heart sounds,” in Proc. IEEE CinC, 2016, pp. 621–624.

[14] T.-c. I. Yang and H. Hsieh, “Classification of acoustic physiological signals based on deep learning neural networks with augmented features,” in Proc. IEEE CinC, 2016, pp. 569–572.

[15] C. Liu, D. Springer, Q. Li, B. Moody, R. A. Juan, F. J. Chorro, F. Castells, J. M. Roig, I. Silva, A. E. Johnson et al., “An open access database for the evaluation of heart sound algorithms,” Physiol. Meas., vol. 37, no. 12, p. 2181, 2016.

[16] D. B. Springer, L. Tarassenko, and G. D. Clifford, “Logistic regressionHSMM-based heart sound segmentation,” IEEE Trans. on Biomed. Eng., vol. 63, no. 4, pp. 822–832, 2016.

[17] R. Matei and G. Liviu, “A class of circularly-symmetric CNN spatial linear filters,” vol. 19, pp. 299–316, 01 2006.

[18] T. N. Sainath, R. J. Weiss, A. Senior, K. W. Wilson, and O. Vinyals, “Learning the speech front-end with raw waveform CLDNNs,” in Proc. ISCA Interspeech, 2015.

[19] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE CVPR, 2016, pp. 770–778.

[20] J. S. Bergstra, R. Bardenet, Y . Bengio, and B. Kégl, “Algorithms for hyper-parameter optimization,” in Adv. Neural Inf. Process. Syst., 2011, pp. 2546–2554.

[21] B. E. Shi, “Estimating the CNN steady state using forward-backward recursions,” in Proc. IEEE CNNA, 2006, pp. 1–6.

[22] D. Byrne, H. Dillon, K. Tran, S. Arlinger, K. Wilbraham, R. Cox, B. Hagerman, R. Hetu, J. Kei, C. Lui et al., “An international comparison of long-term average speech spectra,” The J. Acoust. Soc. Am., vol. 96, no. 4, pp. 2108–2120, 1994.

论文翻译——2018_Learning Front-end Filter-bank Parameters using Convolutional Neural Networks for Abnormal Heart Sound Detection

上一篇:kubernets集群的安全防护(下)


下一篇:CPU 问题 —— 数据收集(官网)-- Debug high CPU usage in .NET Core