DNA Binding Site Prediction Using a Deep Learning Method:
(深度学习方法预测DNA结合位点)
期刊名缩写:INT J MOL SCI
国际刊号:1422-0067
2021年影响因子/JCR分区:5.923/Q2
中科院分区:二区
代码链接:代码链接
论文链接:论文链接
摘要:
由于DNA结合蛋白上的DNA结合位点为蛋白质功能和药物发现提供了重要线索,因此开发一种新的、可靠的DNA结合位点预测方法是未来研究的关键。然而,目前的DNA结合位点预测方法准确性较差。本文利用三维坐标和表面蛋白质原子的原子类型作为输入,作者训练并测试了一个深度学习模型来预测蛋白质表面的体素成为DNA结合位点的可能性。基于三个不同的评价数据集,结果表明,该模型不仅在两个常用数据集上优于以往的几种方法,而且在三个数据集之间保持一致性,具有良好的鲁棒性。可视化预测结果表明,结合位点也大多位于正确的区域。我们成功地建立了一个深度学习模型来预测靶蛋白上的DNA结合位点。这表明三维蛋白质结构加上蛋白质表面的原子类型信息可以用来预测蛋白质上潜在的结合位点。
结合位点:蛋白质活性位点(active site)/结合位点(binding site)是指**蛋白质在具有生理活性时,与其他物质相结合并起重要作用的区域.蛋白质的生物学功能取决于其结构和序列。**影响蛋白质功能的最常见方法是干扰能够容纳小分子的蛋白质-配体结合位点。国际上提出的蛋白质结合位点的预测方法主要包括四大类:**1、基于序列的预测方法、2、基于结构的预测方法、3、基于理化性质的预测方法和4、综合预测方法。**各种方法都各有优点,但目前尚未有普适的方法可以预测任何蛋白质的功能位点。
体素:体素是体积元素(Volume Pixel)的简称。概念上类似二维空间的最小单位——像素。将3D蛋白质结构视为3D图像。卷积神经网络(CNN)在许多领域都被证明是有效的,并且能够构建来自低级像素的强大输入表示-3D像素,即像素称为体素。
一、介绍
DNA携带有关所有生命过程的遗传信息,蛋白质执行许多维持生命的基本功能。蛋白质和核酸之间的相互作用在大多数细胞过程中发挥着核心作用,如DNA复制和修复、转录、基因表达调节、核苷酸降解、发育(生长和分化)、DNA稳定和免疫/宿主防御。通过蛋白质-核酸相互作用控制基因表达的过程是至关重要的,因为它们允许细胞在必要时刻产生蛋白质,从而增加生物体的多功能性和适应性。确定蛋白质上潜在的结合位点和残基对理解蛋白质与其结合的核酸之间的相互作用至关重要。一个可靠的预测方法将解决这一关键需求,将影响后续研究。
残基:在蛋白质的序列中,氨基酸之间的氨基和羧基脱水成键,氨基酸由于其部分基团参与了肽键的形成,剩余的结构部分则称氨基酸残基。
蛋白质结合位点预测是一项重要的研究基础,在药物发现和靶向方面具有直接的应用价值。尽管包括蛋白核酸复合物在内的复杂结构已经在公共领域得到了解释,但现有的许多核酸结合位点预测方法仅利用序列数据或残基倾向,尚未达到足够的准确性。然而,分子结合和识别是一个复杂的过程,不仅受氨基酸组成的影响。主链和侧链原子及其相对位置的细微变化,改变了蛋白质表面的局部化学环境。以往对核酸结合位点预测程序进行大规模评估的研究也表明,基于结构的预测器往往比基于序列的预测器表现出更好的性能。
与小分子结合位点预测相比,核酸结合位点预测的准确性较低的原因可以解释为:
(1)根据以往研究的观察,小分子结合在蛋白质表面上。因此,利用蛋白质的几何特征或将其与其他化学特征或能量特征相结合的预测方法会产生可靠的结果。另一方面,DNA是一种伸长的分子,它结合在蛋白质相对平坦的表面上。几何数据在核酸结合位点预测中的作用不如在小分子结合位点预测中的作用大。
(2)核酸结合残基的定义尚未标准化,有几种定义。使用了从3.5 Å到6.0 Å的不同截止值来定义结合残基。由于截点不一致,使得评价、比较和改进不同方法的性能变得非常困难。
(3)未采用能量法进行核酸结合位点预测,未考虑蛋白质与核酸的结合亲和性。
(4)通常DNA和RNA结合位点预测方法是分开发展的。虽然DNA和RNA结合蛋白在体内通常具有不同的功能,但DNA和RNA是两种高度相似的分子。它们的结合表面和结合机制可能非常相似。将RNA结合残基/表面视为非DNA结合残基/表面或将DNA结合残基/表面视为非RNA结合残基/表面可能会干扰训练和预测过程。
二、结果分析
2.1 模型统计和预测结果
训练完成后,在训练数据集(表1)和两个外部测试集(PDNA62和PDNA224,表2和表3)上检索预测结果并计算预测模型的性能。这两个测试集并非完全独立于训练集。根据序列比对结果(见补充材料),PDNA62和PDNA224中分别有22个和97个条目,它们可能是同源物,一项或多项训练。我们的预测模型在整个测试集和非冗余集(即排除同系物)上的性能没有显著差异(见表2和表3),这说明我们的预测模型是良好的。
表一,表二
MCC:马修斯相关系数(Matthews Correlation Coefficient)本质上是一个描述实际分类与预测分类之间的相关系数,它的取值范围为[0,1],取值为1时表示对受试对象的完美预测,取值为0时表示预测的结果还不如随机预测的结果,-1是指预测分类和实际分类完全不一致。
为了避免训练过程中的过拟合,将训练数据分成9:1的训练和验证集(见材料与方法)。该模型总体表现良好,MCC为0.584(表1)。正如预期的那样,它在训练子集上的表现略好于验证子集,但在验证集上的总体表现(MCC为0.558)仍然令人满意。观察发现,该模型通常在中等大小的复合物上表现最好(图1)。这可能是因为较小的DNA结合蛋白和复合物的相对有限和粗糙的结合表面很难通过深度学习识别。此外,大多数复合体都是中等大小的,这意味着深度学习模型对中等大小的蛋白质模式的学习效果最好。
上图显示了内含子编码的归巢内切酶i - ppo (PDB ID 1a73)的预测结果。深度学习模型的预测结果是0到1之间的连续数,颜色从蓝色到红色。在图2的左面板中,热图基本定位了大部分DNA结合面网格,有少量假阳性和假阴性。为了产生二元结果并减少假阳性和假阴性,DeepDISE执行了一个聚类步骤。1a73的结果如图2所示。该算法虽然没有达到100%的准确率,但在很大程度上预测了结合区域,为进一步的研究和药物设计提供了线索。
与其他方法相比,DeepDISE使用了前人研究使用的PDNA62和PDNA224数据集进行测试。如表2和表3所示,DeepDISE在准确率、特异性、精度和MCC值等方面都优于现有的其他方法,但其灵敏度低于其他两种方法。然而,从可视化结果来看,假阴性网格并非完全未被检测到,而是以相对较低的分数进行了预测。还需要注意的是,与之前的研究不同,我们的模型使用的是独立于这两个数据集的另一个数据集PDNA63和PDNA224。对比我们的预测结果,如表1 3所示,预测性能非常一致,而不是显示从一个数据集到另一个数据集的急剧下降,这表明我们的模型没有出现过拟合的问题。
创新:
本研究的关键创新之处在于使用了不需要数据输入标准化的网络拓扑结构。这是通过使用一个完全卷积神经网络结构来实现的。卷积网络层最初的设计是为了解决**MLPs(多层感知机)**在应用于图像时的一个缺点,MLPs不能与同层的其他神经元共享。这意味着当应用到图像时,几乎肯定会有冗余关系存储在网络中,如果模式没有出现在训练集中的确切位置,网络将无法轻易识别它们。卷积层通过使用一组对输入数据进行卷积的过滤器来解决这个问题,创建(在大多数情况下)与输入相同的维度/大小(除了特征维度)的输出。因此,这样的层被用于像AlexNet这样的网络中。另外,卷积层能够很好地解决分割问题,在分割问题中,期望的结果是一个点区域。考虑到用这种方法可以很容易地对绑定位点进行预测,我们提出了一个完全卷积的网络可能会比以前的项目获得更理想的结果。
**MLP(多层感知器)**神经网络是常见的ANN( 即Artificial Neuro Network人工神经网络)算法,它由一个输入层,一个输出层和一个或多个隐藏层组成。在MLP中的所有神经元都差不多,每个神经元都有几个输入(连接前一层)神经元和输出(连接后一层)神经元,该神经元会将相同值传递给与之相连的多个输出神经元。最典型的MLP包括包括三层:输入层、隐层和输出层,MLP神经网络不同层之间是全连接的(全连接的意思就是:上一层的任何一个神经元与下一层的所有神经元都有连接)。
Al虽然之前的一些方法同时使用了序列和“结构”特征,包括DSSP(二级结构)、可达表面积(ASA)和h -键和b因子的数量,但这些特征大多是一维的(即与氨基酸序列高度相关的特征)。然而,我们模型的输入数据是四维的(3+1,3D坐标加上原子类型)。这充分利用了深度学习算法在3D图像处理中的优势,并使得DeepDISE在不同数据集中表现出了卓越的性能和鲁棒性。单原子类型可能包含许多集成的物理化学特性,如极性、电荷和疏水性;然而,在输入数据中添加二级结构信息和序列守恒可以进一步提高预测的准确性。
图3显示了2xma的预测结果。本次DeepDISE的预测精度为0.839,敏感性为0.624,特异性为0.963,精度为0.905,MCC为0.651。DNA结合表面大部分被正确识别,评分范围广,用蓝色和红色表示。虽然基于网格计数的预测精度不高,但达到了鉴定DNA结合位点的目的。我们还需要开发一种更好的聚类算法,以便在提出的绑定面中精确地将相邻的中到高分网格分组在一起。此外,一些假阳性网格蛋白表面可以绑定或吸引差异DNA分子,但potentially-bound DNA不是PDB所示结构,因为相互作用不足以稳定DNA的绑定3或5 ’ -终端的结晶蛋白质-DNA复杂。这一问题有待进一步研究。
2.2 方法解析
1、程序将原子转换为4D Numpy数组(3个空间维度,1个-Å体素,加上一个1热编码向量,表示原子类型,包括非表面)。
2、使用DeepDISE模型进行训练或推断。
3、为了训练的目的,我们还生成了一个3D的“ground truth”数组来表明位置是否为绑定区域。这些Numpy数组最终被传递到主Python程序中,使用DeepDISE模型进行训练或推断,从而生成最终预测Numpy数组。
4、这个预测数组代表了模型预测的结合区域的连续热图,预测数组并进行分类。
ground truth:就是参考标准,一般用来做error quantification。比方说要根据历史数据预测某一时间的温度,ground truth就是那个时间的真实温度。
数据集整理。
(1)我们从人工筛选的ccPDB 2.0数据库中获得了560个dna相互作用蛋白的PDB列表。
(2)然后,将下载的文件解析为Python字典对象,以便稍后使用。
(3)此外,我们还下载了两个测试数据集PDNA62和PDNA224,以测试我们的模型,并比较我们的算法与现有算法的性能。
PDB:PDB(Protein Data Bank)是一种标准文件格式, 其中包含原子的坐标等信息, 提交给 Protein Data Bank at the Research Collaboratory for Structural Bioinformatics (RCSB) 的结构都使用这种标准格式。
(4)解析PDB文件,并进行原子分类。在这一步骤中,蛋白质原子从DNA原子中分离出来,以便计算蛋白质表面积。利用这个过程,蛋白质原子被分为表面和非表面。
(5)蛋白质通常由几种元素(即碳、氮、氧、硫和氢)组成。简单地将蛋白质原子分为不同的元素组,却忽略了它们的键合和化学环境。
(6)为了提高性能的分类方案,以避免分配不同的化学原子相同的原子类型(例如,氮位于主链和组氨酸侧链),我们做了一些修改和使用为基础来创建一个新的核酸预测方法,开发了一个预测算法。
2.3 数据处理
确定所有蛋白质原子的原子类型后,最后的预处理已完成。构建一个4D Numpy数组,其中的维度对应于空间维度x、y和z,并构建了一个额外的原子类型维度。在这种情况下,结合区域被定义为蛋白质原子和DNA原子中心之间的6-Å区域。**该区域内的所有体素均设为1,不在该区域内的所有体素均设为0。**最后,输入和遮罩阵列都被旋转成24个独特的90◦3D旋转,并保存到Numpy。
2.4 算法结构
DeepDISE的高级架构是基于一个完全卷积的神经网络,称为UNET。在这种架构下,数据进入网络,并通过一系列由卷积层组成的块。从理论上讲,UNETs相对于其他体系结构表现良好。
在网络的每个块中,是基于DenseNet架构实现了一个独立的架构。DenseNet体系结构中的每一层都是与MISH激活函数配对的单个卷积层。在这种架构下,每一层的输入是初始输入与前一层所有输出的串联和。
2.5 训练
DeepDISE模型是使用一组结合了蛋白质和DNA的PDB进行训练的。PDB记录经过预处理,分成9:1的训练和验证集。在训练集中,每个蛋白- dna复合物旋转24次,生成24个不同方向的结构文件。在24个方向中,为了更好地跟踪模型在训练时的表现,我们将2个方向添加到验证集中,但在本文最终统计计算之前将其删除。模型经过48小时的训练,使用Ranger优化器和损失函数的二元交叉熵。
图S1:训练数据集损失函数轨迹,图S2:验证集损失函数的轨迹。
训练在经过大约2.5个纪元的训练数据之后停止(每1/8纪元计算一次验证)。训练集和验证集的最终二项式交叉熵得分为0.02358,相比之下,如果模型只预测了完整数据集的非绑定(对点最常见的真实预测),则为0.69315。
2.6 聚类和最终预测
DeepDISE模型创建一个连续输出。对于需要二进制分类的应用程序,需要额外的步骤来生成最终预测。对线性分类的初步实验进行了探索,但最终的准确性似乎与模型输出的定性结果不一致。因此,作者决定使用基于k-means聚类的系统。
2.7 结合位点预测的评估
最终的统计数据是在每个网格的基础上计算的,其中每个网格代表综合体中的1-Å体素。根据每个体素与DNA原子和蛋白质原子的接近程度,将其标记为结合或非结合。
2.8 结论
在本研究中,作者开发了一种基于深度学习的方法来建模和预测靶蛋白上的DNA结合位点。由于其鲁棒性,该模型可以应用于不同的数据集,成功地识别大多数靶蛋白的潜在dna结合位点。还证明,通过仅使用三维蛋白质结构加上表面原子上指定的原子类型,能够训练一个深度学习模型来预测DNA结合位点。