期刊名:《Algorithms》
JCR分区:Q2
代码地址:https://github.com/lyn-007/XGB4mcPred
文章地址:https://www.mdpi.com/1999-4893/14/10/283
论文发布日期:2021年9月29日
一、摘要
背景:DNA n4 -甲基胞嘧啶(4mC)在生物学功能中发挥着重要作用,是一种特殊的表观遗传机制。
方法:首先,我们使用One-Hot编码在原始4mC位点序列的相邻和间隔的核苷酸、二核苷酸和三 核苷酸上作为特征向量。
然后,利用XGBoost算法预先训练的特征向量的重要值作为阈值,过滤冗余特征,从而显 著提高了构建的XGB4mcPred预测器识别4mC站点的识别精度。
结果:显著提高了构建的XGB4mcPred预测器识别4mC站点的识别精度。在6个多物种数据集中, 4mC位点和非4mC位点的核苷酸序列具有明显的偏好,
结论:预测器XGB4mcPred显著优于其他最先进的预测器,与其他最先进的预测器相比,得到了 不同程度的改进。
二、结果
如表3所示,XGB4mcPred预测优于之前的最先进的机器学习四个数据集上的预测因子A. thaliana, C. elegans, E. coli, D. melanogaster. Especially on the C. elegans,独立测试集的ACC值首次突破了90%的值。与目前最先进的机器学习预测器相比,D. melanogaster数据集的准确性也达到了91.8%,提高了1.1~3.2%。在E. coli,数据集上,与之前最先进的机器学习预测器相比,我们的预测器显著提高了3.7~7.8%。对于A. thaliana数据集,我们也得到了轻微的改进。然而,在G. subterruneus和G. pickeringii数据集上,该模型的泛化略低于Meta-4mCpred预测器。
将XGB4mcPred预测器应用于6个独立的数据集,计算出4个指标。详细的对比结果见表4
三、数据集和方法
数据集:(E. coli),(G. pickeringii),(G. subterraneus),(C. elegans),(A. thaliana),(D. melanogaster).
数据集序列:776、1138、1852、3108、3956、3538。
序列长度:41
得到4mc个数:134、200、350、750、1250和1000。
方法:one hot 编码、XGBoost
One-Hot编码直接对原始的DNA序列进行编码,从而保留了最原始、最简单的序列信息。它主要使用N位状态寄存器对N个状态进行编码。每个状态都有其独立的寄存器位,并且在任何时候只有一个位有效。对邻近的k-核苷酸进行One-Hot编码。然后对间隔的gapk核苷酸残基之间的k-核苷酸进行One-Hot编码,获得更丰富的DNA序列信息来表示原始DNA序列,其中gapk表示间隔的个数。
XGBoost:两步优化。本研究中用于优化的超参数包括:max_depth、gamma、learning_rate、subsample、colsample_bytree、colsample_bylevel、reg_alpha和reg_lambda。对这些参数值的所有可能的组合进行多次实验,并将使模型性能最好的参数值作为优化值。考虑到这些数据集的大小和特征维度,本研究XGBoost分类器的超参数设置范围如表1所示。
四、结论
1、利用KNN、SVM、RF和XGBoost分类器对确定的最优特征子集的超参数进行训练和调整,最终确定XGBoost训练模型为最优分类器;
2、采取串行融合策略;
3、采用最优预测器XGB4mcPred进行10次交叉验证和独立测试评估。
web服务器:http://www.xwanglab.com/XGB4mcPred