Gao Y, Yang Z, Yang W, et al. Plant-ImputeDB: an integrated multiple plant reference panel database for genotype imputation[J]. Nucleic Acids Research, 2020.
本文作者首先构建了一个包含了不同作物的reference panel,随后根据该panel搭建了Plant-ImputeDB数据库。该panel包含12种植物。数据库支持在线基因型估计及SNP、block的搜索与下载。同时,支持在两种知名的imputation软件间进行选择。
下表展示了panel中包含的物种。
下图展示了该数据库的工作流程。其大致分为数据收集(A)、数据处理(B)、数据库内容和网页前端(C-F)。
在基因型插补软件Beagle、Minimac3和Impute2之间,作者选择了Beagle和Minimac3进行reference panel的搭建。首先,Beagle对于筛选后的SNP(MAF > 0.01, call rate > 0.5)采用默认参数进行reference panel的生成,然后采用Minimac3将VCF格式转换为M3VCF格式。
随后,作者对插补结果进行了测试。首先,作者进行了5倍交叉验证策略计算了所有物种的估算准确性。对于每个物种,参考面板中的所有样本均随机分为五倍,其中一倍被选为研究种群,其余倍数每次均用作参考面板。考虑到一般array的特点,作者从研究群体的整个基因组中随机选择了100000个SNP,并掩盖了其他SNP。然后,使用Beagle和Minimac3插入具有默认参数的基因型。
对于模拟数据与真实数据,作者进行了对比,并计算了concordance rate (CR)和\(R^2\),以此评价插补性能。所有这些验证结果表明,参考面板和插补工具可以相对较高的精度用于不同群体的基因型插补。
数据库开发采用了Flask (version 1.1.1) 和AngularJS (version 1.6.1),运行在Apache 2 web server (version 2.4.18) 上,并采用了 MongoDB (version 3.4.2)作为数据库引擎