在分析全外数据的时候,无论是在样本鉴定还是CNV分析的过程中,都需要对样本进行性别判断,那么我们如何对WES数据进行性别判断那?
一、性别判断思路
对于WES数据,个人认为性别判断主要有三个思路:
1、根据Y/X染色体的reads比,这个最好理解,男性的Y/X染色体的reads比会显著大于女性的;
2、根据X染色体上SNP的杂合比例,由于女性有两条X染色体,所以女性X染色体SNP的杂合位点的比例会显著大于男性;
3、根据SRY基因,男性的SRY基因上有reads覆盖,而女性没有。
当然,以上的三种方法使用的前提是样本没有性染色体大片段拷贝数异常,比如患有特纳综合征或者克氏综合征的样本用到以上的一些方法可能会出现问题。
基于以上思路我们可以自己写脚本进行性别判定,如果您不会写脚本也没有关系,有很多开源的软件可以实现这个功能。
二、性别判定软件
今天给大家分享的是ngs-bits下的一个工具SampleGender,使用方法如下:
SampleGender -in test.bam -method xy
SampleGender -in test.bam -method hetx
SampleGender -in test.bam -method sry
-in:输入bam文件;
-method:性别判定的方法,xy、hetx、sry分别是基于我上面三个思路的方法,Y/Xreads比例(xy), X染色体杂合比(hetx), SRY基因 (sry);
软件的分析结果如下,该样本三种方法的判定结果都是女性:
#file gender reads_chry reads_chrx ratio_chry_chrx
test.bam female 9010 3274631 0.0028
#file gender snps_usable hom_count het_count het_fraction
test.bam female 491 of 525 305 186 0.3788
#file gender coverage_sry
test.bam female 0.00
有的时候我们的分析结果会处在灰区,如下:
#file gender reads_chry reads_chrx ratio_chry_chrx
test.bam unknown (ratio in gray area) 145661 1714764 0.0849
这个时候我们可以修改该方法的阈值,比如将xy方法的男性cutoff调整为0.07,再重新判定。
SampleGender -in test.bam -method xy -min_male 0.07
结果如下,性别被判定为男性:
#file gender reads_chry reads_chrx ratio_chry_chrx
test.bam male 145661 1714764 0.0849
对于不同方法cutoff值的选择,建议可以选择100例以上的训练样本进行训练,得到合理的cutoff值。
欢迎大家关注我的公众号
我爱学生信 公众号 主要分享:CNV、转录组、全外显子和全基因组生信分析流程,欢迎各位交流与讨论!