SNP问题大集锦
最近小编对基因检测很感兴趣,也跟风去测了一下,这一测不要紧,吓得小编几天没睡着觉,这不,检测报告上称小编的减肥能力弱,虽然小编一家都是胖子,唯有小编一个瘦子,原本以为是基因发生了突变,然并卵,是未到时候......
难过之后小编恢复了理智,凭什么你说小编减肥能力弱,小编表示不服,仔细读了报告后发现,原来是这些SNP位点搞的鬼,又是SNP!
话说小编最近收到许多关于SNP的问题,现整理如下:
1、什么是SNP?
单核苷酸多态性(single nucleotide polymorphism,发音为“snips”),主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性,这种多态性只涉及到单个碱基的变异。SNP 在人类基因组中的发生频率比较高,大约平均每1000个碱基对中就有一个多态位点,估计其总数可达300万个甚至更多。
2、为什么说SNPs是二等位基因系统,而不像RFLP和SSR是多等位基因系统?
因为组成DNA的碱基有四种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,又叫双等位基因(biallelic)。由于SNP的二态性,非此即彼,在基因组筛选中SNPs 只需要+/-的分析,而不用分析片段的长度。 SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(嘧啶和嘧啶之间或者嘌呤和嘌呤之间的交换transition)或颠换(transversion嘧啶和嘌呤之间的交换)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况,而具有转换型变异的SNP约占2/3,其它几种变异的发生几率相似。
3、SNP在基因组内的形式有哪些,都会对生物表型有影响吗?
在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。总的来说,有三类:位于基因周边的SNPs(pSNPs),位于基因间的SNPs(iSNPs),以及位于编码区内的SNP(codingSNP,cSNP)。cSNP比较少,但由于它发生在编码区内,且在遗传性疾病研究中却具有重要意义,因此cSNP的研究更受关注。从对生物的遗传性状的影响上来看,cSNP又可分为2种:一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。
4、SNP在人群中的基因频率有什么趋势?
首先,先形成的SNP在人群中常有更高的频率,后形成的SNP所占的比率较低。
其次,各地各民族人群中特定SNP并非一定都存在,其所占比率也不尽相同,但大约有
85%应是共通的。
5、SNP作为第三代分子标记相比前两代的分子标记有哪些特点?
SNP数量多,密度高;
SNP适于快速、规模化筛查;
SNP易于基因分型,等位基因频率容易估计,易实现分析的自动化;
SNP具有更高的遗传稳定性。
6、SNP与点突变有什么区别?
SNP是单碱基多态性,是一个群体概念,这个差异占群体的1%以上。若 germlinemutation频率<1%,我们认为是一个点突变。
SNP是各种生物都有的,通过同源基因比对得到的,一般不会发生变化,而点突变只对单一基因而言,所以从数量上SNP比点突变多得多。
如果突变发生在生殖细胞,则可以遗传,但是只要这个突变群没有达到总群体的1%,它就只有一个突变株/系,达到了1%就是多态性了。
7、SNV和SNP的区别?
SNV,即单核苷酸位点变异(single nucleotide variants),SNP,即单核苷酸多态性(single nucleotide polymorphism),这两个概念都是指单核苷酸的改变,只不过SNP一般是二态的,而SNV没有这样的限制。
另外,如果在一个物种中该单碱基变异的频率达到一定水平就叫SNP,而频率未知(比如仅仅在一个个体中发现)就叫SNV。
8、SNP的研究思路?
首先寻找研究相关的 SNP 位点
(1) 如果是单基因遗传,特别是罕见遗传的疾病,可以通过外显子测序对一个家系的几个个体进行测序,筛选低频突变,随后找那种能改变蛋白功能的突变,最后做共分离分析。
(2) 如果是多基因病或者质量性状定位,那么2个方法,一是,全基因组关联分析GWAS,用散发型个体,做关联分析。不过这种方法要的样本量比较大,一般都要大几百个,多的都要好几千。二是,基因家系的连锁分析,这个主要是定位,然后在后续做一些东西,一般用芯片或者全基因组重测序或者简化基因组测序。
(3) 还可以通过参考资料锁定研究相关的基因,通过数据库查到基因内部的 SNP 位点。
(4) 查找相关的参考文献,找到研究相关的 SNP 位点。
然后,开始进行SNP位点验证,采用对照组和实验组的大量样本,验证寻找到的实验相关的 SNP 位点;
(1) SNaPshot 法:基于多重PCR和ABI 3730xl 测序平台的 SNP 分型检测;
(2) 直接测序法:基于一代测序平台的SNP分型检测;
(3) 质谱法:基于Sequenom平台的SNP分型检测;
(4) Taqman探针法:基于荧光定量PCR仪平台的SNP分型检测,等等。
最后根据已有的对照组和实验组的SNP分型结果与实验目的进行关联分析:
(1) 与疾病的关联分析等;
(2) LOH分析;
(3) 遗传连锁分析:
(4) 单倍型分析。
还可以进行包括HW平衡分析、聚类分析、品种鉴定、单体型分析等数据分析。
9、如何筛选SNP位点?
对于候选SNP的筛选,有很多种考虑,总的趋势和出发点是能够涵盖的SNP越多越好。
(1) 选择minority allele频率大于5%;
(2) 正式试验前可选30人左右的人群做该基因的测序,看看有没有和数据库不一致的SNP;
(3) 除了TagSNP外,还可选择进化保守区的SNP;
(4) 看看该区域内有没有其他人群相关功能或易感阳性SNP的报道;
(5) 改变氨基酸编码的SNP。
目前更倾向于筛选对于某一疾病的重要候选基因,对其基因全长进行重新测序(这一过程称为SNP rediscovery 或者是SNP resequencing),然后选出有意义的位点再进行genotype,并构建haplotype。
10、对于测序得到的SNP位点,如何检测是否为新发现的位点?
对于新发现的SNP位点,需要判断这些SNP位点是否已知。如果该SNP位点是前人报道,需要查找rs号和引用参考文献,如果为新发现的位点则需要将该位点递交到NCBI上,获得ss号。这样在投稿论文是可以为文章增色不少。
具体操作如下:
(1) 输入网址www.pubmed.com 进入pubmed主页,选择SNP,输入要查找的基因名称,点search,出现的网页为该基因已发现的所有SNP位点。
(2) NCBI上有Limits,可以限制条件,缩小寻找范围,减少工作量。因为我一般做的是人的基因,所以在Limits中的Organism选择Homo sapiens,根据SNP位点在全基因组中的位置,在function class中选择相应的区域,如coding、 intron等,还有一个常用的是SNP Class,选择完毕后,点go即可。
(3) 限定条件后,候选SNP位点就会变得很少。如果该位点在编码区,如:p.Gly499Arg,则在 ‘编辑’ 里选择 ‘在此页中查找’ 输入:p.Gly499Arg 或者499,如果在网页中有相同的标志,则还需点击相对应的rs号码进入,查看rs号中的参考序列和自己的对照序列,正向和反向互补配对进行比对,确认是否为自己测序发现的位点。
(4) 如果你发现的SNP位点通过上一步骤没有发现,还不能确定你的位点是新发现的位点,需要避免由于该基因的参考序列不同或者自己本身在计算变异位点时存在失误而导致查询不到,常常还需要将该位点前数个或者数十个碱基输入在本页中查找栏中查找,同时,该区域中碱基的方向互补配对序列也需输入查询。
(5) 经过第三步和第四步均未查到的变异即可认为是新发现的变异。恭喜你,现在就需要通过NCBI网站中的submit进行递交,获取ss号。
11、SNP的功能验证?
前面SNP的相关性分析只是通过样本得到的信息经统计分析而得到的结论,但是是否真的具有生物学功能需要有功能验证试验,这样以后的实用性将更大,也更具有说服力。
SNP功能验证经典的验证方法是模式生物,基因定点敲出,但费用高、周期长,还不一定能模拟出表型。
或者是做生物信息分析,然后研究功能通路的改变,再用实验验证,这个方法最大的问题是基因表达的改变一般都需要组织,而有些复杂疾病很难取到组织。
12、想要在SCI杂志上发表影响因子大于5的SNP文章,需要做哪些准备工作?
除了前面说的研究方法、研究思路及使用恰当的功能验证方法外,对于疾病研究、病理样本和对照样本要有非常大的样本量,通常是几百例,最好是大于1000例。另外,一定要结合相关的环境风险因素一起进行统计学分析,比如LD,单体型分析等等。