一文掌握二代测序NGS

一文掌握二代测序NGS

目录

一. RPKM,FPKM,TPM的区别
二. 二代测序中的barcode
三. De Novo sequencing & resequencing
四. depth & coverage
五. 高通量测序技术
六. Sanger测序
七. 三代测序技术
八. 外显子测序
九. small RNA测序
十. SNP、SNV、InDel、CNV、SV
十一. Duplication
十二. Read
十三. Contig/Scaffold
十四. gene fusion,基因融合
十五. Paired-end reads和single reads

一.RPKM,FPKM,TPM的区别

先说一个背景:
在运用NGS检测基因表达量时,如果直接用每个基因对应的reads数来统计表达量,常常会导致偏差。偏差主要来源于2个方面:
1) 测序深度;
2) 基因长度。
测序深度越深,基因长度越长,对于随机取样的NGS测序来说,越容易测到该基因的reads,即相应的reads数越多。
因此,基于一定标准,将基因表达量均一化之后再做描述,就能避免上述偏差,获得有意义的结果。
在此,介绍几个均一化之后的表达量的概念:

RPKM: Reads Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
FPKM: Fragments Per Kilobase per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
TPM:Transcripts Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
举一个简单例子:
表1. 各基因reads数。

基因名(长度) 样本A 样本B 样本C
alpha(2kb) 10 12 30
beta(4kb) 20 25 60
gama(1kb) 5 8 15
theta(10kb) 0 0 1

大家可以清楚地看到,样本C的4个基因read counts数目明显多於其他两个样本,説明其测序深度较高,基因beta的长度的基因alpha的两倍,也使得其read counts在三个样本中都高於alpha。接下来我们要做就是对这个矩阵进行標准化,分別计算RPKM, FPKM和TPM,为了使数值可读性更好,下面的计算中我们用10代表million。

我们先来説説RPKM怎么算。第一步先將测序深度標准化,计算方法很简单,先分別计算出每个样本的总reads数(这里以10为单位),然后將表中数据分別除以总reads数即可,这样就得到了reads per million. 如下表2:
表2. 各基因reads per million。

文章剩余内容查看<<<<<

 

上一篇:【PTA】报数


下一篇:C++ Primier Plus(第六版) 第三章 编程练习答案