之前说,实验室主要使用的是10X的数据,但是我现在对于10X的数据的了解很少。所以,想更进一步的了解一下。从网页上搜集到资源,整理如下。
RNA-seq技术的主要的目标就是(1)定性(2)定量。所以,在某种程度上,就是围绕着两个目标进行的,只不过提出的解决方法会有所不同。
一句话总结:单细胞测序技术与单细胞核测序技术的区别?
简而言之,就是单细胞测序技术存在一些弊端。只能够取样于新鲜组织,而一些临床的冷冻的样本,无法得到利用。在解离的过程中,一些细胞这种应激的条件下,基因的表达发生变化。同时,一些不易解离的细胞类型也会因此被过滤掉,而使我们最终的分析丧失一些重要的信息。
因为这些问题的存在,所以我们现在发明了单细胞核技术。主要的不同点在于,单细胞测的是细胞质+细胞核的遗传信息,而单细胞核如其名,测的是细胞核内的遗传信息。由于细胞核膜相对于细胞膜是更加稳定的,所以在实验的过程中也更加容易操作,从而规避了我们上面提到的一些单细胞测序技术的弊端,临床冷冻的样本的遗传信息也能够得到有效的利用。
那么,这个时候我们可能会问,单细胞核测序技术只是测序了细胞核内的遗传信息,那么,没有得到细胞质内的遗传信息(如部分mRNA,因为我们知道,成熟的mRNA,要在细胞质中进行翻译。)对于整体的影响大吗?从目前的实验结果上看,snRNA-seq的表现与scRNA-seq完全一致,同样能够准确的捕捉到细胞的转录状态,这一点已在不同组织、不同外界处理条件等多种情况下得到了证实。
链接:https://www.bilibili.com/read/cv7136279/
主要的过程:
(1)Gel bead与细胞结合,形成GEMs。
在这个过程中,与细胞结合并标记细胞的Gel bead由四个部分组成。各有其各自的作用。
- R1:为一段已知序列的DNA片段,用于后续的测序。
- 10X Barcode:用于标记细胞。
- UMI:在混合测序的过程中,用于区分不同的cDNA来源的reads。也就是在后续的建库扩增的过程中,cDNA不断的扩增产生reads,来源于同一个转录本的reads的UMI相同。
- poly(dT)VN:通过与mRNA的polyA尾互补配对,捕获细胞中游离的mRNA。
每一个细胞有一个特征的UMI。之后,在进行扩增建库的过程中,只要是由该细胞扩增产生的cDNA,都会带有这段UMI。
(2)建库
通过某种方法,将细胞裂解,释放出mRNA,利用逆转录酶,将mRNA反转成双链cDNA,进行扩增。而Gel bead所起到的作用就是,将我们细胞中的mRNA的序列信息捕获,然后通过反转录的方式,转换为带有特征的细胞标记的reads。
由于这个平台的测序过程是高通量的。所以,将所有的reads(来源于不同的细胞的不同的mRNA)都集中起来进行测序。而后续的过程中,如何将这些不同来源的reads区分开来,就是利用我们的标记。
一般而言,有几个维度的标记:
- 来自哪一个样本(患者,如果是一个个体的某个组织的话,另当别论)
- 来自哪一个细胞(因为我们要在细胞维度上,进行表达量的识别,所以这部分的信息也很重要)
——10X barcode - 来自哪一个基因(通过基因的识别,我们知道是哪些基因的表达)
——UMI
所以,最终表现在counts矩阵上,就是行为所在的细胞,列为基因,值为定量后的表达值。
(3)生物信息学分析
一般而言,会使用Cell Ranger,以及随后使用的seurat包进行数据的处理。
参考链接:https://www.jianshu.com/p/ef88433709bd
特征:
(1)非全长的测序,通过测序3’端,来定量基因的表达。具有较强的3’端偏好性。
(2)测序样本,要求90%以上活细胞。
(3)真正意义上对单个细胞的表达量进行汇总。
(4)通量高,建库周期短。10X Genomics 一次测序可以捕捉100-80,000个细胞,具有极高的细胞通量。单细胞的测序通量平均也在50,000 reads/每一个细胞,而如果使用细胞核进行测序则平均通量为25,000 reads/每一个细胞核。
(5)具有较为严重的drop out问题。
什么是drop out问题?这个问题是单细胞测序技术的普遍的问题,只不过10X的方法得到的结果更为显著。具体表现在,一些基因在一些细胞中根本检测不出表达,在另外一些细胞中则显著高表达(排除生物学因素影响)。
如何理解单细胞测序过程中的覆盖率?