BGI-College生信入门2——什么是数据？

2023-10-21 22:29:16

从直觉上看，数据貌似很好理解，但真正要说清楚数据这个词却有点困难。

想一想，数据到底是什么呢？

数据的定义实际上包含两方面内容，即信息的符号和设计。

其中信息的设计，也就是数据的格式，决定了读者从中获取有效信息的难易程度。

人们经常忽略的一个事实——数据的格式和数据本身同等重要。

生物信息学中的数据

传统的生物学家可能会认为，生物信息学是一种将数据转换成结果的软件。

实则不然，生物信息学只是将一种格式的数据，转换成另一种格式的数据。

这种格式转换往往带来信息的综合和优化。

数据格式

生物信息学中几种常见的数据格式：

GenBank

Fasta

FastQ

BED/GFF/GTF

SAM/BAM

1.GenBank

文件后缀为.gb/.genbank，GenBank 是一种符合人们阅读习惯的数据格式。

GenBank示例文件

数据来源：https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2/

LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
DEFINITION  Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1,
            complete genome.
ACCESSION   NC_045512
VERSION     NC_045512.2  GI:1798174254
DBLINK      BioProject: PRJNA485481
KEYWORDS    RefSeq.
SOURCE      Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)
  ORGANISM  Severe acute respiratory syndrome coronavirus 2
            Viruses; Riboviria; Orthornavirae; Pisuviricota; Pisoniviricetes;
            Nidovirales; Cornidovirineae; Coronaviridae; Orthocoronavirinae;
            Betacoronavirus; Sarbecovirus.
REFERENCE   1  (bases 1 to 29903)
  AUTHORS   Wu,F., Zhao,S., Yu,B., Chen,Y.M., Wang,W., Song,Z.G., Hu,Y.,
            Tao,Z.W., Tian,J.H., Pei,Y.Y., Yuan,M.L., Zhang,Y.L., Dai,F.H.,
            Liu,Y., Wang,Q.M., Zheng,J.J., Xu,L., Holmes,E.C. and Zhang,Y.Z.
  TITLE     A new coronavirus associated with human respiratory disease in
            China
  JOURNAL   Nature 579 (7798), 265-269 (2020)
   PUBMED   32015508
  REMARK    Erratum:[Nature. 2020 Apr;580(7803):E7. PMID: 32296181]
...
     gene            21563..25384
                     /gene="S"
                     /locus_tag="GU280_gp02"
                     /gene_synonym="spike glycoprotein"
                     /db_xref="GeneID:43740568"
     CDS             21563..25384
                     /gene="S"
                     /locus_tag="GU280_gp02"
                     /gene_synonym="spike glycoprotein"
                     /note="structural protein; spike protein"
                     /codon_start=1
                     /product="surface glycoprotein"
                     /protein_id="YP_009724390.1"
                     /db_xref="GI:1796318598"
                     /db_xref="GeneID:43740568"
                     /translation="MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFR
                     SSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIR
                     GWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVY
                     SSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQ
                     GFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFL
                     LKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITN
                     LCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCF
                     TNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYN
                     YLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPY
                     RVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFG
                     RDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAI
                     HADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPR
                     RARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTM
                     YICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFG
                     GFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFN
                     GLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQN
                     VLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGA
                     ISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMS
                     ECVLGQSKRVDFCGKGYHLMSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAH
                     FPREGVFVSNGTHWFVTQRNFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELD
                     SFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELG
                     KYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDDSE
                     PVLKGVKLHYT"
...
#文件第一行LOCUS包括了许多数据元素，如：
#名称（NC_045512）
#序列长度（29903 bp）
#分子类型（ss-RNA, single strand RNA）
#分子形状（linear）
#genbank分类简称（VRL, viral sequences）
#最近一次修改时间（18-JUL-2020）
LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020

GenBank分类简称

简称	全称	简称	全称
PRI	primate sequences	ROD	rodent sequences
MAM	other mammalian sequences	VRT	other vertebrate sequences
INV	invertebrate sequences	PLN	plant, fungal, and algal sequences
BCT	bacterial sequences	VRL	viral sequences
PHG	bacteriophage sequences	SYN	synthetic sequences
UNA	unannotated sequences	EST	EST sequences (expressed sequence tags)
PAT	patent sequences	STS	STS sequences (sequence tagged sites)
GSS	GSS sequences (genome survey sequences)	HTG	HTG sequences (high-throughput genomic sequences)
HTC	unfinished high-throughput cDNA sequencing	ENV	environmental sampling sequences

眼尖的朋友一眼就发现了，GenBank示例文件展示的正是肆虐全球的新冠病毒（SARS-CoV-2）的基因组信息

新冠病毒结构示意图

图片来源：Alissa Eckert, MS; Dan Higgins, MAM CDC

如果了解新冠亚单位疫苗研制原理的小伙伴，大概会知道上面展示的 S 蛋白（spike glycoprotein），其受体结合区（RBD）片段含有多个 B 细胞和 T 细胞的表位，属于理想的靶标抗原。

然而重组得到的靶蛋白免疫原性较差，往往需要经过一定的优化才能刺激机体产生足够的抗体。

高福院士团队通过二聚化 RBD 片段及免疫佐剂的配合，弥补了重组蛋白免疫原性差的短板，并成功诱导小鼠产生大量中和抗体[1]。

另外，目前世界大流行的新冠病毒 Delta 变异株，正是 S 蛋白的氨基酸位点发生了突变导致的[2]。

可见 GenBank 是一种相当复杂的存储格式，存储了丰富的生物信息。

2.Fasta

文件后缀通常为.fa/.fasta/.fna/.seq，可以记录类似于 GenBank 中的序列信息。

Fasta 示例文件——新冠病毒 M 蛋白的基因序列

>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=]
ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA
TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA
TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT
TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA
GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA
CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC
GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC
TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT
AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT
TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA

Fasta 文件包含序列的注释信息行和碱基序列行

# 序列的注释信息行，以大于号（>）开头
>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=]
# 碱基序列
ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA
TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA
TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT
TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA
GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA
CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC
GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC
TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT
AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT
TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA

3.FastQ

文件后缀为.fq/.fastq，用于存储测序仪经过测序实验读取到的碱基信息，可以看作是带有碱基质量评分的 Fasta 文件。

Fastq 文件中每 4 行为一条 read 的测序记录

#第一行：@符号开头的read id
#第二行：碱基序列行
#第三行：加号（+）后面可跟read id信息
#第四行：碱基对应的质量值（Phred score）

FastQ 示例文件

@SRR16911464.1 1 length=35
GGCTGCTTATGTAGACAATTTTAGTCTTACTATTA
+SRR16911464.1 1 length=35
BBBBBBFFFFFFGGGGGGGGGGHHHHGHGHHHHHH
@SRR16911464.2 2 length=36
GACAATGCTCAGGTGTTACTTTCCAAAGTGCAGTGA
+SRR16911464.2 2 length=36
AAABBFFFFFBBFGCGEGGGGGFFFFGFHHFHH5FG
@SRR16911464.3 3 length=37
CTATGTAATCATCAGATTCAACTTGCATGGCATTGTT
+SRR16911464.3 3 length=37
CCDEDFFFFFFFGGGGGGGGGGHHHHHHHHHHHHHHH

4.BED/GFF/GTF

这一类数据主要用于记录基因组中特定区间的坐标信息，列之间以制表符（TAB）分隔，如基因（gene）、编码区序列（CDS）和非编码区（UTR）等。

BED

3 列的 BED 文件包括染色体、起始和终止

chr7  127471196  127472363
chr7  127472363  127473530
chr7  127473530  127474697

6 列的 BED 文件增加了名称、值和链方向

chr7  127471196  127472363  Pos1  0  +
chr7  127472363  127473530  Pos2  0  +
chr7  127473530  127474697  Pos3  0  +

GFF/GTF

文件通常包含 9 列，以制表符分隔。

P.S. BED文件的坐标有效起始值是0，GFF/GTF的有效起始坐标是1

GFF 示例文件

chr1  .  mRNA  1300  9000  .  +  .  ID=mrna0001;Name=sonichedgehog
chr1  .  exon  1300  1500  .  +  .  ID=exon00001;Parent=mrna0001
chr1  .  exon  1050  1500  .  +  .  ID=exon00002;Parent=mrna0001

GTF 与 GFF 文件的差异在第 9 列，GTF 的第 9 列必须是包括 gene_id 和 transcript_id 才是有效的格式。

5.SAM/BAM

BAM 文件是 SAM 文件的二进制格式，两种文件都包含了 reads（FastQ）比对到参考基因组（Fasta）的信息。

一般包括下面11列信息，详见：https://samtools.github.io/hts-specs/SAMv1.pdf

Col	Field	Brief description
1	QNAME	Query template NAME
2	FLAG	bitwise FLAG
3	RNAME	Reference sequence NAME
4	POS	1-based leftmost mapping POSition
5	MAPQ	MAPping Quality
6	CIGAR	CIGAR string
7	RNEXT	Reference name of the mate/next read
8	PNEXT	Position of the mate/next read
9	TLEN	observed Template LENgth
10	SEQ	segment SEQuence
11	QUAL	ASCII of Phred-scaled base QUALity+33(or 64)

Linux下安装使用samtools查看BAM文件

samtools view -h demo.bam | less -S
@HD     VN:1.5  SO:coordinate
@SQ     SN:Chromosome1  LN:3942983
V300035025L4C001R0081179505     99      Chromosome1     1       30      150M    =       101     250     ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC        eeedaZeeefeeeeecdeeeeeecZcefeZ_eefefedecdeefeededeee_eeeUceeeeeeeeeedeabYedeeeeeedfeeeedfde^e_e`de_eeeefeedeeeeeeeeee`fefceecee]eeeffeceefebeeY]fcfaedNM:i:0  MD:Z:150
V300035025L4C006R0370133480     99      Chromosome1     1       30      150M    =       238     387     ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC        eeXdeedeeeeeeeebceeeee_Ucee_deZeeeeeeddeeeXedabedeecdaeeeaWeeeedeeaeeeeeecbeee]eed^YeeeceQae`ae]eebeeeeeY`e^edbeNcceeeeeceeee]e\eedebaWc_fe_dbeeeed]beNM:i:0  MD:Z:150

若是SAM文件可先用samtools view进行转换

$samtools view

Usage: samtools view [options] <in.bam>|<in.sam>|<in.cram> [region ...]

Options:
  -b       output BAM
  -o FILE  output file name [stdout]

有时候需要用到BAM的索引文件，需要先用samtools sort命令排序，再调用samtools index为BAM文件建立索引。

参考文献
[1] Dai L, Zheng T, Xu K, et al. A Universal Design of Betacoronavirus Vaccines against COVID-19, MERS, and SARS. Cell. 2020;182(3):722-733.e11. doi:10.1016/j.cell.2020.06.035
[2] Korber B, Fischer WM, Gnanakaran S, et al. Tracking Changes in SARS-CoV-2 Spike: Evidence that D614G Increases Infectivity of the COVID-19 Virus. Cell. 2020;182(4):812-827.e19. doi:10.1016/j.cell.2020.06.043

码农公寓