从直觉上看,数据貌似很好理解,但真正要说清楚数据这个词却有点困难。
想一想,数据到底是什么呢?
数据的定义实际上包含两方面内容,即信息的符号和设计。
其中信息的设计,也就是数据的格式,决定了读者从中获取有效信息的难易程度。
人们经常忽略的一个事实——数据的格式和数据本身同等重要。
生物信息学中的数据
传统的生物学家可能会认为,生物信息学是一种将数据转换成结果的软件。
实则不然,生物信息学只是将一种格式的数据,转换成另一种格式的数据。
这种格式转换往往带来信息的综合和优化。
数据格式
生物信息学中几种常见的数据格式:
- GenBank
- Fasta
- FastQ
- BED/GFF/GTF
- SAM/BAM
1.GenBank
文件后缀为.gb/.genbank,GenBank 是一种符合人们阅读习惯的数据格式。
GenBank示例文件
数据来源:https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2/
LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020 DEFINITION Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome. ACCESSION NC_045512 VERSION NC_045512.2 GI:1798174254 DBLINK BioProject: PRJNA485481 KEYWORDS RefSeq. SOURCE Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) ORGANISM Severe acute respiratory syndrome coronavirus 2 Viruses; Riboviria; Orthornavirae; Pisuviricota; Pisoniviricetes; Nidovirales; Cornidovirineae; Coronaviridae; Orthocoronavirinae; Betacoronavirus; Sarbecovirus. REFERENCE 1 (bases 1 to 29903) AUTHORS Wu,F., Zhao,S., Yu,B., Chen,Y.M., Wang,W., Song,Z.G., Hu,Y., Tao,Z.W., Tian,J.H., Pei,Y.Y., Yuan,M.L., Zhang,Y.L., Dai,F.H., Liu,Y., Wang,Q.M., Zheng,J.J., Xu,L., Holmes,E.C. and Zhang,Y.Z. TITLE A new coronavirus associated with human respiratory disease in China JOURNAL Nature 579 (7798), 265-269 (2020) PUBMED 32015508 REMARK Erratum:[Nature. 2020 Apr;580(7803):E7. PMID: 32296181] ... gene 21563..25384 /gene="S" /locus_tag="GU280_gp02" /gene_synonym="spike glycoprotein" /db_xref="GeneID:43740568" CDS 21563..25384 /gene="S" /locus_tag="GU280_gp02" /gene_synonym="spike glycoprotein" /note="structural protein; spike protein" /codon_start=1 /product="surface glycoprotein" /protein_id="YP_009724390.1" /db_xref="GI:1796318598" /db_xref="GeneID:43740568" /translation="MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFR SSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIR GWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVY SSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQ GFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFL LKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITN LCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCF TNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYN YLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPY RVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFG RDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAI HADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPR RARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTM YICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFG GFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFN GLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQN VLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGA ISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMS ECVLGQSKRVDFCGKGYHLMSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAH FPREGVFVSNGTHWFVTQRNFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELD SFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELG KYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDDSE PVLKGVKLHYT" ... #文件第一行LOCUS包括了许多数据元素,如: #名称(NC_045512) #序列长度(29903 bp) #分子类型(ss-RNA, single strand RNA) #分子形状(linear) #genbank分类简称(VRL, viral sequences) #最近一次修改时间(18-JUL-2020) LOCUS NC_045512 29903 bp ss-RNA linear VRL 18-JUL-2020
GenBank分类简称
简称 | 全称 | 简称 | 全称 |
---|---|---|---|
PRI | primate sequences | ROD | rodent sequences |
MAM | other mammalian sequences | VRT | other vertebrate sequences |
INV | invertebrate sequences | PLN | plant, fungal, and algal sequences |
BCT | bacterial sequences | VRL | viral sequences |
PHG | bacteriophage sequences | SYN | synthetic sequences |
UNA | unannotated sequences | EST | EST sequences (expressed sequence tags) |
PAT | patent sequences | STS | STS sequences (sequence tagged sites) |
GSS | GSS sequences (genome survey sequences) | HTG | HTG sequences (high-throughput genomic sequences) |
HTC | unfinished high-throughput cDNA sequencing | ENV | environmental sampling sequences |
眼尖的朋友一眼就发现了,GenBank示例文件展示的正是肆虐全球的新冠病毒(SARS-CoV-2)的基因组信息
新冠病毒结构示意图
图片来源:Alissa Eckert, MS; Dan Higgins, MAM CDC
如果了解新冠亚单位疫苗研制原理的小伙伴,大概会知道上面展示的 S 蛋白(spike glycoprotein),其受体结合区(RBD)片段含有多个 B 细胞和 T 细胞的表位,属于理想的靶标抗原。
然而重组得到的靶蛋白免疫原性较差,往往需要经过一定的优化才能刺激机体产生足够的抗体。
高福院士团队通过二聚化 RBD 片段及免疫佐剂的配合,弥补了重组蛋白免疫原性差的短板,并成功诱导小鼠产生大量中和抗体[1]。
另外,目前世界大流行的新冠病毒 Delta 变异株,正是 S 蛋白的氨基酸位点发生了突变导致的[2]。
可见 GenBank 是一种相当复杂的存储格式,存储了丰富的生物信息。
2.Fasta
文件后缀通常为.fa/.fasta/.fna/.seq,可以记录类似于 GenBank 中的序列信息。
Fasta 示例文件——新冠病毒 M 蛋白的基因序列
>NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=] ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA
Fasta 文件包含序列的注释信息行和碱基序列行
# 序列的注释信息行,以大于号(>)开头 >NC_045512.2:26523-27191 M [organism=Severe acute respiratory syndrome coronavirus 2] [GeneID=43740571] [chromosome=] # 碱基序列 ATGGCAGATTCCAACGGTACTATTACCGTTGAAGAGCTTAAAAAGCTCCTTGAACAATGGAACCTAGTAA TAGGTTTCCTATTCCTTACATGGATTTGTCTTCTACAATTTGCCTATGCCAACAGGAATAGGTTTTTGTA TATAATTAAGTTAATTTTCCTCTGGCTGTTATGGCCAGTAACTTTAGCTTGTTTTGTGCTTGCTGCTGTT TACAGAATAAATTGGATCACCGGTGGAATTGCTATCGCAATGGCTTGTCTTGTAGGCTTGATGTGGCTCA GCTACTTCATTGCTTCTTTCAGACTGTTTGCGCGTACGCGTTCCATGTGGTCATTCAATCCAGAAACTAA CATTCTTCTCAACGTGCCACTCCATGGCACTATTCTGACCAGACCGCTTCTAGAAAGTGAACTCGTAATC GGAGCTGTGATCCTTCGTGGACATCTTCGTATTGCTGGACACCATCTAGGACGCTGTGACATCAAGGACC TGCCTAAAGAAATCACTGTTGCTACATCACGAACGCTTTCTTATTACAAATTGGGAGCTTCGCAGCGTGT AGCAGGTGACTCAGGTTTTGCTGCATACAGTCGCTACAGGATTGGCAACTATAAATTAAACACAGACCAT TCCAGTAGCAGTGACAATATTGCTTTGCTTGTACAGTAA
3.FastQ
文件后缀为.fq/.fastq,用于存储测序仪经过测序实验读取到的碱基信息,可以看作是带有碱基质量评分的 Fasta 文件。
Fastq 文件中每 4 行为一条 read 的测序记录
#第一行:@符号开头的read id #第二行:碱基序列行 #第三行:加号(+)后面可跟read id信息 #第四行:碱基对应的质量值(Phred score)
FastQ 示例文件
@SRR16911464.1 1 length=35 GGCTGCTTATGTAGACAATTTTAGTCTTACTATTA +SRR16911464.1 1 length=35 BBBBBBFFFFFFGGGGGGGGGGHHHHGHGHHHHHH @SRR16911464.2 2 length=36 GACAATGCTCAGGTGTTACTTTCCAAAGTGCAGTGA +SRR16911464.2 2 length=36 AAABBFFFFFBBFGCGEGGGGGFFFFGFHHFHH5FG @SRR16911464.3 3 length=37 CTATGTAATCATCAGATTCAACTTGCATGGCATTGTT +SRR16911464.3 3 length=37 CCDEDFFFFFFFGGGGGGGGGGHHHHHHHHHHHHHHH
4.BED/GFF/GTF
这一类数据主要用于记录基因组中特定区间的坐标信息,列之间以制表符(TAB)分隔,如基因(gene)、编码区序列(CDS)和非编码区(UTR)等。
BED
3 列的 BED 文件包括染色体、起始和终止
chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697
6 列的 BED 文件增加了名称、值和链方向
chr7 127471196 127472363 Pos1 0 + chr7 127472363 127473530 Pos2 0 + chr7 127473530 127474697 Pos3 0 +
GFF/GTF
文件通常包含 9 列,以制表符分隔。
P.S. BED文件的坐标有效起始值是0,GFF/GTF的有效起始坐标是1
GFF 示例文件
chr1 . mRNA 1300 9000 . + . ID=mrna0001;Name=sonichedgehog chr1 . exon 1300 1500 . + . ID=exon00001;Parent=mrna0001 chr1 . exon 1050 1500 . + . ID=exon00002;Parent=mrna0001
GTF 与 GFF 文件的差异在第 9 列,GTF 的第 9 列必须是包括 gene_id 和 transcript_id 才是有效的格式。
5.SAM/BAM
BAM 文件是 SAM 文件的二进制格式,两种文件都包含了 reads(FastQ)比对到参考基因组(Fasta)的信息。
一般包括下面11列信息,详见:https://samtools.github.io/hts-specs/SAMv1.pdf
Col | Field | Brief description |
---|---|---|
1 | QNAME | Query template NAME |
2 | FLAG | bitwise FLAG |
3 | RNAME | Reference sequence NAME |
4 | POS | 1-based leftmost mapping POSition |
5 | MAPQ | MAPping Quality |
6 | CIGAR | CIGAR string |
7 | RNEXT | Reference name of the mate/next read |
8 | PNEXT | Position of the mate/next read |
9 | TLEN | observed Template LENgth |
10 | SEQ | segment SEQuence |
11 | QUAL | ASCII of Phred-scaled base QUALity+33(or 64) |
Linux下安装使用samtools查看BAM文件
samtools view -h demo.bam | less -S @HD VN:1.5 SO:coordinate @SQ SN:Chromosome1 LN:3942983 V300035025L4C001R0081179505 99 Chromosome1 1 30 150M = 101 250 ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC eeedaZeeefeeeeecdeeeeeecZcefeZ_eefefedecdeefeededeee_eeeUceeeeeeeeeedeabYedeeeeeedfeeeedfde^e_e`de_eeeefeedeeeeeeeeee`fefceecee]eeeffeceefebeeY]fcfaedNM:i:0 MD:Z:150 V300035025L4C006R0370133480 99 Chromosome1 1 30 150M = 238 387 ATGGAGAATATATTGGATCTTTGGAATCAAGCCTTAGCTCAAATTGAGAAAAAGCTAAGCAAACCGAGCTTCGAAACTTGGATGAAGTCGACGAAAGCCCATTCGCTGCAAGGAGATACCTTAACCATCACCGCTCCCAATGAATTTGCC eeXdeedeeeeeeeebceeeee_Ucee_deZeeeeeeddeeeXedabedeecdaeeeaWeeeedeeaeeeeeecbeee]eed^YeeeceQae`ae]eebeeeeeY`e^edbeNcceeeeeceeee]e\eedebaWc_fe_dbeeeed]beNM:i:0 MD:Z:150
若是SAM文件可先用samtools view进行转换
$samtools view Usage: samtools view [options] <in.bam>|<in.sam>|<in.cram> [region ...] Options: -b output BAM -o FILE output file name [stdout]
有时候需要用到BAM的索引文件,需要先用samtools sort命令排序,再调用samtools index为BAM文件建立索引。
参考文献
[1] Dai L, Zheng T, Xu K, et al. A Universal Design of Betacoronavirus Vaccines against COVID-19, MERS, and SARS. Cell. 2020;182(3):722-733.e11. doi:10.1016/j.cell.2020.06.035
[2] Korber B, Fischer WM, Gnanakaran S, et al. Tracking Changes in SARS-CoV-2 Spike: Evidence that D614G Increases Infectivity of the COVID-19 Virus. Cell. 2020;182(4):812-827.e19. doi:10.1016/j.cell.2020.06.043