BED文件格式
注释文件就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。
基因组注释(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。
Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。
BED文件中起始坐标为0,结束坐标至少是1; GFF中起始坐标是1而结束坐标至少是1。
处理BED格式和GFF格式的工具主要有BedTools和Tophat 。
1. BED文件格式介绍
BED文件每行至少包含chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的。
必须的3个字段
1) chrom 染色体的名称(例如,chr1,chrX,chr2_random)或支架(例如scaffold10671)。
2) chromStart 染色体或scaffold中特征的起始位置。染色体中的第一碱基的编号为0。
3) chromEnd 染色体或scaffold中特征的结束位置。chromEnd碱基不包括在特征内,如,染色体的前100个碱基定义为chromSatrt=0, chromEnd=100, 跨越编号为0-99的碱基。
可选的9个字段
4) name 定义BED行的名称,这个名称标签会展示在基因组浏览器中的bed行的左侧
5)score 0-1000的分值,如果在注释数据的设定中将原始基线设置为1,那么这个分值会决定显示灰度水平(数字越大,灰度越高)
6) strand 定义链的方向,"+"或"-"
7) thickStart 起始位置(The starting position at which the feature is drawn thickly)(例如,基因起始编码位置)
8) thickEnd 终止位置(The ending position at which the feature is drawn thickly)(例如:基因终止编码位置)
9) itemRGB 是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为'On”, 这个RBG值将决定数据的显示颜色
10) blockCount BED行中的block数目,也就是外显子数目
11) blockSize 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
12) blockStarts 用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应
## UCSC定义BED格式中的两个例子
In BED files with block definitions, the first blockStart value must be 0, so that the first block begins at chromStart.
Similarly, the final blockStart position plus the final blockSize value must equal chromEnd. Blocks may not overlap.
## Example:
Here is an example of an annotation track, introduced by a header line, that is followed by a complete BED definition:
track name=pairedReads description="Clone Paired Reads" useScore=1
chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512
chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601
## Example:
This example shows an annotation track that uses the itemRgb attribute to individually color each data line. In this track,
the color scheme distinguishes between items named "Pos*" and those named "Neg*". See the usage note in the itemRgb description
above for color palette restrictions. NOTE: The track and data lines in this example have been reformatted for documentation
purposes. This example can be pasted into the browser without editing.
browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0
chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0
chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0
chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0
chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255
chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255
chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255
chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0
chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255