SRA数据下载(通过EBI-ENA数据库,使用ASpera)
这是本人的第一篇文章,欢迎浏览提问,我会在最快时间内答复,谢谢大家。
本文主要是针对新手下载SRA数据过程,我本人已亲自实践有效。按照本文下载SRA数据,需要提前安装Linux系统(常用CentOs或Ubuntu)。需要一定的Linux系统的操作命令认识以及生信知识(包括NCBI数据库检索等)。
需要注意:登录NCBI或EBI-ENA数据库时可能会比较卡或容易失败,那么你可能需要外网登录。
SRA简识
1. SRA数据
一种储存高通量测序数据格式。高通量测序:即NGS和TGS,通常数据产出在几十到几百MB不等
2. 各种检索号
PRJNA:study_acession
SRP:secondary_study_accession(DRP,ERP)
SAMN:sample_accession
SRS:secondary_sample_accession(DRS,ERS)
SRX:experiment_accession
SRR:run_accession(DRR,ERR)
SRA:submission_accession
如果你想要更多了解SRA数据,请自行查找其他资料。
3. 举例
以SRX5327410数据集为例,进行后续的数据检索与下载。其包括39个SRR,是由Pacbio使用Sequel I测序仪进行的三代测序(小分子实时测序,SMRT),文库类型是CCS-13.5kb。物种:Homo sapiens。
3.1 打开NCBI,输入检索号SRX5327410,选择数据库:SRA
3.2. 点击右侧的send to ,选择File,选择Format。点击Accession List,获得所有runs的序列号信息。文件名:SraAccList.txt
或者点击RunInfo,获得所有runs的全部信息(包括检索号,下载地址等)
3.3. 因NCBI已不再提供ftp格式文件下载地址,因此我们仅在NCBI中观察数据以及检索自己需要的数据。然后利用检索号在EBI-ENA数据库中进行检索,下载数据的ftp信息,并且EBI-ENA数据库同时提供fastq格式的测序文件,省去了sra文件转fastq文件的时间。
3.4. EBI-ENA数据库检索SRX5327410
获得结果,并点击show Column Selection,选择run_accession,fastq_aspera,sra_aspera这三列进行下载
选择Download report的TSV格式,并点击,得到一个文件filereport_read_run_SRX5327410_tsv.txt
这里的ftp地址是我们后面利用ASpera下载数据所必需的。
3.5 使用ASpera下载sra数据
3.5.1 下载ASpera
ASpera官网(https://www.ibm.com/products/aspera/downloads)下载 ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
点击其中的Featured client software中的IBM Aspera Connect下面的Download now
选择Linux,即可下再Linux环境下的ASpera安装包。然后上传到你的linux中(这里XShell将很便捷)
或者直接在命令行下载(wget或curl都可以)
wget https://ak-delivery04-mul.dhe.ibm.com/sar/CMA/OSA/09cne/0/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
3.5.2 安装ASpera
tar xzvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
./ibm-aspera-connect-3.11.1.58-linux-g2.12-64.sh
#运行后默认安装在家目录下
cd
ls -a
cd .aspera/
ls
cd connect/
ls
cd bin/
ls
pwd #获取bin文件所在路径
export PATH=/root/.aspera/connect/bin:$PATH #设置环境,根据上一步的目录设置
cd
ascp #安装成功
3.5.3 批量下载sra数据或fastq数据(平均下载速度达到50MB/s,很快了)
你需要提前提交ENA_SRX5327410_sra_aspera.txt或ENA_SRX5327410_fq_aspera.txt。来自在EBI-ENA数据库的文件改变而来。文件内格式
你可以在linux下查看,保证文件格式正确,这对后面是否能成功下载至关重要。
mkdir SRX5327410_sra/
chmod 777 SRX5327410_sra/ #因为我是在root下下载的,根据是否需要选择,可省略
nohup ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list ENA_SRX5327410_sra_aspera.txt /data/SRX5327410_sra/ 2>&1 &
#这里的root/.aspera/connect/etc/asperaweb_id_dsa.openssh是自己该文件的路径
#/data/SRX5327410_sra/ 下载文件存储路径
#ENA_SRX5327410_sra_aspera.txt 若该文件在其他位置,必须是全路径
#前面的参数具体理解可以自行百度,但都是该命令常用且必须
#-k1 断点续传
#nohup ----- 2>&1 & 将命令推到后台运行,看不到运行过程,也可以选择直接运行
ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list ENA_SRX5327410_sra_aspera.txt /data/SRX5327410_sra/
ps -ef | grep ascp
#查看ascp是否运行良好或结束,常用在nohup提交任务后
#至于下载fq文件,命令基本相同
#将参数--file-list ENA_SRX5327410_sra_aspera.txt 改为--file-list ENA_SRX5327410_fq_aspera.txt
#更改下载文件存储路径 /data/SRX5327410_sra/ 改为 /data/SRX5327410_FQ/
下载的39个run的sra文件保存在/data/SRX5327410_sra/目录下,fq文件(XXX.fq.gz)保存在/data/SRX5327410_FQ/目录下。
3.5.5 下载某一个SRR检索号的sra和fq文件(以SRR8858432为例)
ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR885/002/SRR8858432 /data/SRX5327410/
ascp -v -QT -l 400m -P33001 -k1 -i /root/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR885/002/SRR8858432/SRR8858432_subreads.fastq.gz /data/SRX5327410_FQ/
nohup [COMMAND] 2>&1 &
3.5.6 至此所需的高通量测序数据已下载完成。但是如果你已经通过NCBI提供的sratoolkit下载成功了sra数据或者在上面下载过程中你下载了sra数据,那么你可能需要将其转为fq文件,下面是这些命令将可能帮助到你。
4. sratoolkit的安装和使用
4.1 NCBI官网下载地址(https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software),选择与自己的Linux相匹配的文件并下载上传(sratoolkit.2.10.9-centos_linux64.tar.gz)
4.2 安装sratoolkit
tar xzvf sratoolkit.2.10.9-centos_linux64.tar.gz
cd sratoolkit.2.10.9-centos_linux64/
cd bin/
pwd
export PATH=/root/sratoolkit.2.10.9-centos_linux64/bin:$PATH
sra文件转fq文件,主要用到两个命令
NCBI下载的是.sra后缀文件,EBI-ENA数据库下载的sra文件没有后缀,但都储存SRA数据
sra文件转为fq.gz文件:大约需要5~6min
nohup fastq-dump --gzip SRR8858432 2>&1 &
#SRR8858432为下载的sra文件,需要文件绝对路径
sra文件转为fq.文件:大约需要10s左右
fasterq-dump -e 24 -p SRR8858432
#-e:线程数
#-p:显示过程,可在nohup.out文件中查看
nohup fasterq-dump -e 24 -p SRR8858432 2>&1 & #后台运行
每转一个sra文件都会出现
批量转sra文件
cat ./SRR_Acc_List.txt | while read line; do fasterq-dump -e 24 -p /data/SRX5327410_sra/$line -O /root/SRX5327410_FQ/; done
生成的是.fastq文件,在/root/SRX5327410_FQ/目录下