一、官方下载工具Sratoolkit安装
推荐使用conda直接安装,避免配置环境的麻烦,但sratoolkit在conda镜像中的包名为sra-tools
1 conda -y -c bioconda sra-tools
二、SRA文件下载地址获取
1.NCBI GEO数据库下载地址
1 https://www.ncbi.nlm.nih.gov/geo/
2.输入GEO Accession(如GSE52778),点击搜索,找到测序SRA文件
3. 下载Accession List:一个txt文件包含所有的测序样本名称,均对应于上图左下角的Run
三、数据下载
使用sratoolkit提供的prefetch工具下载,官方文档中说明prefetch能直接根据txt文件下载,但不晓得哪边出毛病报错了,自己编写循环下载,脚本如下:
1 #!/bin/bash 2 3 #id.txt即为下载的Accession List 4 5 for i in $(cat id.txt) 6 do 7 echo "正在下载文件".$i 8 prefetch $i 9 done 10 echo "文件下载完毕!!" 11 12 #提取下载的文件夹中的.sra文件并删除源文件夹 13 14 pwd=$(pwd) 15 for i in $(ls) 16 do 17 new_pwd="$pwd/$i" 18 if [ -d $new_pwd ];then 19 mv $new_pwd/* $pwd 20 rm -rf $new_pwd 21 fi 22 done