实验记录 | 6/1

(1)首先,下载完成annovar配套的数据库。
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb26_all humandb/

(base) zxx@zxx-Lenovo-Yoga710-14ISK:/media/zxx/TOSHIBA/QBRC/annovar$ perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar ljb26_all humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available … Done
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_ljb26_all.txt.gz … OK
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_ljb26_all.txt.idx.gz … OK
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the ‘humandb’ directory

这个数据好像非常大,需要很多的时间才行。

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/

(base) zxx@zxx-Lenovo-Yoga710-14ISK:/media/zxx/TOSHIBA/QBRC/annovar$ perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available … Done
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_esp6500siv2_all.txt.gz … OK
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_esp6500siv2_all.txt.idx.gz … OK
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the ‘humandb’ directory

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar cosmic70 humandb/

(base) zxx@zxx-Lenovo-Yoga710-14ISK:/media/zxx/TOSHIBA/QBRC/annovar$ perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar cosmic70 humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available … Done
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_cosmic70.txt.gz … OK
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_cosmic70.txt.idx.gz … OK
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the ‘humandb’ directory

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar exac03 humandb/

(base) zxx@zxx-Lenovo-Yoga710-14ISK:/media/zxx/TOSHIBA/QBRC/annovar$ perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar exac03 humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available … Done
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_exac03.txt.gz … OK
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_exac03.txt.idx.gz … OK
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the ‘humandb’ directory
(base) zxx@zxx-Lenovo-Yoga710-14ISK:/media/zxx/TOSHIBA/QBRC/annovar$

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug humandb/

(base) zxx@zxx-Lenovo-Yoga710-14ISK:/media/zxx/TOSHIBA/QBRC/annovar$ perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar 1000g2015aug humandb/
NOTICE: Web-based checking to see whether ANNOVAR new version is available … Done
NOTICE: Downloading annotation database http://www.openbioinformatics.org/annovar/download/hg19_1000g2015aug.zip … OK
NOTICE: Uncompressing downloaded files
NOTICE: Finished downloading annotation files for hg19 build version, with files saved at the ‘humandb’ directory

我正在下载annovar的注释数据集。
但是,这个下载起来非常的慢,也无法及时的更新下载的进度。应该会下载多久?
刚刚检查了一下,5个之中,已经有3个下载完成了(3/5)。(12:30)
中间断掉了几次,于(15:48)完成(4/5)。
最后,终于(18:23),将所有的注释数据集安装好(5/5)。
这块的问题,解决了。

同时,下载文献中所使用的10X的数据,尝试能够对文献结果进行复现,然后老师才会放心把自己的数据让你去用吧。我现在的目标就是深挖这篇文章,争取能够完整的弄明白。
也可以没必要使用10X的数据,使用其他的数据,能够达到相同的效果都是可以的。
对于一个劳动力而言,稳定是非常重要的。

还是要把那篇文章看明白。
现在卡住了,不知道该怎么弄才好。比较明确的一点是,我现在要继续复现那部分的流程,老师比较期待的目标是继续把流程复现出来。我现在需要什么?我要做什么?我要理清楚我的思路。

(2)我需要服务器的账号。
要到之后,我继续接着上次卡住的地方运行。
继续bwa建库,不过可能还会出现这样那样的问题。
先在服务器上运行bwa,然后再建立索引,建完索引之后,然后我再在我的机器上运行剩下的东西。

终于在最后(17:40),注册登陆上了服务器的账号和密码。
ssh 192.168.79.84 -l xxzhang

登陆上了服务器之后,我们在服务器上下载bwa。然后将文件上传到bwa上,开始运行建立索引。

  • 创建工作目录
    pwd

/home/xxzhang

mkdir workplace
cd workplace

  • 下载bwa(在服务器上,其实运行和linux上并没有什么不同。)
    wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.17.tar.bz2
    tar xvfj bwa-0.7.17.tar.bz2
    rm -r bwa-0.7.17.tar.bz2
    mv bwa-0.7.17/ bwa
    cd bwa
    make

编译完成,结束安装指令。
检查是否安装完成。
./bwa

Program: bwa (alignment via Burrows-Wheeler transformation)
Version: 0.7.17-r1188
Contact: Heng Li lh3@sanger.ac.uk
Usage: bwa [options]
Command: index index sequences in the FASTA format
mem BWA-MEM algorithm
fastmap identify super-maximal exact matches
pemerge merge overlapping paired ends (EXPERIMENTAL)
aln gapped/ungapped alignment
samse generate alignment (single ended)
sampe generate alignment (paired ended)
bwasw BWA-SW for long queries
shm manage indices in shared memory
fa2pac convert FASTA to PAC format
pac2bwt generate BWT from PAC
pac2bwtgen alternative algorithm for generating BWT
bwtupdate update .bwt to the new format
bwt2sa generate SA from BWT and Occ

  • 将本地文件夹中的文件,上传至服务器,运行。
    先看一下,指令的运行,都需要什么文件。
    ==>找到那个实验记录的原始文件。
    bwa index -a bwtsw hg19.fa
    所以,终于找到,需要的是一个hg19.fa的文件。

我们现在进行文件的传输。
示例代码:
scp work@192.168.0.10:/home/work/source.txt work@192.168.0.11:/home/work/
我们需要哪些元素?
用户名/主机名/文件在主机中所在的地址

首先我们编辑我们的本地文件所在的位置。
用户名:zxx-Lenovo-Yoga710-14ISK
IP地址:192.168.1.170
文件位置:/media/zxx/TOSHIBA/QBRC/geneome/hg19/hg19.fa

其次是我们要把文件移动到的服务器中所在的位置。
用户名:mu02
IP地址:192.168.79.84
文件位置:/home/xxzhang/workplace/data

使用scp指令将两者结合起来。
scp zxx-Lenovo-Yoga710-14ISK@192.168.1.170:/media/zxx/TOSHIBA/QBRC/geneome/hg19/hg19.fa mu02@192.168.79.84:/home/xxzhang/workplace/data

ssh: connect to host 192.168.1.170 port 22: Connection refused

拒绝登入。不行,那么,只有一种方式,使用winSCP这个工具上传试一试。
切换至window系统。
正在传输过程中。传输完成(7:42)。
在这个时候,我觉得可以学习一下:服务器后台运行的指令。
nohup bwa index -a bwtsw hg19.fa &

https://www.runoob.com/linux/linux-shell-variable.html
https://www.ncbi.nlm.nih.gov/gene/9383

(3)文献
我现在想要把原始文献下载下来,看看使用到了什么数据,然后用这个数据继续去做实验。
并不强制非要10X的数据?什么样的数据是好的?
下载了文献中提到的SMART-seq数据集中的两个样本。准备以这两个样本为例,进行somatic.pl的分析。
先用这两个样本来跑,如果顺利,则还用更加大批量的数据。
数据链接:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE76312
我选择的是两个文件,一个健康人群,一个tumor人群。都是单端的数据。我想先用这套数据跑一下,如果可以的话,再逐渐的增加数据。

首先,下载数据。
使用的是sratoolkit这个工具。
使用linux中自带的指令进行安装。
sudo apt install sra-toolkit
安装完成之后,直接根据ID,下载数据。
prefetch -v SRR3052083
prefetch -v SRR5297065
将数据拆分为fastq文件。
fastq-dump SRR3052083.sra
fastq-dump SRR5297065.sra

拆分完成之后,得到数据。
ls

SRR3052083.fastq
SRR3052083.sra
SRR5297065.fastq
SRR5297065.sra

完成我们想要的部分目标。

(4)重新运行somatic.pl程序。因为我们的这个文件,是RNA-seq数据,可能并不需要bwa的比对。所以,可能会遇到新的问题,还说不定。而且,bwa的索引,对于我们的这个数据集可能是无效的。

重新修改somatic.pl的指令。

perl somatic.pl RNA:./data/SRR3052083.fastq NA RNA:./data/SRR5297065.fastq NA 32 hg19 ./geneome/hg19/hg19.fa /usr/lib/jvm/jdk1.8.0_181/bin/java ./output human 1 ./disambiguate_pipeline

could not open genome file ./output/normal/tmp/pass2//genomeParameters.txt

主要原因,还是因为没有建立STAR比对的索引。由于建立这个索引,也会非常的耗费内存,所以,这一步也是必须要克服的。
现在先准备,如何建立STAR的索引文件。

STAR --runThreadN 6 --runMode genomeGenerate --genomeDir index_dir --genomeFastaFiles genome.fasta --sjdbGTFfile genome.gtf --sjdbOverhang 149

还需要下载一个hg19的注释文档。

问学姐要了,明天直接下载过去。

上一篇:springboot整合mybatis


下一篇:JavaSE-22.1.3【Lambda表达式练习:有参无返回值抽象方法】