课程笔记

1.如何下载基因组gff3文件

https://itol.embl.de/

ensembl plant -download-

2.提取cds序列

需要两个文件

①基因组序列文件:序列

②基因结构注释文件gff3:序列对应的结构

TBtools:GXF Sequences Extracter

首先把gff文件拖进去,初始化,选择CDS、parent,拖进去基因组序列文件,输入输出文件位置。

会形成2个文件,一个是格式化的序列TBtools.fa,一个是索引TBtools.fa.fai

课程笔记

 

 

 

课程笔记

 

 3.查看CDS有多少个基因:Fasta Tools-Fasta Stats,然后把cds文件拖进来。

课程笔记

 

 课程笔记

 

 预览一下:big file previewer-big text preview :以ATG开始,以TAG/TGA中止。

课程笔记

 

 4.把cds翻译成蛋白:拖进去fasta格式的cds,输入蛋白输出路径。

 

课程笔记

 

 

 5.简化蛋白ID

基因家族分析

1.PlantTFDB网站:转录因子数据库。

 

课程笔记

 

 2.Tair-browse-gene family下载基因家族序列

利用tair下载拟南芥的ERF蛋白序列,把122序列号复制到①中

课程笔记

 

 

复制基因到下面的框-直接get sequence,复制序列到txt文档,打开fasta stats查看。

课程笔记

 

 3.blast:two sequence file

文件:

①122个拟南芥的蛋白序列

②目标物种的蛋白序列:用cds翻译的蛋白序列

③输入.tab文件

 

课程笔记

 

 

用excel打开,选择第二列序列复制到upsetprot去冗余,双击柱状图,复制序列名称。

课程笔记

 

 提取ID的蛋白序列

课程笔记

 

 

课程笔记

 

 NCBI-Protein-Blast

 

课程笔记

 

上一篇:OSPF基础(上)


下一篇:通过CDS取出来的数量字段为0,SE16N查看又有值.