UNITE数据库怎么用

UNITE数据库怎么用


UNITE(https://unite.ut.ee)是一个基于网络的真菌分子鉴定数据库和序列管理环境。它的目标是形成正式的真菌条形码——核核糖体内部转录间隔区(ITS)区域,并提供所有~1,000,000公共真菌ITS参考序列。
不过,往往因为网络问题,上不去这个网。

首先,从UNITE官网下载数据库,得到一个压缩包

UNITE数据库怎么用
里面有三种数据库:
UNITE数据库怎么用
我现在也不太清楚它们的区别,这里以后再补充。

拿到后,要将其转化Qiime2可用的,用下面的代码就可以实现:

qiime tools import \
  --type 'FeatureData[Sequence]' \
  --input-path UNITEv6_sh_99_s.fasta \
  --output-path ref-seq-fungi.qza

qiime tools import \
  --type 'FeatureData[Taxonomy]' \
  --input-format HeaderlessTSVTaxonomyFormat \
  --input-path UNITEv6_sh_99_s.txt \
  --output-path ref-taxonomy-fungi.qza

这样就能得到两个文件:ref-taxonomy-fungi.qza和ref-seq-fungi.qza

可以用这两个文件,进行注释:

#分类注释vesearch (参考的数据库有两个文件时用vesearch)(一个文件时用classify-sklearn的指令)
time qiime feature-classifier classify-consensus-vsearch \
  --i-reference-reads rep-seq-fungi.qza \
  --i-query rep-seqs-dada2.qza \
  --i-reference-taxonomy ref-taxonomy-fungi.qza  --o-classification taxonomy.qza

但是,我在做的时候发现,这样注释出来的有很多unassigned,所以,需要对这个库进行训练:

#训练分类器
qiime feature-classifier fit-classifier-naive-bayes \
  --i-reference-reads rep-seq-fungi.qza \
  --i-reference-taxonomy ref-taxonomy-fungi.qza \
  --o-classifier classifier.qza

这样就可以得到训练后的库:classifier.qza,这样最后的库是只有一个文件的。可以用这个文件,进行注释:

#分类注释 (参考的数据库有一个文件时用classify-sklearn的指令)
qiime feature-classifier classify-sklearn \
  --i-classifier classifier.qza \
  --i-reads rep-seqs-dada2.qza \
  --o-classification taxonomy.qza

然后就可以接着往下分析了。

上一篇:鸢尾花的分类(四种方法)


下一篇:OpenCASCADE Point Classifier