1、taxonomy之简介
生物分类学是研究生物系统的一种强有力的组织原则。遗传、共同遗传的同源性以及在确定功能时保护序列和结构,这些都是生物学的中心思想,直接关系到任何一组生物体的进化史。因此,分类法在许多NCBI工具和数据库中扮演着重要的交联角色。NCBI分类法数据库是对GenBank中表示的所有生物体的名称和分类进行整理的集合。当向GenBank提交新的序列时,将检查提交的序列中是否有新的生物名称,然后对这些名称进行分类并添加到分类法数据库中。截至2003年4月1日,共有4653科26427属130207种,总分类单元176890个。构建分类法的几种不同方法中,我们的小组维护了一个系统发生分类法。在系统发生分类方案中,分类树的结构近似于分类中所包含的生物体(“生命树”)之间的进化关系;请参见图1)。
我们不单独依赖序列数据来构建分类,也不作为分类法项目的一部分自己执行系统发育分析。GenBank中的大多数生物仅由一小段序列表示;因此,仅靠序列信息不足以建立一个强健的系统发育。绝大多数的物种根本不在那里,尽管大约50%的鸟类和哺乳动物都在那里。因此,我们也依赖于形态学研究的分析;现代系统学的挑战是统一分子和形态学的数据来阐明演化过程。目前,每天有100多个新物种被添加到数据库中,随着序列分析成为系统研究和新物种分类描述中越来越常见的组成部分,这一速度正在加快。
EMBL DDBJ数据库,以及基因库,现在使用NCBI分类法作为核苷酸序列的分类标准(见附表1)。几乎所有的数据库中发现的新物种分类通过序列提交其中一个数据库从物种还没有代表。在这些情况下,会咨询NCBI分类法组,在序列条目公开之前,命名和分类方面的任何问题都会得到解决。我们也收到未被鉴定为物种级别的意见书的咨询(例如,“汉坦病毒”或“巴西尔病毒”)
分类法浏览器(TaxBrowser)提供分类法中任何特定位置的分类的层次视图。对于大多数对我们的分类感兴趣的普通用户(浏览器)来说,这可能是首选的显示方式。TaxBrowser只显示分类法数据库中链接到公共序列条目的分类单元的子集。大约15%的完整分类法数据库没有显示在公共Web页面上,因为名称来自尚未发布的序列条目。axBrowser不断更新。在Entrez数据库的每日发布周期中,随着新名称以索引的序列条目的形式出现,新的物种将每天出现。分类中的新分类单元会不断地出现在TaxBrowser中,因为已经链接到公共序列条目的分类单元部分会被修改。
数据库中的每个分类单元都有一个惟一的标识符,它的taxid。taxid是按顺序分配的。当一个分类单元被删除时,它的taxid消失,没有重新分配(表1;请参阅FTP以获得已删除的taxid的列表)。当一个分类单元合并与另一个分类单元(例如,如果名字是决心是同义词或一个是拼写错误),节点已经消失了的taxid被列为“二级taxid”taxid的节点(参见FTP站点上的合并taxid文件)。在这两种情况下,已经消失的taxid将永远不会分配给数据库中的新条目。
ftp://ftp.ncbi.nih.gov/pub/taxonomy/ 的索引