MLDSP-GUI: An alignment-free standalone tool with an interactive graphical user interface for DNA se
MLDSP-GUI: An alignment-free standalone tool with an interactive graphical user interface for DNA sequence comparison and analysis
MLDSP-GUI:一个无对齐的独立工具,具有用于DNA序列比较和分析的交互式图形用户界面
Abstract
Summary: MLDSP-GUI (Machine Learning with Digital Signal Processing) is an open-source, alignment
free, ultrafast, computationally lightweight, standalone software tool with an interactive Graphical User
Interface (GUI) for comparison and analysis of DNA sequences. MLDSP-GUI is a general-purpose tool
that can be used for a variety of applications such as taxonomic classifification, disease classifification, virus
subtype classifification, evolutionary analyses, among others.
Availability: MLDSP-GUI is open-source, cross-platform compatible, and is available under the terms of
the Creative Commons Attribution 4.0 International license (http://creativecommons.org/licenses/by/4.0/).
The executable and dataset fifiles are available at https://sourceforge.net/projects/mldsp-gui/.
Contact: grandha8@uwo.ca
Supplementary information: Supplementary data are available at Bioinformatics online.
摘要:MLDSP-GUI(具有数字信号处理的机器学习)是一种开源、无对准、超快、计算轻量级、独立的软件工具,具有交互式图形用户界面(GUI),用于DNA序列的比较和分析。 MLDSP-GUI是一种通用工具,可用于多种应用,如分类学分类、疾病分类、病毒亚型分类、进化分析等。
可用性:MLDSP-GUI是开源的,跨平台兼容的,并且根据CreativeCommonsAttribution4.0国际许可(http://creativecommons.org/licenses/by/4.0/)的条款提供)。 可执行文件和数据集文件可在https://sourceforge.net/projects/mldsp-gui/。获得
联系人:grandha8@uwo.ca
补充信息:补充数据可在生物信息学在线上获得
1介绍
基于对齐的方法已经成功地用于基因组分类,但它们的使用有局限性,例如需要连续的同源序列、沉重的内存/时间计算成本以及依赖于先验假设,例如统计参数的间隙惩罚和阈值。 为了应对这些挑战,提出了无对准方法。 齐列辛斯基等人,2017年定义了两类无对准方法:使用固定长度字(寡聚体)频率的方法和不需要找到固定长度段的方法。 MLDSP-GUI(具有数字信号处理和图形用户界面的机器学习)结合了这两种方法,因为它可以使用不需要计算k-mer(长度为k的低聚物)频率的DNA序列的一维数值表示,见Randhawa等人,2019年,但此外,它还可以使用DNA序列的k-mer依赖的二维混沌游戏表示(CGR),见Jeffrey,1990年;Kari等人,2015年。
虽然无对齐方法解决了基于对齐的方法的一些局限性,但它们仍然面临一些挑战。 首先,大多数现有的无对齐方法缺乏软件实现,这是在公共数据集上进行比较的方法所必需的。 其次,在有软件实现可用的方法中,大多数只在模拟序列或小型真实世界数据集上进行了测试。 第三,在基于k-mer的方法中,k的大值仍然没有解决可伸缩性问题,例如内存开销和执行时间过长。
MLDSP-GUI是一个软件工具,它解决了所有这些主要挑战,并引入了新的特性和应用,例如:交互式图形用户界面;以Newick格式作为3D绘图或系统发育树输出;簇间距离计算;用于分析低聚物的不足和过度表示的k-mer频率计算(k=2、3、4);将DNA序列可视化为二维CGRs;使用Pearson相关系数(PC C)、欧几里德或曼哈顿距离;成功地对大型、现实世界数据集进行分类