基于stacking集成学习的金线莲质量鉴别方法研究:人工智能与医疗的结合与发展

目前国内外对金线莲的品质鉴定通常依赖于化学分析方法,其中一种是分离成分鉴定法于2008年由曹扬远提出,将金线莲黄酮类成分和甾醇类成分的分离,测定金线莲中三种黄酮醇类物质的含量,可以作为衡量该药材质量的一个指标,以控制金线莲及其制剂的质量[5]。另一种化学分析方法即高效液相色谱法在2017年由邹舒鹏提出:利用金线莲HPLC测定法,主峰在供试品溶液中的保留时间与金线莲苷对照品峰应该相同,制订了金线莲苷HPLC鉴别法。最终采用薄层、高效液相色谱的鉴别[6]。
随着我国科技实力不断增强,生产力水平日益提高,除了化学分析法外还产生了利用其他学科进行金线莲质量鉴别的方法。2020年由谢文涌、柴琴琴、王武等提出形状特征、纹理特征和颜色特征来作为叶片的识别特征的基于多特征提取和stacking集成学习的机器视觉鉴定法[7]。以及王海阁,许文,张勋等提出的通过(叶)显微构造观察,发现不同品系金线莲上表皮细胞和叶肉薄壁细胞的内含物存在差异,从而进行金线莲质量的鉴别的显微镜鉴别法[8]。还有一种方法值得借鉴的是:林艳春在2019年提出利用近红外光谱检测技术进行豆粉质量分析:近红外光谱照射时,由于不同分子的分子结构不同导致不同,导致得到的光谱不同。因此通过近红外光谱技术对药材质量进行检测时,根据得到红外光谱的波长范围进行分析,从而准确地分析出红外光线所携带的分子信息结构与组成的成分[9]。该方法为金线莲质量鉴别提供了一种新的思路。
在2009年结束的Netflix推荐大赛中,由于*参赛小组均使用集成学习算法,使得基于Stacking的Ensemble方法得到了广泛的关注,并因此让针对集成学习的算法研究在世界范围的发展进入了加速时期,2011年方育柯,傅彦,周俊临等首先基于集成学习研究了个性化推荐算法[10],他们因此成为了中国首批研究集成学习的学者,此后的2012、2013年仍有集成学习的相关论文发表,从2015年开始集成学习作为一个热门研究方向进入了广大领域的科学家的眼中,关于集成学习的论文发表数自2015年-2020年保持着不断增长的趋势。2018年徐凯,崔颖提出利用STACKING集成学习在光谱图像分类研究中能产生重要作用[11],高光谱图像分类研究中,集成学习能够显著地提高分类效果。但是传统的并行多分类系统对基础分类器有较高要求,即要求差异性及分类均衡。为了解决这一问题,采用StackingLearning的堆栈式学习方式,首先使用K-Fold和交叉验证的方式进行数据分割和训练,将原始特征进行特征变换,重新构建二级特征,再使用新特征进行对Meta分类器进行训练得到判决分类器,用于样本的最后分类判断。实验结果表明,采用的StackingLearning方法不依赖基础分类器,且相比较于传统的多分类系统具有更高的精度和良好的稳定性。面对我国医疗服务系统存在的医疗资源供给不足、分配不均、医疗效率低等困境。人工智能技术正在显示它改造医疗行业与社会的潜力。基于医疗大数据、深度学习算法和愈发优异的计算机运算能力。凭借在辅助诊疗、药物研发、健康管理、医院管理等多个场景的应用,人工智能将从诊疗技术和药材系统两个层面。通过多条路径来提升我国医疗的效率。随着国务院在《新一代人工智能发展规划》中指出要推广应用人工智能医疗的新模式、新手段,人工智能医疗项目将在医疗领域的各个场景中得到开展[12],因此stacking集成学习作为一种能够提高效率的机器学习方法,必将在未来的医疗领域中得到更加广泛的应用,而药材质量鉴别分类将是其中一个至关重要的环节。
吸收光的能力不同,从而导致得到的光谱不同。因此通过近红外光谱技术对药材质量进行检测时,根据得到红外光谱的波长范围进行分析,从而准确地分析出红外光线所携带的分子信息结构与组成的成分[9]。该方法为金线莲质量鉴别提供了一种新的思路。
在2009年结束的Netflix推荐大赛中,由于*参赛小组均使用集成学习算法,使得基于Stacking的Ensemble方法得到了广泛的关注,并因此让针对集成学习的算法研究在世界范围的发展进入了加速时期,2011年方育柯,傅彦,周俊临等首先基于集成学习研究了个性化推荐算法[10],他们因此成为了开启中国集成学习时代的学者,此后的2012、2013年仍有集成学习的相关论文发表,从2015年开始集成学习作为一个热门研究方向进入了广大领域的科学家的眼中,关于集成学习的论文发表数自2015年-2020年保持着不断增长的趋势。2018年徐凯,崔颖提出利用STACKING集成学习在光谱图像分类研究中能产生重要作用[11],高光谱图像分类研究中,集成学习能够显著地提高分类效果。但是传统的并行多分类系统对基础分类器有较高要求,即要求差异性及分类均衡。为了解决这一问题,采用StackingLearning的堆栈式学习方式,首先使用K-Fold和交叉验证的方式进行数据分割和训练,将原始特征进行特征变换,重新构建二级特征。再使用新特征进行对Meta分类器进行训练得到判决分类器,用于样本的最后分类判断。实验结果表明,采用的StackingLearning方法不依赖基础分类器,且相比较于传统的多分类系统具有更高的精度和良好的稳定性。面对我国医疗服务系统存在的医疗资源供给不足、分配不均、医疗效率低等困境。人工智能技术正在显示它改造医疗行业与社会的潜力。基于庞大的医疗数据、优秀的深度学习算法和愈发优异的诊疗、药物研发、健康管理、医院管理等多个场景的应用。凭借在辅助诊疗技术和医疗系统两个层面,通过多条路径来提升我国医疗的效率。随着国务院在《新一代人工智能发展规划》中指出要推广应用人工智能医疗的新模式、新手段。人工智能医疗项目将在医疗领域的各个场景中得到开展[12],因此stacking集成学习作为一种能够提高分类效率的机器学习方法,必将在未来的医疗领域中得到更加广泛的应用。伴随着药材市场的不断扩大,数据量和数据种类也将不断增加,从而产生了非平稳的数据流,针对数据流的非平稳特性,集成学习就成为了解决数据流的重要方法,而在国际范围内学术界对该方法已有了一些探索和研究。
在2019年IEEE第八届国际信息技术和人工智能联合会议(ITAIC)上,来自国防科技大学的中国学者们提出利用多模型叠加集成算法来进行个性化商品推荐,该方法对比于传统基于协同过滤(CF)的方法,能够更好地避免CF推荐算法的瓶颈,防止过拟合,从而得到更好的预测结果[13]。
而集成学习在数据处理方面也拥有其独特的优势,2017年由弗吉尼亚联邦大学计算机科学系的Bartosz.krawczyk等提出由于数据流的非平稳特性,导致在内存和时间有限的情况下要使用算法进行数据处理就需要用到集成学习的方式[14]。另外由于数据流的非平稳特性导致模型必须适应概念漂移,因此必须有更多元性的模型构建输入。根据wolpert提出的“没有免费的午餐”定理,没有一个单一的分类器适合所有的任务,因为每个算法都有自己的能力范围。因此我们需要将多种分类器相结合,把复杂、困难的大问题分解成更简单的子问题,提高预测精度。具体步骤可分为以下三点:1、找到各个分类器的连接关系2、构建一个多样化且互补的分类器集合3、用复合规则限制最后的结果。一个好的集成学习应该有多样化且正确率高的分类器,这是建立数据流分类器的一个极好的方式,因为他能分配数据流向以适应最新的数据流,而最新的数据会使得他重新训练集成部分并抛弃过时的分类器。
集成作为一种集体决策系统,是将学习到的分类器的预测结合起来进而生成对新实例的预测。计算机技术已经发展了几十年,要显著提高单个分类器的性能已经成为了一项事倍功半的工作,因此将不同种类分类器组合以获得更好分类性能的思路取得了学术界的广泛关注。2013年由香港岭南大学YiJunChen,Man-Leung Wong,Haibing Li等人提出stcking集成分类器能够实现相比于单一成分分类器更准确的分类[15]。stacking和BAGGING、BOOSTING算法不同的是,它从不直接操作训练数据集,相反,由通过不同学习算法训练的多个分类器构成基础层以及用结合了基本分类器输出和真实类标签的元数据集的算法训练元层,这两个层次生成一个分类器的集合。从而实现将具有差异性的分类器相结合,进而得到优化分类性能的结果。
但至今为止国内外还未有学术研究将stacking集成学习和金线莲的近红外光谱检测数据进行结合,从而开发出对于金线莲质量鉴别的高级分类方法,因此本篇论文着手于基于stacking learning的金线莲质量鉴别研究,将stacking集成学习应用的近红外光谱分析中,与传统的以人工对比分析近红外光谱数据相比能够节约大量的时间和人力成本,既能提高对金线莲质量鉴别的准确性,又能提高鉴别分类的速度,还降低了鉴别所需要的成本,因此是一个极具价值的研究方向。对于stacking集成学习在应用中我们最关注的研究方向,也就是生成一个理想的集成分类器的最主要难点是如何合理地配置每个基本分类器和元分类器。影响基础分类器发挥作用的因素既包括了学习算法的多样性,又包含了元分类器类型对基础分类器的融合。因此,本篇论文的研究方向在于基于stacking集成学习原理编写基本分类器和元分类器,并利用PCA方法原理进行数据降维仿真并设置合适的权重进行训练,使分类器能够在保证一定的准确率的前提下进行金线莲的质量鉴别。
3.主要参考文献
[1]王莹,邱江明,吴建阳, 等.适宜工厂化生产的江西野生金线莲组织培养技术研究[J].农业与技术,2014,(3):11-12. DOI:10.3969/j.issn.1671-962X.2014.03.010.
[2]林平,华碧春,黄智锋.金线莲的质量标准探讨[J].福建中医药大学学报,2012,22(5):40-42. DOI:10.3969/j.issn.1004-5627.2012.05.014.
[3]陈人龙.说说金钱莲[J].健康人生,2019,(11):50-51.
[4]韩金龙,张雪峰,单成钢, 等.金线莲组培技术现状及发展趋势[J].现代农业科技,2019,(22):90-91.
[5]曹扬远.金线莲中化学成分的研究[D].福建:福建医科大学,2008. DOI:10.7666/d.y1333787.
[6]邹舒鹏.金线莲保健食品的研究与开发[D].湖北:华中科技大学,2017. DOI:10.7666/d.D01309955.
[7]谢文涌,柴琴琴,甘勇辉, 等.基于多特征提取和Stacking集成学习的金线莲品系分类[J].农业工程学报,2020,36(14):203-210. DOI:10.11975/j.issn.1002-6819.2020.14.025.
[8]王海阁,许文,张勋, 等.林下栽培金线莲的生药鉴别[J].中药材,2020,43(2):303-308. DOI:10.13863/j.issn1001-4454.2020.02.009.
[9]林艳春.近红外光谱技术在豆粉质量分析中的应用[J].现代食品,2019,(6):154-156. DOI:10.16736/j.cnki.cn41-1434/ts.2019.06.047.
[10]方育柯,傅彦,周俊临.基于集成学习的个性化推荐算法[J].计算机工程与应用,2011,47(10):1-4. DOI:10.3778/j.issn.1002-8331.2011.10.001.
[11]徐凯,崔颖.Stacking Learning在高光谱图像分类中的应用[J].应用科技,2018,45(6):42-46,52. DOI:10.11991/yykj.201712011.
[12]厉杰,章富荣.人工智能提升我国医疗效率的机遇与挑战[J].江南论坛,2020,(10):30-32.
[13]AolongZhou;KaijunRen;XiaoyongLi;WenZhang.MMSE: A Multi-Model Stacking Ensemble Learning Algorithm for Purchase Prediction[A].2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC)[C],2019
[14] KrawczykB ,Minku L L , Gama J , et al. Ensemble learning for data stream analysis: A survey[J]. Information Fusion, 2017, 37:132-156.
[15] Chen Y J , Wong M L , Li H . Applying Ant Colony Optimization to configuring stacking ensembles for data mining[J]. Expert Systems with Applications, 2014, 41( 6):2688-2702.

上一篇:集成学习VotingClassifier、HistGradientBoostingClassifier、Stacking、Blending


下一篇:洛谷P5092 Cube Stacking