ML之UL：无监督学习Unsupervised Learning的概念、应用、经典案例之详细攻略

2024-01-24 16:31:28

无监督学习Unsupervised Learning的概念

无监督学习Unsupervised Learning的应用

1、关联分析

2、聚类问题

2.1、聚类算法常见的五种分类—划分方法(K-means/K-medoids/CLARANS)、层次方法(BIRCH/DBSCAN/CURE)

3、维度约减

无监督学习Unsupervised Learning的经典案例

1、基础案例

参考文章：《2019中国人工智能发展报告》—清华大学中国工程院知识智能中心—201912

无监督学习Unsupervised Learning的概念

现实生活中常常会有这样的问题：缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高。很自然地，我们希望计算机能代我们完成这些工作，或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

跟监督学习相反，无监督学习中数据集是完全没有标签的，依据相似样本在数据空间中一般距离较近这一假设，将样本分类。常见的无监督学习算法包括：稀疏自编码（sparse auto-encoder）、主成分分析（Principal Component Analysis, PCA）、K-Means算法（K均值算法）、DBSCAN算法（Density-Based Spatial Clustering of Applications with Noise）、最大期望算法（Expectation-Maximization algorithm, EM）等。

无监督学习Unsupervised Learning的应用

利用无监督学习可以解决的问题可以分为关联分析、聚类问题和维度约减。

1、关联分析

关联分析是指发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋，那么商家就会把鸡蛋和面包放在相邻的货架上。

2、聚类问题

聚类问题是指将相似的样本划分为一个簇（cluster）。与分类问题不同，聚类问题预先并不知道类别，自然训练数据也没有类别的标签。

无监督学习里典型例子是聚类。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

2.1、聚类算法常见的五种分类—划分方法(K-means/K-medoids/CLARANS)、层次方法(BIRCH/DBSCAN/CURE)

聚类算法一般有五种方法，最主要的是划分方法和层次方法两种。

划分聚类算法，通过优化评价函数把数据集分割为K个部分，它需要K作为输人参数。典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。

层次聚类，由不同层次的分割聚类组成，层次之间的分割具有嵌套的关系。它不需要输入参数，这是它优于分割聚类算法的一个明显的优点，其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。

3、维度约减

维度约减：顾名思义，是指减少数据维度的同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法，可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高维度转换到低维度。广为熟知的主成分分析算法就是特征提取的方法。

无监督学习Unsupervised Learning的经典案例

1、基础案例

TF之AE：AE实现TF自带数据集AE的encoder之后decoder之前的非监督学习分类

码农公寓

1、关联分析

2、聚类问题

2.1、聚类算法常见的五种分类—划分方法(K-means/K-medoids/CLARANS)、层次方法(BIRCH/DBSCAN/CURE)

3、维度约减

1、基础案例

相关文章