Machine Learning-特征工程之特征选择

特征工程之特征选择

目录

简介

1 Filter(过滤式选择)

1.1 移除低方差特征(variance threshold)

1.2 信息增益(information gain)

1.3 单变量特征选择 (Univariate feature selection)

1.3.1 卡方检验 (chi-square test)

1.3.2 Pearson 相关系数 (Pearson Correlation)

1.3.3 费雪分数(fisher score)

1.4 Relief(Relevant Features)

2 Wrapper(包裹式选择)

2.1 递归特征消除(recursive feature elimination)

2.2 遗传算法(genetic algorithms)

2.3 拉斯维加斯方法(Las Vegas Wrapper)

3 Embedded(嵌入式选择)

3.1 L1(LASSO )

3.2 决策树、随机森林、极限树

简介

随着科技的发展,数据量越来越大,在建立模型时,考虑的数据维度越来越广,所以建里模型前的降维越来越重要,降温的方式一般有两种,其一是用原始的维度合成新的重要维度,例如SVD和PCA,其二是在原始的维度中保留重要维度,剔除次要维度。

第一种降维方式的优点是可以简单高效的合成重要维度,缺点是合成的维度失去其现实中的可解释性。 第二种降维方式的优点是保持其原始的可解释性,缺点是计算比第一种相对复杂。

所以在图片识别,声音识别等不需要解释中间变量的模型领域经常采用第一种建模方式,在金融领域往往需要追求变量的可解释性,所以经常采用第二种降维方式。

本文主要采用第二种降维方式,也就是在原有的特征中进行特征选择。这种降维的方法其关键分为两大步: 第一步:如何遍历所有特征。 第二步:如何判断特征的重要性。

如何遍历所有特征。

在第一步中可使用前向搜索,后向搜索和双向搜索方法遍历所有特征,这三种遍历方法全部是贪心算法,最求每一步最优,不是全局最优。

1、前向搜索:首先对单特征进行遍历,找到此次遍历中最重要的特征,然后保留这个特征,遍历这个特征和其他任一特征的组合的主要性,找到第二重要的特征,保留这两个特征,遍历这个两个特征和其他任一特征的组合的重要性,找到第三个特征,保留着三个特征,以次下去,即可对全部特征进行重要性排序。

2、后向搜索:与前向搜索相反,开始在全部特征中遍历剔除一个特征,找到影响重要性最小的特征,将其剔除,然后,在剩下的n-1个特征中遍历剔除一个特征,找到影响重要性最小的特征,以此下去,即可对全部特征进行重要性排序。

3、双向搜索:同时进行向前和向后搜索,但是一定要注意,向后搜索一定不要剔除向前搜索选中的特征。

如何判断特征的重要性。

如何判断特征的重要性,有很多方法,如:信息熵、相关系数、信息价值(Information Value),具体方法下面会具体介绍。

主要方法分类

特征筛选降维的方法主要分为三大类:过滤法(Filter)、包裹法(Wrapper)、嵌入法(Embedded)。这三者的区别和具体算法下面进行具体介绍。

Filter(过滤法)

Filter的思想是,特征筛选和模型建立完全隔离开,筛选特征时,不考虑具体什么模型,只看特征对目标变量影响。

这种方法包括:移除低方差特征(variance threshold)、信息增益(information gain)、卡方检验 (chi-square test)、 Pearson 相关系数 (Pearson Correlation)、费雪分数(fisher score)

移除低方差特征(variance threshold)

其思想是,剔除方差小的特征,方差小的特征其值变化较小,认为区别力度不大,但是该方法只适用于离散型随机变量,若是连续性随机变脸需要进行woe封箱。

给出如下例子,可以看到第一个维度的取值为(0,0,1,0,0,0)其波动率非常小,所以认为这个特征应该清楚。

信息增益(information gain)

这里先给出信息熵的公式如下:

其中:D是一个集合,

是集合D的信息熵,

是集合D中k类的比例。

对于集合D,考虑样本的属性factor1,在属性factor1上,可将集合D划分为

),所以,这个属性将集合划分的信息增益为:

特征划分带来的信息增益值越大,其这个特征对结果影响越大,所以我们可以通过信息增益来判断特征的重要性,结合上面特征遍历的方法,我们就可以得到筛选特征的方法。

下面给出信息增益结合前向搜索的python例子:

上面给出了,前向搜索结合信息增益筛选特征的例子。在很多情况下为了简化,只进行单变量特征选择。

单变量特征选择 (Univariate feature selection)

单变量特征选择不进行前向、后向或者双向搜索,只进行单一变量的影响排名。常用的方法有卡方检验,相关系数和费雪分数。

卡方检验 (chi-square test)

我们在讲解卡方检验以前,先来推导卡方分布。

卡方分布

是独立的服从

的随机变量,构造新的统计量:

,则

的密度函数为:

其中:

函数。

以上分布被称为卡方分布。

证明:对于统计量

有:

使用极坐标变换:

\begin{cases} x_1=rcos\theta_1\ x_2=rcos\theta_2sin\theta_1\ ...\ x_{n-1}=rcos\theta_{n-1}sin\theta_{n-2}...sin\theta_1\ x_n=rsin\theta_{n-1}sin\theta_{n-2}...sin\theta_1\ \end{cases}

\begin{cases} x_1=rcos\theta_1\ x_2=rcos\theta_2sin\theta_1\ ...\ x_{n-1}=rcos\theta_{n-1}sin\theta_{n-2}...sin\theta_1\ x_n=rsin\theta_{n-1}sin\theta_{n-2}...sin\theta_1\ \end{cases}

所以:

所以:

P(\chi^2<x)=\int\int...\int_B \Pi_i^N \frac{1}{\sqrt{2\pi}} e{-\frac{x_i2}{2}} dx_1dx_2...dx_n\ =(\frac{1}{\sqrt{2\pi}})^N\int\int...\int_B e{-\sum_iN\frac{x_i^2}{2}} dx_1dx_2...dx_n\ =c_n\int_{r=0}^\infty e{-\frac{r2}{2}} r^{n-1} dr

P(\chi^2<x)=\int\int...\int_B \Pi_i^N \frac{1}{\sqrt{2\pi}} e{-\frac{x_i2}{2}} dx_1dx_2...dx_n\ =(\frac{1}{\sqrt{2\pi}})^N\int\int...\int_B e{-\sum_iN\frac{x_i^2}{2}} dx_1dx_2...dx_n\ =c_n\int_{r=0}^\infty e{-\frac{r2}{2}} r^{n-1} dr

因为

得到

所以:

P(\chi2<x)=c_n\int_{r=0}\infty e{-\frac{r2}{2}} r^{n-1} dr\ =c_n\int_{r=0}^\infty e^{-\frac{x}{2}} x^{\frac{n-1}{2}} \frac{1}{2}\sqrt{x} dx\ =\frac{1}{2}c_n\int_{r=0}^\infty e^{-\frac{x}{2}} x^{\frac{n}{2}-1} dx

P(\chi2<x)=c_n\int_{r=0}\infty e{-\frac{r2}{2}} r^{n-1} dr\ =c_n\int_{r=0}^\infty e^{-\frac{x}{2}} x^{\frac{n-1}{2}} \frac{1}{2}\sqrt{x} dx\ =\frac{1}{2}c_n\int_{r=0}^\infty e^{-\frac{x}{2}} x^{\frac{n}{2}-1} dx

当x趋于正无穷大时,有:

解得:

所以得到:

上面我们推导出来卡方分布,在推导的过程中,我们看到n个服从相同独立的正太分布随机变量的平方和服从卡方分布。

所以当我们构造的检验的统计量的表达形式是n个服从相同独立的正太分布随机变量的平方和时,这种检验方式称为卡方检验。

卡方统计量

卡方统计量的由来: 皮尔逊在衡量数据的分布与所选择的预期或假设分布之间的差异是,需要构造一个统计量,对这个统计量进行假设检验,皮尔逊首先考虑所有数据分布的频数

和对饮的假设分布的频率

的差的和:

但是他发现不同数据的频数可能大于假设的分布的频率,也可能小于假设的分布的频率。所以不同数据的频率差之间会相互抵消。从而失去本来想衡量数据分布和假设分布差异的意义。

针对这一问题,皮尔逊引入了平方的概念,即把上面的和变成了:

.虽然解决了上面的问题,但是还有一个问题,就是数量级的问题,即

之间都是相差10,但是明显后面一种比前面一种更准确。所以,皮尔逊在这个公式上又做了改变为:

所以上面的统计量就是最终的卡方统计量。

但是值得注意的是,这个统计量并不严格服从卡方分布。 理论次数

越大,该分布与卡方分布越接近,当理论次数

时,与卡方分布符合较好。当超过20%的理论次数小于5,或至少有一个理论次数小于1时,公式右边的表达式与卡方分布偏离较大。因此,其应用条件为至少有80%的理论次数不小于5,并且每个理论次数都不小于1。

上面的条件也就是进行卡方检验的条件。当不符合上面的条件时,我们可以进行适当的处理,来使用卡方检验,这的处理方式不是本文重点,不展开讲述。

卡方检验

上面构造出了卡方统计量,对这个统计量进行检验的话,就是卡方检验,

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

注意:卡方检验针对分类变量,没如果是连续变量,则要分组离散化。

卡方检验的原假设

一般是数据的分布符合某一预期的分布。备择假设一般为预期分布不符合某一预期分布。

卡方检验的用处主要有以下几种:

1、检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。 2、检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。 3、检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。 4、检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。 5、检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。

可以看到,上面的用途中,第三种用途可以检验二分类和多分类特征和目标的关系。此时原假设

是特征和目标是独立的,备择假设

是特征和目标是相关的。

所以可以中卡方检验来进行特征筛选。下面给出具体的python例子:

Pearson 相关系数 (Pearson Correlation)

这种特征选择的方式一般是模型中最长用的一种方式,需要注意的是,求相关系数时,不是用的某一特征和目标的相关系数,因为我们的模型并非线性回归,只有模型是线性回归时,求特征和目标的相关系数才有意义,在一般的模型中,我们求的是特征与特征之间的相关系数。我们会剔除一些相关性非常强的特征。

相关系数的python代码如下:

费雪分数(fisher score)

我们在处理分类问题时,对于某个特征,我们希望这个特征在同类里面方差近可能的小,不同类之间方差近可能大。这样的特征肯定对分类有很大的帮助。

我们构造如下变量(fisher score):

其中:

是第k类的特征

的均值,

是特征

的整体均值。

是特征的数量。

是第i个特征在第j个类里面的值,

所以上面构造的这个fisher score越大,组内方差越小,组间的方差越大,也就是这个特征的效果越好。

相比于信息增益,fisher score 计算更简单,且跟准确。所以这种方法相对更好。

下面我们给出python例子:

Relief(Relevant Features)

Relief(Relevant Features)是一种著名的过滤式特征选择方法,该方法设计了一个“相关统计量”来度量特征的重要性,该统计量是一个向量,其每个分量分别对应一个初始特征,而特征子集的重要性则是由子集中每个特征对应的相关统计量分量之和来决定,于是,最终只需要指定一个阈值p,然后选择比p大的相关统计量分量对应的特征即可。

相关统计量向量

在上面的描述中,可以看出,这个相关统计量的构造及其重要,我们下面介绍其是怎么构造的。

Relief

使用Relief进行特征选择,可以处理二分类问题。我们先给出以下两个定义: 1、猜中近邻:对应一个样本

,我们找到距离这个样本最近的同类样本,就是猜中近临,记做

2、猜错近邻:对应一个样本

,我们找到距离这个样本最近的异类样本,就是猜错近临,记做

我们定义这个相关统计量向量的第j个分量为:

其中:j为样本的第j个特征,

,当j属性离散时,其值要么为0,要么为1。

注:其对连续的

使用这个公式前,必须先线性映射到区间[0,1]。

为什么这样构造这个统计量向量。其实可以这样理解,对于属性j,当样本i与猜中近临的距离小于猜错近临的距离时,说明这个属性对分类是有正向帮助的,此时公式中

是正的。也就意味着这个

变大。这样

越大,说明属性对分类的影响越大。

Relief-F

上面给出的是二分类问题时Relief的原理,对于多分类问题,一般使用Relief-F,其思想和方法和Relief几乎一摸一样,就是在相关统计量分量的构造上有一点一点区别,如下:

其中:

为第l类样本在数据集中所占的比例。k为

所在的类。

在l类里面的猜错近邻。

下面是python的一个例子:

Wrapper(包裹法)

Wrapper(包裹法)的主要思想是选择特征时,会考虑接下来具体使用什么模型,不会像过滤法一样,将模型和特征选择完全分离开。

这种方法主要包括:递归特征消除(recursive feature elimination)、序列特征选择(sequential feature selection algorithms)、遗传算法(genetic algorithms)

递归特征消除(RFE)

这种算法的做法是,使用前向或者后向遍历特征,这里判断特征重要性,不是通过某一个值,而是对这些特征直接进行模型训练,用贪心算法找到每一步重要的特征或者剔除不重要的特征。

这种做法的缺点是效果的稳定性完全取决于模型的稳定性,像线性回归这种不稳定的模型,RFE的效果不是很稳定。

下面给出RFE的python例子:

遗传算法(genetic algorithms)

遗传算法( Genetic Algorithm)是一种启发式的智能优化算法,其是模拟达尔文生物进化论中的自然选择和遗传学机理,实现了一种通过模拟自然进化的过程搜索最优解的方法。

因为是模拟达尔文自然进化的过程,所以其主要特点是直接对结构对象进行建模操作,不存在求导和函数连续性的限定;且采用概率化的寻优方法,不需要确定的规则就能自动获取和指导优化的搜索空间,自适应地调整搜索方向。

可以看到,遗传算法的优点很多,但是因为遗传算法是一种启发式的优化算法,所以他有点像我们初中学习几何问题时使用的辅助线,极具艺术性,在编码、适应性函数、交叉和变异时,需要些灵感性的构造,使用的好了非常简单高效的解决问题,使用不好根本解决不了问题。

遗传算法(GA)数学理论

遗传算法虽然是模拟的自然选择,但是其数学理论很简单,主要包括两部分:模式定理和积木块假设(building block hypochesis)。 模式定理:其给出了遗传算法在优化问题和搜索问题里面的数学有效性。但是此定理并没有在数学上给出其收敛性。 积木块假设:在给定的前提下,可以假设满足特定条件的遗传算法问题可以收敛到全局最优解。注意这是个假设。

模式定理

在介绍模式定理前,我们先介绍编码和几个概念。

1、编码:在使用遗传算法时,我们首先要对问题中的特征进行01编码。把特征特征映射成一个个只有01的字符串,这里的映射方式不唯一,含有灵感的艺术成分,有的人选取的01映射好,就可以很简单的解决问题,有的人选取的不恰当,就根本解决不了问题。具体映射要看具体问题。每个特征映射成一个只含有01的字符串后,将每个样本点的这些字符串拼接起来,就成了一个很长的字符串,这样原始的样本空间就映射成为了01编码空间里的点。这些01组成的小字符串就是基因,一个样本的长串就是染色体。如0001010111,这个就是一个染色体。

有了01编码后,我们就可以定义模式。

2、模式:我们将种群中的个体即染色体字符串中的相似样板称为“模式”,模式表示染色体串中某些特征位相同的结构。 如

两个染色体,

就是一个共有的模式。其中代表不确定是0还是1。通常模式用H来表示。

3、模式阶: 模式H中确定位置的个数称为模式H的模式阶,记作O(H)。如

0111 的模式阶

4、定义矩:模式中第一个确定位置和最后一个确定位置之间的距离,记作

。如

01
11 的模式阶

5、模式匹配:如果一个模式

包含另一个模式

,若

,则称模式

与模式

匹配。如:

模式匹配。

有了上面的定义,我们就可以引出模式定理的内容。如下:

表示遗传算法在第t步时的种群,遗传算法中交叉概率和变异概率分别是

.H为任意一种模式,M(H,t)表示第t步种群中与模式H匹配个体的个数,则具有低模式阶、短定义距以及平均适应度高于种群平均适应度的模式,在子代中呈指数级增长,具体有以下估计公式:

其中:

为个体(染色体)的编码长度,

为第t步群体中个体的平均适应值。

为与模式H匹配的所有个体的平均适应值。

证明: 对于模式H,在第t步中与模式H匹配的个体数量为:

这些个体在进行交叉和变异前被选作父体的数学期望为:

N\frac{\sum_{v\in H|P(t) } f(v)}{\sum_{v \in P(t) } f(v)}=M(H,t) \frac{\frac{ \sum_{v\in H|P(t) } f(v)}{M(H,t) }}{\frac{\sum_{v \in P(t) } f(v)}{N}} = M(H,t) \frac{f(H,t)}{\overline{f(t)}}

N\frac{\sum_{v\in H|P(t) } f(v)}{\sum_{v \in P(t) } f(v)}=M(H,t) \frac{\frac{ \sum_{v\in H|P(t) } f(v)}{M(H,t) }}{\frac{\sum_{v \in P(t) } f(v)}{N}} = M(H,t) \frac{f(H,t)}{\overline{f(t)}}

所以,若不进行交叉和变异,有:

考虑交叉,在交叉时,可以证明模式H被破坏的概率为:

所以模式保留的概率为:

所以上面t+1步时不考虑变异,有:

考虑变异,在交叉的基础上,模式H某个位置上不被变异的概率为:

所以模式H不被变异影响的概率为:

由泰勒展开得到:

所以将交叉和变异考虑在一起就有:

M(H,t+1)= M(H,t) \frac{f(H,t)}{\overline{f(t)}}[1-p_c\frac{\delta(H)}{l-1}] (1-p_m)^{O(H)}\ \approx M(H,t) \frac{f(H,t)}{\overline{f(t)}}[1-p_c\frac{\delta(H)}{l-1}] [ 1- O(H)
p_m ]

M(H,t+1)= M(H,t) \frac{f(H,t)}{\overline{f(t)}}[1-p_c\frac{\delta(H)}{l-1}] (1-p_m)^{O(H)}\ \approx M(H,t) \frac{f(H,t)}{\overline{f(t)}}[1-p_c\frac{\delta(H)}{l-1}] [ 1- O(H)*p_m ]

所以去掉右侧展开式中正的混合项,哟

当模式H具有低模式阶、短定义距以及平均适应度高于种群平均适应度。此时,有:

当模式阶很低,定义距很短,平均适应度高于种群平均适应度时,会有

所以

所以在子代中呈指数级增长。

所以模式定理得到证明。

可以看出,模式定理值证明了遗传算法的有效性,并没有给出算法最终会收敛到最优值。所以这里有个积木块假设。

积木块假设(building block hypothesis): 遗传算法中,分别具有高适应值、短定义矩或低阶的模式(积木块)在遗传算子的作用下相互结合,形式同时具有高适应值、短定义矩和低阶的更优秀的模式,最终接近全局最优解。 积木块假设是基于以下两个基本前提的: 1、 表现型相近的个体具有相近的基因型; 2、 遗传算子间相对独立,相关性低。

其中:表现型的意思就是在没进行01编码映射前的样子,基因型就是编码后的样子。

有了上面的理论基础,我们给出遗传算法的流程如下。

遗传算法的流程图和流程如下:

截屏2020-09-24 下午8.49.52.png

1、对原始问题编码

原始问题描述的一般是一些现实问题的数学模型,这些模型大部分是一般的最优化模型,我们要对这个问题的可行域里面的数据进行01编码,做一个映射,将可行域里面的特征数据映射成含有01的字符串,具体怎么映射是不固定的,这里很具有艺术和灵感的成分,映射的好坏直接决定是否能解决问题。

2、产生初始种群

一般要解决的优化问题可行域都是连续的,所以,对于连续的可行域我们不可能进行遍历,只能先进行离散化,这里离散化的方法很多,一般采用随机的方式,也就是在连续的区间随机产生数据,这就是随机产生初始种群,当然这里也可以不随机。需要注意的是,这里产生的初始种群是在原始问题里面产生的,需要将其映射到编码空间。

3、计算适应性函数值

对于初始种群,我们要计算这些种群中所含染色体模式H的适应性函数值,这样用来判断,那些个体保留,那些个体被淘汰,所以这里的适应值函数是和目标函数挂钩的,但是,两者有一个区别,适应值函数一般都是正的,目标函数不一定为正。还有要注意的计算适应值函数值时,是在原始问题空间里面计算,不是在编码空间计算。

4、选择

设置一个适应值阈值,选择大于这个域字的个体作为接下来遗传的父体,淘汰小于这个域值的个体。

5、遗传运算

这里包括两部分,交叉和变异,交叉就是由上一步选择得到的父体,随机两两间进行k点交叉,这一步类似染色体的交叉遗传,得到新的个体染色体,对这个新的个体染色体,随机的对01字符串上的某一个节点进行变化,就是变异。这样就完成了遗传运算。

6、更新种群

进行完上面遗传运算后,原始的个体淘汰了一部分,且剩下的个体变成父体进行遗传运算,变成了新的种群。此时判读是否满足停止条件,若满足则停止,如不满足则进入第3步。

7、判断新种群是否满足停止条件

上面给出了整个遗传算法的步骤,但是遗传算法不能判断是否到达最优点附件,也就是说遗传算法不能判断是否收敛,那怎么才能停止运算呢,一般满足下面两个条件之一即可停止运算。

1、循环次数达到指定次数。 2、最大适应度值和平均适应度值变化不大、趋于稳定。

以上是对遗传算法的介绍,下面是遗传算法应用在特征选择上。

遗传算法进行特征选择

遗传算法特征选择的基本原理是用遗传算法寻找一个最优的二进制编码, 码中的每一位对应一个特征, 若第i位为“1”, 则表明对应特征被选取, 该特征将出现在估计器中, 为“0”, 则表明对应特征未被选取,该特征将不出现在分类器中。其基本步骤为:

1、 编码。采用二进制编码方法, 二进制码的每一位的值, “0”表示特征未被选中;“1”表示特征被选中。 2、初始群体的生成。随机产生N个初始串构成初始种群, 通常种群数确定为50~100。 3、 适应度函数。适应度函数表明个体或解的优劣性。针对特征选取问题, 适应度函数的构造非常重要, 它主要依据类别的可分性判据以及特征的分类能力。 4、 将适应度最大的个体, 即种群中最好的个体无条件地复制到下一代新种群中, 然后对父代种群进行选择、交叉和变异等遗传算子运算, 从而繁殖出下一代新种群其它n-1个基因串。通常采用转轮法作为选取方法, 适应度大的基因串选择的机会大, 从而被遗传到下一代的机会大, 相反, 适应度小的基因串选择的机会小, 从而被淘汰的机率大。交叉和变异是产生新个体的遗传算子, 交叉率太大, 将使高适应度的基因串结构很快被破坏掉, 太小则使搜索停止不前, 一般取为0.5~0.9。变异率太大, 将使遗传算法变为随机搜索, 太小则不会产生新个体, 一般取为0.01~0.1。 5、 如果达到设定的繁衍代数, 返回最好的基因串, 并将其作为特征选取的依据, 算法结束。否则, 回到4继续下一代的繁衍。

下面为具体的代码实现:

2.3 拉斯维加斯方法(Las Vegas Wrapper)

拉斯维加斯算法和蒙特卡洛算法都是以赌场命名的随机算法,不同的点是,拉斯维加斯算法在给定的步数内,可能找到解,也可能找不到解,但蒙特卡洛算法在给定的步数内,一定会给出解,只不过有时解很精确,有时解很粗糙。若无步数限制,则两者都能给出精确解。

拉斯维加斯方法进行特征选择的步骤是,随机生成特征子集,对特征子集进行模型训练(通常会结合交叉验证),求的此时分类器的误差,比较误差和上一步误差的大小,若误差比上一步误差小,或者误差一样时,所选的特征数量比上一步小,则保留当前特征子集为备选,舍弃上一步特征子集,直到指定的步数结束。

Embedded(嵌入式选择)

嵌入式选择特征与前面的过滤式和包裹式不一样,没有特征选择和模型训练的明显界限,特征选择和模型训练同时进行且同时完成。

这种方式一般包括L1正则法和使用决策树的树模型。下面分别介绍。

L1正则法(LASSO )

在建立模型时,我们一般会加上正则项来防止模型的过拟合问题,一般正则项时参数的

范数。这里为说明问题,我们使用最简单的线性回归模型。

对于数据集

,我们建立线性回归模型,在求解线性回归模型时,使用最小二乘法,优化目标为:

上面就是最简单的线性回归模型。为防止过拟合出现,我们引入正则项,有:

当p=2时,正则项就是

正则,此时的回归叫做岭回归,当p=1时,正则像就是

正则,此时的回归叫做拉索回归(LASSO,最小绝对收缩选择算子)。

这里我们统一对岭回归和拉索回归进行分析。

引入正则化的优化目标:

可以看成是以下带约束条件的拉格朗日函数。

所以,其实就是在区域

(这里1可以是任意正常数,因为有

可调节成1)里面,找

的最小值。

为分析问题,我们考虑w在只有两维的情况下,因为两维可以在图片中画出来。

,建立以

为横坐标,以

为纵坐标的坐标系,在坐标系中画出区域

,然后画出目标函数

的等值线。

如下图:

截屏2020-10-02 上午11.30.00.png

由上图可以看出,使用

正则化时,最小值出现在坐标中上。也就是说,使用

正则化,求的的最优解时模型是稀疏的。从而我们可以用

正则化进行特征选择,我们选择w系数非零对应的特征维度。

正则化问题求解可用近端梯度下降,在此不展开。

下面是

正则化特征选择的例子。

决策树、随机森林、极限树

决策树和随机森林的基础知识和特征选择的方法我在《Machine Learning-决策树与集成学习》文章中已经介绍。这里只整理极限树的知识。

极限树(Extratree)

极限树和随机森林有很多相似的地方,算是随机森林的一种变种,修改随机森林的两个地方得到极限树: 1、样本不使用bagging,不进行随机抽取,而是使用全部样本。 2、在每一棵树的每一个节点进行分裂时,不进行任何数据运算,直接随机选取一个特征,然后随机给出这个特征的分裂阈值。

用极限树进行特征选择的python例子如下:

output_179_1.png

上一篇:Java中四种引用:强、软、弱、虚引用


下一篇:echarts学习网站