Fisher Score的主要思想是鉴别性能较强的特征表现为类内距离尽可能小,类间距离尽可能大。
根据标准独立计算每个特征的分数,然后选择得分最高的前m个特征。缺点:忽略了特征的组合,无法处理冗余特征。
单独计算每个特征的Fisher Score,计算规则:
定义数据集*有n个样本属于C个类ω1, ω2…, ωC, 每一类分别包含ni?个样本。如下表
特征1 | 特征2 | 特征3 | 类 | |
样本1 | 2 | 1 | 3 | 0 |
样本2 | 4 | 5 | 7 | 1 |
样本3 | 7 | 3 | 0 | 0 |
样本4 | 9 | 2 | 5 | 0 |
样本5 | 18 | 5 | 3 | 1 |
上表数据集*有5个样本,属于两个类0、1。
0类包含样本1、样本3和样本4总共三个样本。
1类包含样本2和样本5总共两个样本。
定义x(k) 表示样本x在第k个特征上的取值,m i( k )表示第i类样本在第k个特征上的取值的均值,m ( k ) 表示所有类别的样本在第k个特征上的取值的均值。
定义第k个特征在数据集上的类间方差为S B( k ) ,SB(k)=
原文链接:https://blog.csdn.net/qq_39923466/article/details/118809782