Fisher Score算法思想

Fisher Score的主要思想是鉴别性能较强的特征表现为类内距离尽可能小,类间距离尽可能大。

根据标准独立计算每个特征的分数,然后选择得分最高的前m个特征。缺点:忽略了特征的组合,无法处理冗余特征。

单独计算每个特征的Fisher Score,计算规则:

定义数据集*有n个样本属于C个类ω1, ω2…, ωC, 每一类分别包含ni?个样本。如下表

  特征1 特征2 特征3
样本1 2 1 3 0
样本2 4 5 7 1
样本3 7 3 0 0
样本4 9 2 5 0
样本5 18 5 3 1

上表数据集*有5个样本,属于两个类0、1。

0类包含样本1、样本3和样本4总共三个样本。
1类包含样本2和样本5总共两个样本。

 定义x(k) 表示样本x在第k个特征上的取值,m i( k )表示第i类样本在第k个特征上的取值的均值,m ( k ) 表示所有类别的样本在第k个特征上的取值的均值。

定义第k个特征在数据集上的类间方差为S B( k ) ,SB(k)=Fisher Score算法思想

 


原文链接:https://blog.csdn.net/qq_39923466/article/details/118809782

Fisher Score算法思想

上一篇:IDEA 配合 Dockerfile 部署 SpringBoot 工程


下一篇:Java数据类型扩展