数据挖掘实验（一）数据规范化【最小-最大规范化、零-均值规范化、小数定标规范化】

2024-03-02 10:54:22

本文代码均已在 MATLAB R2019b 测试通过，如有错误，欢迎指正。

一、数据规范化的原理
二、Matlab代码实现

一、数据规范化的原理

数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异，需要进行标准化处理。将数据按照比例进行缩放，使之落入一个特定的区域，便于进行综合分析。

（1）最小-最大规范化
假定min和max分别为属性A的最小值和最大值，则通过下面公式将属性A上的值v映射到区间[new_min, new_max]中的v’：

\[v'=\frac {v-min} {max-min}(new\_max-new\_min)+new\_min \]

（2）零-均值规范化
将属性A的值根据其平均值mean和标准差std进行规范化：

\[v'=\frac {v-mean} {std} \]

（3）小数定标规范化
通过移动属性A的小数点位置进行规范化，小数点的移动依赖于A的最大绝对值：

\[v'=\frac {v} {10^j} \]

其中，j是使 Max(| v' |)<1的最小整数。

二、Matlab代码实现

1.最小-最大规范化

Matlab的代码可以写简单一点，不用像C++那样写两个for循环。

mi=min(A)默认求矩阵A每列的最小值，返回一个行向量mi。
repmat(mi,n,1)重复mi，重复行n次，重复列1次，从而形成与A相同大小的矩阵。
./可直接将两个矩阵所有相同位置的元素相除（不用写两个for循环）。

clear;clc;

%% 数据存入A
A=[78 521 602 2863	
144	-600 -521 2245	
95 -457	468	-1283
69	596	695	1054
190	527	691	2051
101	403	470	2487
146	413	435	2571];

fprintf("原数据："); A

new=input("请输入需要映射到的新区间。输入格式示例：[0,1]\n");
new_mi=new(1);
new_mx=new(2);

[n,m]=size(A);
mi=min(A); % 求出A每列的最小值，形成行向量mi（不用for循环）
mx=max(A); % 求出A每列的最大值，形成行向量mx
mi=repmat(mi,n,1); % 将矩阵mi重复，行n次，列1次，调整到与A相同大小（之后就不用for循环了）
mx=repmat(mx,n,1); % 将矩阵mx重复，行n次，列1次，调整到与A相同大小
B=(A-mi)./(mx-mi)*(new_mx-new_mi)+new_mi; % ./的含义是将两个矩阵所有相同位置的元素相除

fprintf("\n经过最小最大规范化后："); B

Matlab也有现成的mapminmax()函数直接实现最小-最大规范化：

B1=mapminmax(A')'; % 每列规范化到[-1,1]
B2=mapminmax(A',0,1)'; % 每列规范化到[0,1]

解释一下：

mapminmax()函数，默认按行最小最大规范化到[-1,1]。
由于默认是按行，如果要按列规范化，传参时需将A进行转置，将mapminmax()函数返回的结果再转置一下即可。
B2=mapminmax(A',0,1)'，后面加上两个参数表示新区间的左右端点。

代码运行结果

输入的新区间范围为[0,1]：

原数据：
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

请输入需要映射到的新区间。输入格式示例：[0,1]
[0,1]

经过最小最大规范化后：
B =

    0.0744    0.9373    0.9235    1.0000
    0.6198         0         0    0.8509
    0.2149    0.1196    0.8133         0
         0    1.0000    1.0000    0.5637
    1.0000    0.9423    0.9967    0.8041
    0.2645    0.8386    0.8150    0.9093
    0.6364    0.8470    0.7862    0.9296

2.零-均值规范化

clear;clc;

%% 数据存入A
A=[78 521 602 2863	
144	-600 -521 2245	
95 -457	468	-1283
69	596	695	1054
190	527	691	2051
101	403	470	2487
146	413	435	2571];

A_mean=mean(A); % mean求的是每列的均值
A_std=std(A); % std求的是每列的标准差
[n,m]=size(A);
B=(A-repmat(A_mean,n,1))./repmat(A_std,n,1);

fprintf("原数据："); A
fprintf("经过零均值规范化后："); B

Matlab也有现成的zscore()函数直接实现零-均值规范化：

[B,A_mean,A_std]=zscore(A); % 返回按列进行零均值规范化后的矩阵、每列均值、每列标准差
B=zscore(A); % 只返回按列进行零均值规范化后的矩阵

代码运行结果

原数据：
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

经过零均值规范化后：
B =

   -0.9054    0.6359    0.4645    0.7981
    0.6047   -1.5877   -2.1932    0.3694
   -0.5164   -1.3040    0.1474   -2.0783
   -1.1113    0.7846    0.6846   -0.4569
    1.6571    0.6478    0.6752    0.2348
   -0.3791    0.4018    0.1521    0.5373
    0.6504    0.4216    0.0693    0.5956

3.小数定标规范化

clear;clc;

A=[78 521 602 2863	
144	-600 -521 2245	
95 -457	468	-1283
69	596	695	1054
190	527	691	2051
101	403	470	2487
146	413	435	2571];

mx=max(abs(A)); % 求每列绝对值最大的数mx
len=floor(log10(mx))+1; % 求mx的位数len
B=A./(10.^len); % 将A中每个元素除以10^len

fprintf("原数据："); A
fprintf("经过小数定标规范化后："); B

代码运行结果

原数据：
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

经过小数定标规范化后：
B =

    0.0780    0.5210    0.6020    0.2863
    0.1440   -0.6000   -0.5210    0.2245
    0.0950   -0.4570    0.4680   -0.1283
    0.0690    0.5960    0.6950    0.1054
    0.1900    0.5270    0.6910    0.2051
    0.1010    0.4030    0.4700    0.2487
    0.1460    0.4130    0.4350    0.2571

码农公寓

一、数据规范化的原理

二、Matlab代码实现

1.最小-最大规范化

代码运行结果

2.零-均值规范化

代码运行结果

3.小数定标规范化

代码运行结果

相关文章