SAS数据挖掘实战篇【七】

2021-07-18 08:56:00

SAS数据挖掘实战篇【七】

6.5 SAS
EM数据挖掘-----预测模型

１
问题定义

目标：建立模型预测贷款申请的信用状态，选择最优的模型来预测和减少损失。

数据集：SAMPSIO.DMAGECR

数据集大小：1000

变量数目：21（20个输入变量，1个目标变量）

变量描述

该损失矩阵将产生和第一个损失矩阵相似的决策，但是第二个矩阵产生的统计描述更加容易理解。

先验概率

在训练数据集中，

未预测数据：SAMPSIO.DMAGESCR

数据集大小：75（没有GOOD_BAD变量）

2
创建数据挖掘工程

4 设置目标变量

选择变量选项卡，右击GOOD_BAD的模型角色，设置变量角色为target。

5 为GOOD_BAD变量定义目标Profile

目标资料主要定义三种信息

（1）分类变量的目标级别

（2）决策矩阵

（3）先验概率

在变量选项卡中右击GOOD_BAD目标变量，编辑目标信息

设置目标事件级别

为GOOD_BAD变量定义决策矩阵

选择评估信息选项卡，显示四个预定义的矩阵

6
查看区间变量和类别变量的统计信息

可以发现没有缺失值，但是AMOUT变量倾斜度过高

创建顺序分组变量

选择目标关联选项卡，设置变量选择方法为卡方。

运行节点，查看结果。

在21个变量中，9个是rejected，包括分组变量AGE_GA2Y，将其设置为input

10 创建逐步回归逻辑模型

SAS数据挖掘实战篇【七】

12 评估模型

运行评估节点，查看模型比较。从工具菜单中选择提升图。

13 定义评分数据集

打开score节点，选择如下

15 查看期望损失

在program选项卡中输入下面的代码，显示信用好的贷款申请者

options nocenter
nodate;

data goodapps;

set &_SCORE;

if D_GOOD_BAD_ =
'accept';

run;

proc print data = goodapps
lable;

var custid D_GOOD_BAD_
EL_GOOD_BAD_;

title "Good Credit Risk
Applicants";

run;

http://www.cda.cn/view/17224.html

17 创建报告

查看创建的报表，在浏览器中查看。

18
关闭工程，完成项目。