Task05 使用sklearn构建完整的分类项目

本文参考链接
https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntegratedLearning

1. 导入数据集

本次使用的是sklearn自带的 IRIS鸢尾花数据集
导包

import numpy as np
import pandas as pd

导入数据集

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
feature = iris.feature_names
data = pd.DataFrame(X,columns=feature)

读取数据

data['target'] = y
data.head()

各个特征的相关解释:

  • sepal length (cm):花萼长度(厘米)
  • sepal width (cm):花萼宽度(厘米)
  • petal length (cm):花瓣长度(厘米)
  • petal width (cm):花瓣宽度(厘米)

2. 选择度量模型性能的指标

度量分类模型的指标和回归的指标不一样。分类问题本身的因变量是离散变量,单单衡量预测值和因变量的相似度行不通。在分类任务中,对于每个类别犯错的代价不尽相同。为了解决这些问题,必须将各种情况分开讨论,然后才能给出评价指标。

  • 真阳性TP:预测值和真实值都为正例;
  • 真阴性TN:预测值与真实值都为正例;
  • 假阳性FP:预测值为正,实际值为负;
  • 假阴性FN:预测值为负,实际值为正。

分类模型的指标:
准确率:分类正确的样本数占总样本的比例,即:

上一篇:机器学习基础—集成学习Task5(分类模型)


下一篇:K-means algorithm for iris data clustering