3.k均值的算法

一、课堂练习

# 课堂练习
from sklearn.datasets import load_iris
# 导入鸢尾花数据
iris=load_iris()
iris
iris.keys()
data=iris['data']  #鸢尾花数据
target=iris.target #标签,属于哪一种花
iris.feature_names #特征名:花萼长度、花萼宽度、花瓣长度、花瓣宽度
# 'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'

二、作业

1). 扑克牌手动演练k均值聚类过程:>30张牌,3类

3.k均值的算法

 

3.k均值的算法

 

第一次分类 第一次类中心 1 8 13
sum 18 127 86
mean 18/8 127/18 86/7
第二次分类 第二次类中心 2.25 7.05 12.28
sum 18 107 106
mean 18/8 107/16 106/9
第三次分类 第三次新中心 2.25 6.68 11.77
sum 18 107 106
mean 18/8 107/16 106/9
聚类中心 中心 2.25 6.68 11.77

 

 

 

 

 

 

 

 

 

 

2). *自主编写K-means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题)

3). 用sklearn.cluster.KMeans,鸢尾花花瓣长度数据做聚类,并用散点图显示.

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# 导入鸢尾花数据
iris=load_iris()
data=iris['data']  #鸢尾花数据
petal=data[:,2] #花瓣长度数据
# # 换成n行1列,-1是任意行的意思
X_petal=petal.reshape(-1,1)
model1=KMeans(n_clusters=3) #构建模型,聚类中心个数为3
model1.fit(X_petal) #模型训练
Y_petal=model1.predict(X_petal) #模型训练过后,根据花瓣长度预测分类
# c是按颜色分类,cmap是设置颜色
# x轴是花瓣数据,y轴是鸢尾花分类
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.scatter(X_petal[:,0],Y_petal,c=Y_petal,cmap="rainbow")
plt.xlabel("花瓣长度(cm)")
plt.ylabel("鸢尾花分类")
plt.yticks(range(3),labels=['setosa','versicolor','virginica'])

 

4). 鸢尾花完整数据做聚类并用散点图显示.

from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# 导入鸢尾花数据
iris=load_iris()
X_iris=iris.data  #鸢尾花完整数据
model=KMeans(n_clusters=3)  #构建模型,聚类中心个数为3
model.fit(X_iris)   #模型训练
Y_iris=model.predict(X_iris) #模型训练过后,根据所有数据预测分类
plt.scatter(X_iris[:,2],X_iris[:,3],c=Y_iris,cmap="rainbow")
plt.xlabel("花瓣长度(cm)")
plt.ylabel("花瓣宽度(cm)")

 

5).想想k均值算法中以用来做什么?

K均值算法属于聚类算法,可以将没有标签的数据进行分类。

在实际生活中,可以帮助细分市场,可以将客户划分至不同的细分市场组,以便营销和服务;

又或者可以进行社交网络分析,观察人与人之间的互相来往,从而查找一群互相有关系的人等等。

上一篇:基于sklearn K临近算法 最简单预测 花的种类


下一篇:3.数据可视化入门介绍