库 sklearn
库下的工具:
datasets,model_selection,neighbors
K近邻代码思路:
有个数据集----对数据分割----调用KNN算法
iris = datasets.load_iris()
导入数据集
数据集权重:开源数据集,重要数据集之一
数据集特点:还有3个类别,所以可分类
数据集描述链接:https://archive.ics.uci.edu/ml/datasets/Iris/
x=iris.data
y=iris.target
print(x,y)
y表示类别:3个值。所以适合分类问题
iris有150个已知数据,所以 len ( x ) , len ( y ) 都是150
x_train , x_test , y_train , y_test = train_test_split ( x , y , random_state = 2003 )
分割数据集
x 是已知数据,一共 150 个,分成训练集112个 和 测试集38个
y 同理
clf = KNeighborsClassifier(n_neighbors=3)
调用k近邻算法,邻居为3
clf.fit(x_train,y_train)