2021-10-03

机器学习3

scikit-learn数据集API介绍

数据集

sklearn.datasets

2021-10-03

获取数据集返回的类型

2021-10-03

sklearn分类数据集

2021-10-03

import sklearn.datasets
ll=sklearn.datasets.load_iris()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

2021-10-03
2.
2021-10-03

import sklearn.datasets
ll=sklearn.datasets.load_digits()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

2021-10-03

数据集进行分割

2021-10-03
2021-10-03
3.
2021-10-03

import sklearn.datasets
ll=sklearn.datasets.load_boston()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

2021-10-03

4.2021-10-03

import sklearn.datasets
ll=sklearn.datasets.load_diabetes()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)

2021-10-03

转换器与预估器

在sklearn中,估计器包括分类器和回归器,是一类实现了算法的API
1、用于分类的估计器
·sklearn.neighbors k-近邻算法
·sklearn.naive_bayes 贝叶斯
·sklearn.linear_model.LogisticRegression 逻辑回归
2、用于回归的估计器
·sklearn.linear_model.LinearRegression 线性回归
·sklearn.linear_model.Ridge 岭回归

估计器的工作流程
2021-10-03

分类算法

K-近邻算法

定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
两个样本的距离可以通过向量法(又称欧式距离)算出
2021-10-03

数据的处理

1、缩小数据集范围
DataFrame.query()
2、处理日期数据
pd.to_datetime
pd.DatetimeIndex
3、增加分割的日期数据
4、删除没用的日期数据
pd.drop
5、将签到位置少于n个的用户删除
place_count=data.groupby(‘place_id’).aggregate(np.count_nonzero)
tf=place_count[place_count.row_id>3].reset_index()
data=data[data[‘place_id’].isin(tf.place_id)]

实例流程

1、数据集的处理
2、分割数据集
3、对数据集进行标准化
4、估计器流程进行分类预测

优缺点

2021-10-03

上一篇:Improving Monocular Depth Estimation by Leveraging Structural Awareness and Complementary Datasets


下一篇:URL fetch failure on https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz: None