机器学习3
scikit-learn数据集API介绍
数据集
sklearn.datasets
获取数据集返回的类型
sklearn分类数据集
import sklearn.datasets
ll=sklearn.datasets.load_iris()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)
2.
import sklearn.datasets
ll=sklearn.datasets.load_digits()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)
数据集进行分割
3.
import sklearn.datasets
ll=sklearn.datasets.load_boston()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)
4.
import sklearn.datasets
ll=sklearn.datasets.load_diabetes()
print("特征值",ll.data)
print("目标值",ll.target)
print("描述",ll.DESCR)
转换器与预估器
在sklearn中,估计器包括分类器和回归器,是一类实现了算法的API
1、用于分类的估计器
·sklearn.neighbors k-近邻算法
·sklearn.naive_bayes 贝叶斯
·sklearn.linear_model.LogisticRegression 逻辑回归
2、用于回归的估计器
·sklearn.linear_model.LinearRegression 线性回归
·sklearn.linear_model.Ridge 岭回归
估计器的工作流程
分类算法
K-近邻算法
定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
两个样本的距离可以通过向量法(又称欧式距离)算出
数据的处理
1、缩小数据集范围
DataFrame.query()
2、处理日期数据
pd.to_datetime
pd.DatetimeIndex
3、增加分割的日期数据
4、删除没用的日期数据
pd.drop
5、将签到位置少于n个的用户删除
place_count=data.groupby(‘place_id’).aggregate(np.count_nonzero)
tf=place_count[place_count.row_id>3].reset_index()
data=data[data[‘place_id’].isin(tf.place_id)]
实例流程
1、数据集的处理
2、分割数据集
3、对数据集进行标准化
4、估计器流程进行分类预测