Python笔记:机器学习之基础概念

什么是机器学习

  机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。

为什么需要机器学习

  解放生产力

  解决专业问题

  提供社会便利

机器学习的应用场景

  领域:医疗、航空、教育、物流、电商等

  目的:让机器学习程序替换手动的步骤,减少企业的成本,提高企业的效率

机器学习的数据

  机器学习一般使用的文件格式是CSV,而不使用数据库,因为具有性能瓶颈、读取速度、格式不太符合机器学习要求的数据格式等缺点。

数据集的结构

可用的数据集

  scikit-learn

  特点:数据量较小,方便学习

  UCI,UCI Machine Learning Repository

  特点:收录了360个数据集,覆盖科学、生活、经济等领域,数据量几十万

  kaggle

  特点:大数据竞赛平台,80万科学家,真实数据,数据量巨大

常用数据集数据的结构组成

    结构:特征值+目标值

数据中对于特征的处理工具

  pandas:一个数据读取非常方便以及基本的处理格式的工具

  sklearn:对于特殊的处理提供了强大的接口

 

上一篇:UCI 人口收入数据分析(python)


下一篇:基于UCI数据集,比较线性回归和岭回归的错误率