什么是机器学习
机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。
为什么需要机器学习
解放生产力
解决专业问题
提供社会便利
机器学习的应用场景
领域:医疗、航空、教育、物流、电商等
目的:让机器学习程序替换手动的步骤,减少企业的成本,提高企业的效率
机器学习的数据
机器学习一般使用的文件格式是CSV,而不使用数据库,因为具有性能瓶颈、读取速度、格式不太符合机器学习要求的数据格式等缺点。
数据集的结构
可用的数据集
scikit-learn
特点:数据量较小,方便学习
UCI,UCI Machine Learning Repository
特点:收录了360个数据集,覆盖科学、生活、经济等领域,数据量几十万
kaggle
特点:大数据竞赛平台,80万科学家,真实数据,数据量巨大
常用数据集数据的结构组成
结构:特征值+目标值
数据中对于特征的处理工具
pandas:一个数据读取非常方便以及基本的处理格式的工具
sklearn:对于特殊的处理提供了强大的接口