机器学习,是指机器拥有人类一般的学习能力,拥有自我更新和适应并从堆积如山的数据中寻找出有用知识的能力。是计算机通过数学原理、逻辑关系、海量数据等有机结合的算法来模拟人类生活中学习的过程,最后得出模型对新的情境给出判断。
机器学习可以通过较多编程语言实现,其中python以众多成熟应用库、易于编写等优势令人瞩目。对于python库:numpy、scipy用于处理数组、线性代数等操作的科学计算库;pandas库提供了高级工具用于进行数据分析;matplotlib为数据分析后进行的画图库;sklearn库是用于处理复杂数据,其包含了大量成熟的机器学习算法。
机器学习根据功能可以分为数据降维、分类、回归、聚类等算法。降维指尽可能保持数据信息下简化数据结构,例如通过PCA(主成分分析)算法对数据主要属性的选择;分类指对离散数据进行预测,例如支持向量机算法判断好数据还是坏数据;回归指对连续性数据的预测,例如逻辑回归算法判断房价走势;聚类指将数据组织成一些相似组,例如k-means算法将距离相近的点归为一类。这些算法也可以通过python的sklearn库进行调用,例如pca算法:
1.导入:from sklearn.decomposition import PCA
2.建立基础模型选择降维后的维数 :p = PCA(n_components=2)