文章目录
- 一、Python机器学习常用库
- 1.NumPy-科学计算基础库
- 2. SciPy-科学计算扩展库
- 3.Pandas-数据分析工具库
- 4.Matplotlib-数据可视化扩展库
- 5.Scikit-learn-机器学习库
一、Python机器学习常用库
1.NumPy-科学计算基础库
NumPy是Numerical Python的简称,它是Python科学计算的基础库。NumPy可用来存储和处理大型矩阵,比Python自身的嵌套列表结构更高效,支持大量的多维数组与矩阵运算,也为数组运算提供了大量的数学函数库。
此外,由其他语言(如C和Fortran)编写的库也可以直接操作NumPy数组中的数据,无须进行任何数据复制操作。
2. SciPy-科学计算扩展库
SciPy是Python的一个科学计算扩展库,它需要依赖NumPy的支持才能安装和运行。SciPy一般都是操控NumPy的数组来进行科学计算和统计分析,因此可以说SciPy是建立在NumPy基础之上的。
SciPy主要在NumPy的基础上增加了数学、科学和工程计算领域中常用的库函数,如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等。NumPy和SciPy协同工作,可提高解决问题的效率。
3.Pandas-数据分析工具库
Pandas是一个基于NumPy的免费开源第三方Python库,它可以生成类似于Excel表格式的数据表,而且可以对数据表进行修改操作。Pandas可以从各种格式的文件中提取数据,如CSV文件、JSON文件、SQL数据库、Excel表格等;还可以对各种数据进行合并、转换、选择、清洗和特征加工等运算。
Pandas是为解决数据分析任务而创建的工具库,提供了高效操作大型数据集所需的工具,自诞生后就广泛应用于金融、统计学、社会科学、建筑工程等领域。
4.Matplotlib-数据可视化扩展库
Matplotlib是Python中的一个绘图库,支持跨平台运行,可以生成出版级别的图形。Matplotlib能够输出的图形包括折线图、散点图、曲线图、直方图、饼状图、条形图及极坐标图等,其强大的绘图能力能够使用户对数据形成非常清晰直观的认知。
import numpy as np #导入NumPy库
import matplotlib.pyplot as plt #导入Matplotlib库
x=np.arange(-5,5,0.01) #设置x的取值范围,设置坐标值
#创建x的数组,数组是步长为0.01从-5到5取值,就是x取值的集合
y=x*x #设置y值,令y=x*x
plt.plot(x,y,'k-') #绘制曲线,第3个参数表示黑色实线
plt.show() #显示图形
【程序说明】 plot()函数的第3个参数“k-”用来指定线条的颜色和线型,其颜色和线型参数值如表所示。
蓝 | 绿 | 红 | 青 | 品 红 | 黄 | 黑 | 白 |
---|---|---|---|---|---|---|---|
‘b’ | ‘g’ | ‘r’ | ‘c’ | ‘m’ | ‘y’ | ‘k’ | ‘w’ |
实 线 | 虚 线 | 点 线 | 星 型 | 正 方 形 | 五 边 形 | 加 号 | 正 三 角 |
---|---|---|---|---|---|---|---|
‘-’ | ‘–’ | ‘:’ | ‘*’ | ‘s’ | ‘p’ | ‘+’ | ‘^’ |
5.Scikit-learn-机器学习库
Scikit-learn(简称Sklearn)是Python基于NumPy、SciPy和Matplotlib实现机器学习的算法库,是一个简洁、高效的数据挖掘和数据分析工具。
Sklearn基本功能主要分为6大部分:分类、回归、聚类、降维、模型选择和数据预处理。在数据量不大的情况下,Sklearn可以解决大部分问题。对算法不精通的用户在执行建模任务时,并不需要自行编写所有的算法,只需要调用Sklearn库里的模块即可。