-数据分析相关库
NumPy
是一个基础的科学计算库,是众多数据库的基础
提供了多维数组对象的数据结构,可以用于数据量较大情况下的数组与矩阵的储存和
计算,除此之外还提供了具有线形代数,傅里叶变换,和随机数生成的功能函数
pandas
pandas是构建在NumPy之上的一个高性能数据分析库。基本数据类型包括Series和DataFrame。
分别用来处理一维数据和多维数据,
pandas能够对数据行进行排序,分组,归并等操作,还能够进行求和、求极限、求标准差,求协方差、矩阵
还可以用Matplotlib进行简单的绘图,进行数据文件格式的转换
Matplotlib
Matplotlib是一个绘图库,可以绘制许多图形,包括直方图、折线图、饼图、散点图、函数图像2D、3D图形,甚至是动画
scikit-learn
scikit-learn是构建在NumPy、SciPy、Matplotlib 上的机器学习的库
包括多种分类,聚类,降维,模型选择,和预处理算法
支持向量机、最近邻,朴素贝叶斯,文档主题生成模型,特征选择,k均值。主成分分析,特征提取
Scrapy
爬虫的一个框架
SciPy
是一个更加全面的科学计算库,比NumPy多出几个功能,统计计算,最优化,数值积分,信号处理,图像处理等
NLTK
自然语言处理工具库
能够用于分类,分词,相似度计算,词干提取,语义推理
提供了50个语料库和词汇资源接口
statsmodels
从SciPy中独立出来的一个模块同统计学计算库,
主要功能包括线性回归,方差分析,时间序列分析,统计学分析
Jupyter
Jupyter是一个交互式的数据科学与科学计算开发环境。