pandas入门
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。
pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。
Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。
pandas vs NumPy
pandas支持大部分NumPy风格的数组计算。
NumPy更适合处理同质型的的数值类数组数据,而pandas使用用来处理表格型或异质型数据。
导入必要包
1. pandas数据结构介绍
(1)Series
Series是一种一维的数组型对象,它包含了一个值序列(与NumPy中的类型相似),并且包含了数据标签,称为索引(index)。
最简单的序列可以仅仅由一个数组形成:
(2)DataFrame
DataFrame表示的是矩阵的数据表,它包含已排序的列集合,每一列可以是不同的值类型(数值、字符串、布尔值等)。
2. 基本功能
(1) 重建索引
pandas对象的一个重要方法是reindex,其作用是创建一个新对象,它的数据符合新的索引
(2)轴向上删除条目
在轴向上删除一个或多个条目很简单,只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑,所以drop方法返回的是一个在指定轴上删除了指定值的新对象:
(3)索引、选择与过滤
Series索引(obj[…])的工作方式类似于NumPy数组的索引,只不过Series的索引值不只是整数。下面是几个例子:
使用单个值或序列,可以从DataFrame中索引数一个多个列
(4)排序和排名
根据某些准则对数据集排序是另一个重要的内建操作。如需按行或列索引进行字典型排序,需要使用sort_index方法,它将返回一个已排序的新对象:
3. 描述性统计的概述与计算
pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。
跟对应的NumPy数组方法相比,它们都是基于没有缺失数据的假设而构建的。