pandas库入门基础
一。
pandas是python的第三方库,能提供高性能易用数据分析类型和分析工具。
pandas库中含有Series类型和DataFrame类型(一定要注意大小写,)。
import pandas as pd 为导入库,可以使用Anaconda软件来编写代码,具体下载请自行从网上查找。pandas库由索引和数据组成,分为一维 ,二维,以及多维数据。
二:Series(注意大小写)
Series库由索引和一组数据组成
而DataFrame由索引和多组数据组成
Series数据类型可以由python列表,标量值,python字典,ndarray类型等组成。
主要讲一下nadrray类型
其中.median表示中位数, .exp()表示指数
series类型中的in表示是否在索引中,返回布尔值
最后记住 Series是一维带‘标签’数组
三:DataFrame类型
注意注意:axis=0表示竖着的(o轴),axis=1表示横着的(1轴)
使用0值表示沿着每一列或行标签\索引值向下执行方法
使用1值表示沿着每一行或者列标签模向执行对应的方法 axis=0 指的是逐行,axis=1指的是逐列。(默认情况下都是改变零轴)(本人对此理解也不是很清楚)
reshape表示自动行索引和自动列索引
DataFrame中获取一行的元素,用 .ix 表示能够改变或重排Series和DataFrame索引
一些知识点
此外,pandas库中含有许多有用的函数
1:.reindex函数 能够改变或重排Series和DataFrame索引
不需要背下来,有需要时就来看看
Series和Dataframe的索引是index类型,index对象是不可修改类型
2,.drop() 能够删除Series和DataFrame指定的行和列索引
数据的运算
注意:一定要分清轴一和轴零
一定要注意不同维度之间的比较
广播运算是指两个数组进行运算,一个是Series数组(即一维数组),另一个是DataFrame数组(多维数组),即 一维数组看成是一行
分别与多维数组的每一行进行运算。需要注意的是,如果一维数组过短,结果每行的长度以最大值为准,超过的部分空值,即NaN
函数
1,.sort_index()方法在指定轴上根据索引进行排序,默认升序
.sort_index(axis=0,ascending=True) ,此外,还有values.
.sort_values(by,axis=0,ascending=True)
注意看一看红色划线的
后面这几张图片看一看就行了,有一个印象,有需要时再来看