(1)系列对象( Series)基本功能
编号 |
属性或方法 |
描述 |
1 |
axes |
返回行轴标签列表。 |
2 |
dtype |
返回对象的数据类型(dtype)。 |
3 |
empty |
如果系列为空,则返回True。 |
4 |
ndim |
返回底层数据的维数,默认定义:1。 |
5 |
size |
返回基础数据中的元素数。 |
6 |
values |
将系列作为ndarray返回。 |
7 |
head() |
返回前n行。 |
8 |
tail() |
返回最后n行。 |
(2) DataFrame基本功能
编号 |
属性或方法 |
描述 |
1 |
T |
转置行和列。 |
2 |
axes |
返回一个列,行轴标签和列轴标签作为唯一的成员。 |
3 |
dtypes |
返回此对象中的数据类型(dtypes)。 |
4 |
empty |
如果NDFrame完全为空[无项目],则返回为True; 如果任何轴的长度为0。 |
5 |
ndim |
轴/数组维度大小。 |
6 |
shape |
返回表示DataFrame的维度的元组。 |
7 |
size |
NDFrame中的元素数。 |
8 |
values |
NDFrame的Numpy表示。 |
9 |
head() |
返回开头前n行。 |
10 |
tail() |
返回最后n行。 |
(3) Pandas统计函数
下表列出了重要函数 -
编号 函数 描述
1 count() 非空观测数量
2 sum() 所有值之和
3 mean() 所有值的平均值
4 median() 所有值的中位数
5 mode() 值的模值
6 std() 值的标准偏差
7 min() 所有值中的最小值
8 max() 所有值中的最大值
9 abs() 绝对值
10 prod() 数组元素的乘积
11 cumsum() 累计总和
12 cumprod() 累计乘积
13
describe() DataFrame列的统计信息的摘要。该函数给出了平均值,标准差和IQR值。 而且,函数排除字符列,并给出关于数字列的摘要。 include是用于传递关于什么列需要考虑用于总结的必要信息的参数。获取值列表; 默认情况下是”数字值”。object - 汇总字符串列number - 汇总数字列all - 将所有列汇总在一起(不应将其作为列表值传递)
14 pipe 表格函数应用
15 apply行或列智能函数应用
16 applymap() 元素智能应用函数
(4) 重新索引
会更改DataFrame的行标签和列标签。重新索引意味着符合数据以匹配特定轴上的一组给定的标签。可以通过索引来实现多个操作 -重新排序现有数据以匹配一组新的标签。在没有标签数据的标签位置插入缺失值(NA)标记。
reindex()采用可选参数方法,它是一个填充方法,其值如下:pad/ffill - 向前填充值bfill/backfill - 向后填充值nearest - 从最近的索引值填充
(5)重命名
rename()方法允许基于一些映射(字典或者系列)或任意函数来重新标记一个轴。
rename()方法提供了一个inplace命名参数,默认为False并复制底层数据。 指定传递inplace = True则表示将数据重命名
(6)pandas 迭代
iteritems() - 迭代(key,value)
对iterrows() - 将行迭代为(索引,系列)
对itertuples() - 以namedtuples的形式迭代行
(7)pandas 排序
Pandas有两种排序方式,它们分别是 - 按标签\按实际值
sort_index()方法,通过传递axis参数和排序顺序,可以对DataFrame进行排序。 默认情况下,按照升序对行标签进行排序。
sort_values()是按值排序的方法。它接受一个by参数,它将使用要与其排序值的DataFrame的列名称。
sort_values()提供了从mergeesort,heapsort和quicksort中选择算法的一个配置。Mergesort是唯一稳定的算法。
sorted_df = unsorted_df.sort_values(by='col1' ,kind='mergesort')
(8)Pandas字符串
Pandas提供了一组字符串函数,可以方便地对字符串数据进行操作。 最重要的是,这些函数忽略(或排除)丢失/NaN值。
编号 |
函数 |
描述 |
1 |
lower() |
将Series/Index中的字符串转换为小写。 |
2 |
upper() |
将Series/Index中的字符串转换为大写。 |
3 |
len() |
计算字符串长度。 |
4 |
strip() |
帮助从两侧的系列/索引中的每个字符串中删除空格(包括换行符)。 |
5 |
split(' ') |
用给定的模式拆分每个字符串。 |
6 |
cat(sep=' ') |
使用给定的分隔符连接系列/索引元素。 |
7 |
get_dummies() |
返回具有单热编码值的数据帧(DataFrame)。 |
8 |
contains(pattern) |
如果元素中包含子字符串,则返回每个元素的布尔值True,否则为False。 |
9 |
replace(a,b) |
将值a替换为值b。 |
10 |
repeat(value) |
重复每个元素指定的次数。 |
11 |
count(pattern) |
返回模式中每个元素的出现总数。 |
12 |
startswith(pattern) |
如果系列/索引中的元素以模式开始,则返回true。 |
13 |
endswith(pattern) |
如果系列/索引中的元素以模式结束,则返回true。 |
14 |
find(pattern) |
返回模式第一次出现的位置。 |
15 |
findall(pattern) |
返回模式的所有出现的列表。 |
16 |
swapcase |
变换字母大小写。 |
17 |
islower() |
检查系列/索引中每个字符串中的所有字符是否小写,返回布尔值 |
18 |
isupper() |
检查系列/索引中每个字符串中的所有字符是否大写,返回布尔值 |
19 |
isnumeric() |
检查系列/索引中每个字符串中的所有字符是否为数字,返回布尔值。 |