python/pandas/Numpy数据分析-统计描述,唯一值,值计数

pandas 对象拥有一组常用的数学和统计方法,大部分属于简约统计,用于从Series中提取一个值,或者从DataFrame中提取一列或者一行Series

注意:与NumPy数组相比,这些函数都是基于没有缺失数据的建设构建的,也就是说:这些函数会自动忽略缺失值。

count   非 NA 值的数量
describe    针对 Series 或 DF 的列计算汇总统计
min , max   最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile    样本分位数(01sum 求和
mean    均值
median  中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew    样本值的偏度(三阶矩)
kurt    样本值的峰度(四阶矩)
cumsum  样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff    计算一阶差分(对时间序列很有用)
pct_change  计算百分数变化

唯一值与值计数

obj=Series(list('cadaabbcc'))
uniques=obj.unique()
uniques

c    3
a    3
b    2
d    1
dtype: int64

排序的话

uniques.sort()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

value_counts用于计算一个Series中各值出现的频率.

obj.value_counts()
a    3
d    1
b    2
c    3
dtype: int64

value_counts还是一个*pandas方法,可用于任何数组或序列

pd.value_counts(obj.values, sort=False)

a    3
d    1
b    2
c    3
dtype: int64

python/pandas/Numpy数据分析-统计描述,唯一值,值计数

上一篇:SAP S/4HANA系统上所有可以用来创建扩展字段的业务上下文


下一篇:Flink1.4 用于外部数据访问的异步IO