Pandas入门篇(二)-------Dataframe篇4(进阶)(Dataframe的进阶用法)(机器学习前置技术栈)

目录

  • 概述
  • 一、复合索引
    • (一)创建具有复合索引的 DataFrame
      • 1. 使用 set_index 方法:
      • 2.在创建 DataFrame 时直接指定索引:
    • (二)使用复合索引进行数据选择和切片
    • (三)重置索引
    • (四)复合索引与分组操作
    • (五)unstack()函数
      • 1.参数
      • 2. 将多层索引转换为列
      • 2. 将列转换为行索引
      • 3. 分组聚合中的使用
    • 注意事项:
  • 二 、Dataframe分组语法进阶
    • (一)分组聚合多种写法
      • 1. 写法一:中括号形式, df[列名]
      • 2. 写法二:df.列名 直接实现.
      • 3. 写法三:结合 agg() 或者 aggregate()函数实现
      • 4. 写法四:还可以直接传入 numpy包下的 函数.
      • 5. 传入自定义函数
      • 6.agg 进行不同的聚合计算.
    • (二)分组转换(开窗+具体操作)
      • 1. 语法:
      • 2.常见用途
    • (三)分组过滤
      • 1.普通过滤:
      • 2. 分组后过滤
  • 四、透视表
    • (一)语法
    • (二)参数
    • (三)代码实现
  • 下篇内容

概述

经过前几篇的基础语法的学习,您已经掌握了Dataframe的基础操作。在掌握基础操作后,进一步探索其进阶用法能够让你更高效地处理和分析数据。
DataFrame的进阶用法涵盖了数据处理、探索、可视化和集成等多个方面。通过深入学习和实践,你将能够更充分地利用DataFrame的功能和优势,提升数据处理和分析的能力,为数据驱动的决策提供有力支持。(可视化将在matpoltlib中详细介绍)

一、复合索引

在 Pandas 中,DataFrame 的复合索引(也称为多级索引或层次化索引)允许在多个维度上对数据进行索引。这通常通过使用 MultiIndex 来实现,它可以通过多种方式创建,包括从多个列或数组、从元组列表等。复合索引特别有用于在数据集中表示多个分类变量,并允许进行高级的数据选择和聚合。

下面是一些关于如何在 Pandas 中使用 DataFrame 的复合索引的示例和解释:

(一)创建具有复合索引的 DataFrame

可以通过几种方式创建具有复合索引的 DataFrame:

1. 使用 set_index 方法:

可以从一个现有的 DataFrame 的列中创建复合索引。
代码实现:

import pandas as pd  
  
# 创建一个简单的 DataFrame  
df = pd.DataFrame({  
    'A': ['foo', 'foo', 'foo', 'bar', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': ['small', 'large', 'large', 'small', 'small'],  
    'D': [1, 2, 2, 3, 3],  
    'E': [2, 4, 5, 5, 6]  
})  
  
# 从列 'A' 和 'B' 创建复合索引  
df_multiindex = df.set_index(['A', 'B'])  
df_multiindex

运行结果:
在这里插入图片描述

2.在创建 DataFrame 时直接指定索引:

在创建 DataFrame 时直接传递一个 MultiIndex。

# 创建多级索引  
index = pd.MultiIndex.from_tuples([('foo', 'one'), ('foo', 'two'), ('bar', 'one'), ('bar', 'two')])  
  
# 创建一个简单的 DataFrame,并使用多级索引  
df_multiindex = pd.DataFrame({  
    'C': ['small', 'large', 'large', 'small'],  
    'D': [1, 2, 2, 3],  
    'E': [2, 4, 5, 6]  
}, index=index)  
df_multiindex

运行结果:
在这里插入图片描述

(二)使用复合索引进行数据选择和切片

有了复合索引,可以使用它们来方便地选择数据。

# 选择索引为 ('foo', 'one') 的行  
print(df_multiindex.loc[('foo', 'one')])  
  
# 选择所有 'foo' 行的 'D' 列  
print(df_multiindex.loc['foo']['D'])  
  
# 选择 'foo' 下 'one' 和 'two' 的所有行  
print(df_multiindex.loc[('foo', slice(None))])

运行结果:
在这里插入图片描述

(三)重置索引

如果不再需要复合索引,或者想要将其转换回普通的列,可以使用 reset_index 方法。

# 重置索引,将复合索引的级别作为普通列添加回 DataFrame  
df_reset = df_multiindex.reset_index()  
df_reset

运行结果:
在这里插入图片描述

(四)复合索引与分组操作

复合索引与 groupby 方法结合使用时特别强大,因为它允许基于多个键对数据进行分组。

# 使用复合索引进行分组并计算每组的平均值  
grouped = df_multiindex.groupby(level=[0, 1]).mean()  
grouped

运行结果:
在这里插入图片描述

(五)unstack()函数

unstack()函数是用于将一个多级索引(multi-index)的DataFrame或Series从一个层级转换到列中,或者从列中转换到另一个层级。这通常用于数据重塑,使得数据的展现形式更符合分析的需要。
当DataFrame或Series具有一个或多个层级索引时,unstack()函数可以将低层级的索引转换为列标题,同时保持高层级索引作为行索引。反之,如果unstack()函数用于具有多层列标题的DataFrame,则可以将低层级的列标题转换为行索引。

1.参数

  • level:整数或字符串,可选参数。指定要解包的层级。如果省略此参数,将解包所有分层。通过指定level,你可以控制将哪一层级的索引横向展开,而其余层级的索引保持不变。

  • fill_value:可选参数。用于替换缺失值的值。在解包索引的过程中,可能会出现某些位置没有对应数据的情况,此时可以使用fill_value参数来指定一个默认值填充这些缺失位置。

  • dropna:布尔值,可选参数。指定是否删除那些只包含缺失值的列。当解包索引后,有些列可能全部为缺失值,通过设置dropna=True,可以自动删除这些列,使数据更加整洁。

2. 将多层索引转换为列

# 创建一个具有多层索引的 DataFrame  
index = pd.MultiIndex.from_product([['A', 'B'], ['one', 'two'], ['x', 'y', 'z']])  

data = pd.Series(np.random.randn(12), index=index)  
print(data)
df = data.unstack([0, 1])  
  
df

在这个示例中,我们创建了一个具有三层索引的Series对象,并使用unstack([0, 1])将前两层索引转换为列标题。
在这里插入图片描述

2. 将列转换为行索引

df
#%%
# 创建一个具有多层索引的DataFrame  
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),  
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']),  
          np.array(['small', 'large', 'large', 'small', 'small', 'large', 'large', 'small'])]  
  
# 将这些数组转换为MultiIndex  
index = pd.MultiIndex.from_arrays(arrays, names=('first', 'second', 'third'))  
  
# 创建一个简单的DataFrame  
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])  
  
print("原始DataFrame:")  
print(df)  
  
# 使用unstack将'third'层级的索引转换为列  
df_unstacked = df.unstack('third')  
  
print("\n使用unstack后的DataFrame:")  
df_unstacked

运行结果:
在这里插入图片描述
在这个示例中,我们创建了一个具有三层索引的DataFrame,并使用unstack(‘third’)将第三层索引(‘third’)转换为列。

3. 分组聚合中的使用

unstack() 可以用来将分组后的结果从层级索引的形式转换为更宽格式的表格。

# 创建一个示例 DataFrame  
data = {  
    'A': ['foo', 'foo', 'foo', 'bar', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': ['small', 'large', 'large', 'small', 'small'],  
    'D': [1, 2, 2, 3, 3],  
    'E': [2, 4, 5, 5, 6]  
}  
df = pd.DataFrame(data)  
  
# 根据 A 和 B 列进行分组,并对 D 列求和  
grouped = df.groupby(['A', 'B']).sum()  
  
print("分组聚合后的结果:")  
print(grouped)  
  
# 使用 unstack() 将 B 列的层级索引转换为列  
unstacked = grouped.unstack('B')  
  
print("\n使用 unstack() 后的结果:")  
print(unstacked)

代码实现:
在这里插入图片描述

注意事项:

  • unstack()函数不会修改原始DataFrame或Series,而是返回一个新的对象。
  • 如果level参数指定的层级不存在,会引发KeyError。
  • 如果解包后的数据结构中存在重复的列标题,Pandas会保留所有的数据,并使用多级列标题来区分。

二 、Dataframe分组语法进阶

(一)分组聚合多种写法

首先我们先导入数据

import numpy as np
data = pd.read_csv('/export/data/pandas_data/gapminder.tsv',sep='\t')
data

数据样式:
在这里插入图片描述

1. 写法一:中括号形式, df[列名]

# 求不同洲的平均寿命
data.groupby('continent')['lifeExp'].mean()

运行结果:
在这里插入图片描述

2. 写法二:df.列名 直接实现.

# 写法2: df.列名 直接实现.
data.groupby('continent').lifeExp.mean()

运行结果:
在这里插入图片描述

3. 写法三:结合 agg() 或者 aggregate()函数实现

这两个函数完全一样, 并无任何区别.

# 写法3: 结合 agg() 或者 aggregate()函数实现, 这两个函数完全一样, 并无任何区别.
data.groupby('continent').lifeExp.agg('mean')         # 这个mean是 Pandas中的mean()函数, 要加: 引号包裹
data.groupby('continent').lifeExp.aggregate('mean')   

# 上述格式变形写法: {要操作的列1: 聚合函数, 要操作的列2: 聚合函数...}
data.groupby('continent').agg({'lifeExp':'mean'})        
data.groupby('continent').aggregate({'lifeExp':'mean'}) 

4. 写法四:还可以直接传入 numpy包下的 函数.

# 写法4: 还可以直接传入 numpy包下的 函数.
data.groupby('continent').lifeExp.agg(np.mean)            # 这里的np.mean是 Numpy中的mean()函数对象, 不要加引号
data.groupby('continent').agg({'lifeExp': np.mean}) 

5. 传入自定义函数

# 写法5: 传入自定义函数, 实现: 计算平均值. 
# 1. 自定义函数, 用于计算 某列值 的平均值.
def my_mean(col):
    # 该列平均值 = 该列数据和 / 该列数据个数 
    return col.sum() / col.size         # Series中: sum()函数, size: 属性

# 2. groupby分组聚合时, 可以传入: 自定义函数.
data.groupby('continent').lifeExp.agg(my_mean)            # 这里传入的是: 自定义函数对象, 不加引号.
data.groupby('continent').agg({'lifeExp': my_mean})    

运行结果:

6.agg 进行不同的聚合计算.

# 写法7: 分组后, 可以针对于 多列数据, 进行不同的聚合计算. 
# 需求: 根据年份分组, 计算: lifeExp(预期寿命)的平均值, pop(平均人口)的 最大值, gdpPercap(平均GDP) 的 中位数.
data.groupby('year').agg({'lifeExp': 'mean', 'pop': 'max', 'gdpPercap': 'median'})

运行结果:
在这里插入图片描述

(二)分组转换(开窗+具体操作)

transform()方法在Pandas库中是一个强大的工具,尤其在分组计算时。当对数据进行分组操作后,transform()方法允许对每个分组应用一个函数,并返回与原始DataFrame形状相同的结果。这对于在分组后进行标准化、填充缺失值、计算分组统计量等操作非常有用。

1. 语法:

当与groupby()结合使用时,transform()的语法基本保持不变:

grouped.transform(func, *args, **kwargs)

其中,grouped是一个通过groupby()方法得到的分组对象,func是你想要应用于每个分组的函数。

2.常见用途

  • 标准化:在每个分组内计算均值和标准差,然后用原始值减去均值并除以标准差,从而得到标准化的数据。
  • 填充缺失值:在每个分组内计算非缺失值的均值或中位数,并用这个值填充该分组内的缺失值。
    计算分组统计量:计算每个分组的均值、总和、最大值、最小值等,并将这些统计量广播回原始形状。
    示例:
    假设我们有一个包含销售数据的DataFrame,其中包含产品类别、销售额和利润等列,我们想要计算每个产品类别的销售额均值,并将这个均值填充到该类别下的每一行中:
# 创建一个简单的DataFrame  
df = pd.DataFrame({  
    'category': ['A', 'A', 'B', 'B', 'C', 'C'],  
    'sales': [100, 150, 75, 125, 50, 70],  
    'profit': [20, 30, 15, 25, 10, 14]  
})  
print('原表:')
print(df)
# 使用groupby和transform计算每组的销售额均值,并将结果广播回原始形状  
df['sales_mean_per_category'] = df.groupby('category')['sales'].transform('mean')  
print('转换之后的表:')
df

运行结果:
在这里插入图片描述

输出将是一个新的DataFrame,其中包含一个额外的列sales_mean_per_category,该列包含了每个产品类别的销售额均值,并且这个均值被填充到了该类别下的每一行中。

通过transform()方法,你可以轻松地在分组后对数据进行各种转换和操作,而无需改变原始数据的形状或结构。这使得它在数据清洗、预处理和特征工程等任务中非常有用。

(三)分组过滤

首先我们创建一个Dataframe

# 示例DataFrame  
import pandas as pd

df = pd.DataFrame({  
    'A': ['foo', 'foo', 'foo', 'bar', 'bar'],  
    'B': ['one', 'one', 'two', 'two', 'one'],  
    'C': ['small', 'large', 'large', 'small', 'small'],  
    'D': [1, 2, 2, 3, 3],  
    'E': [2, 4, 5, 5, 6]  
})  
df

运行结果:
在这里插入图片描述

1.普通过滤:

常见的是使用query或布尔索引来直接过滤DataFrame。

  • 使用query方法过滤:
# 选择列'D'的值大于2的行  
filtered_df = df.query('D > 2')  
filtered_df

运行结果:
在这里插入图片描述

  • 使用布尔索引过滤
# 选择列'D'的值大于2的行  
filtered_df = df[df['D'] > 2]  
filtered_df

运行结果:
在这里插入图片描述

2. 分组后过滤

分组后过滤组可用filter函数传入一个lambda函数或自定义函数,进行组的过滤

  • 传入lambda函数
# 查看按A分组的组内Dde平均值
c = df.groupby('A')[['D']].mean()
print(c)
# 过滤出按A分组的组内的平均值大于2的
df.groupby('A')['D'].filter(lambda x:x.mean()>2 )

运行结果:
在这里插入图片描述

  • 传入自定义函数
    注意,这里使用自定义函数的时候一定要return一个bool值,否则会报错
# 定义一个自定义函数,功能是guol出平均值大于2的
def my_func(col):
    if col.mean()>2:
        return True
    return False
df.groupby('A')['D'].filter(my_func) 

运行结果:
在这里插入图片描述
注意:
无论是apply函数还是transform函数还是filter函数,在传入一个自定函数的时候,只需要传入函数名,而非函数名+()

四、透视表

pivot_table函数是用于创建数据透视表(pivot table)的强大工具。数据透视表是一种可以对数据进行汇总、分析、探索和呈现的有效方式,它允许用户根据一个或多个键对数据进行重排,并对结果进行聚合运算。功能的同于excel的数据透视表相同。

(一)语法

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

(二)参数

  • data: DataFrame
    要进行透视的数据源。通常是一个DataFrame对象。
  • values: list-like, optional
    要进行聚合计算的列名。如果不提供此参数,那么会使用所有数值型列。
  • index: list-like, optional
    用作透视表行索引的列名或列名列表。
  • columns: list-like, optional
    用作透视表列标签的列名或列名列表。
  • aggfunc: function, str, list, or dict, default ‘mean’
    聚合函数或函数列表,用于计算每个组(由index和columns定义)的聚合值。可以是’mean’, ‘sum’, ‘count’, ‘min’, ‘max’, ‘var’, 'std’等字符串,或者是一个自定义函数。如果传入一个函数列表,那么会返回一个多层级的列标签。
  • fill_value: scalar, default None
    用于填充缺失值的值。如果数据中没有缺失值,则此参数无效。
  • margins: bool, default False
    是否添加所有行/列的小计和总计。如果为True,则会在透视表的底部和右侧添加额外的行和列,显示聚合后的总计值。
  • dropna: bool, default True
    是否删除包含缺失值的行。如果为True,则任何在index或columns中包含缺失值的行都会被排除在外。
  • margins_name: str, default ‘All’
    边际(小计和总计)的名称。当margins=True时,此参数定义了总计行和列的名称。

(三)代码实现

  • 创建Dataframe表
import pandas as pd  
  
data = {  
    'year': [2020, 2020, 2021, 2021, 2021],  
    'product': ['A', 'B', 'A', 'B', 'C'],  
    'region': ['North', 'North', 'South', 'South', 'East'],  
    'sales': [100, 200, 150, 300, 50]  
}  
df = pd.DataFrame(data)
df

数据样式:
在这里插入图片描述

  • 基本透视表
# 每个商品每年的总的销售数量
pivot_table = df.pivot_table(values='sales', index='year', columns='product', aggfunc='sum')  
pivot_table

运行结果:
在这里插入图片描述

  • 使用多层索引和列
# 每个商品每年在每个地区的销售总量
pivot_table = df.pivot_table(values='sales', index=['year', 'region'], columns='product', aggfunc='sum')  
pivot_table 

运行结果:
在这里插入图片描述
在这个例子中,我们添加了region作为第二层索引。

  • 使用多个聚合函数
# 求每个产品,每年的销售总量和平均销售量
pivot_table = df.pivot_table(values='sales', index='year', columns='product', aggfunc=['sum', 'mean'])  
pivot_table

运行结果:
在这里插入图片描述
这里我们使用了两个聚合函数:sum和mean。这将产生一个多层级的列标签。

  • 填充缺失值
# 将缺失值填充为0
pivot_table = df.pivot_table(values='sales', index='year', columns='product', aggfunc='sum', fill_value=0)  
pivot_table

运行结果:

上一篇:391.C# ML.net 情绪分析


下一篇:1.4 Java全栈开发前端+后端(全栈工程师进阶之路)-前置课程java基础语法、java面向对象编程