Pandas教程:近万字讲解在Pandas中如何操作Excel

目录

1. 安装与配置

2. 读取Excel文件

2.1 基本用法

2.2 指定工作表

2.3 指定单元格范围

3. 数据检查与预处理

3.1 查看数据的基本信息

3.2 数据类型检查与转换

3.3 检查缺失值

3.4 处理缺失值

4. 数据清洗与转换

4.1 重命名列

4.2 删除重复数据

4.3 数据替换

4.4 数据排序

4.5 数据分组与聚合

5. 数据选择与过滤

5.1 按标签选择

5.2 按位置选择

5.3 布尔索引

5.4 多条件过滤

6. 数据操作

6.1 添加、删除列

6.2 数据框合并

6.3 数据透视表

6.4 交叉表

7. 写入Excel文件

7.1 基本用法

7.2 指定工作表名称

7.3 指定单元格位置

7.4 处理多个工作表

7.5 设置样式和格式

8. 实战项目

8.1 读取真实Excel数据集

8.2 数据清洗与预处理

8.3 数据分析与可视化

8.4 将结果写回Excel文件

9. 性能优化

9.1 数据取样

9.2 内存优化

9.3 矢量化操作

示例1:简单数学运算

示例2:应用自定义函数

示例3:条件操作

性能对比


在数据分析和处理领域,Excel文件是常见的数据存储格式之一。Pandas库提供了强大的功能来读取、处理和写入Excel文件。本文将详细介绍如何使用Pandas操作Excel文件,包括读取、数据清洗、数据操作和写入等步骤。

 

1. 安装与配置


首先,确保你已经安装了Pandas库以及用于读写Excel文件的库(如 openpyxlxlrd)。你可以使用以下命令进行安装:

pip install pandas openpyxl xlrd

 

2. 读取Excel文件


2.1 基本用法

使用 pd.read_excel() 函数可以从Excel文件中读取数据到DataFrame。以下是一个基本示例:

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')
print(df.head())

2.2 指定工作表

如果Excel文件包含多个工作表,可以使用 sheet_name 参数指定要读取的工作表:

# 读取名为 'Sheet1' 的工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
print(df.head())

2.3 指定单元格范围

可以使用 usecols 参数指定要读取的列范围,使用 skiprowsnrows 参数指定要跳过的行和读取的行数:

# 读取第1到第3列,跳过前2行,读取10行
df = pd.read_excel('data.xlsx', usecols="A:C", skiprows=2, nrows=10)
print(df.head())

3. 数据检查与预处理


3.1 查看数据的基本信息

使用 head()tail()info()describe() 函数可以查看数据的基本信息:

print(df.head())  # 显示前5行
print(df.tail())  # 显示后5行
print(df.info())  # 显示数据类型和缺失值信息
print(df.describe())  # 显示统计信息

3.2 数据类型检查与转换

可以使用 dtypes 属性查看数据类型,并使用 astype() 函数进行类型转换:

print(df.dtypes)
df['Column1'] = df['Column1'].astype('int')

3.3 检查缺失值

使用 isnull()sum() 函数检查缺失值:

print(df.isnull().sum())

3.4 处理缺失值

可以使用 fillna() 函数填充缺失值,或使用 dropna() 函数删除包含缺失值的行或列:

# 填充缺失值
df.fillna(0, inplace=True)

# 删除包含缺失值的行
df.dropna(inplace=True)

4. 数据清洗与转换


4.1 重命名列

使用 rename() 函数重命名列:

df.rename(columns={'OldName': 'NewName'}, inplace=True)

4.2 删除重复数据

使用 drop_duplicates() 函数删除重复数据:

df.drop_duplicates(inplace=True)

4.3 数据替换

使用 replace() 函数进行数据替换:

df['Column1'].replace(10, 20, inplace=True)

4.4 数据排序

使用 sort_values() 函数进行数据排序:

df.sort_values(by='Column1', ascending=False, inplace=True)

4.5 数据分组与聚合

使用 groupby()agg() 函数进行数据分组与聚合:

grouped = df.groupby('Category')
result = grouped['Value'].agg(['mean', 'sum'])
print(result)

5. 数据选择与过滤


5.1 按标签选择

使用 loc 按标签选择数据:

subset = df.loc[df['Column1'] > 10]
print(subset)

5.2 按位置选择

使用 iloc 按位置选择数据:

subset = df.iloc[0:5, 1:3]
print(subset)

5.3 布尔索引

使用布尔索引进行数据过滤:

subset = df[df['Column1'] > 10]
print(subset)

5.4 多条件过滤

使用多个条件进行数据过滤:

subset = df[(df['Column1'] > 10) & (df['Column2'] < 20)]
print(subset)

6. 数据操作


6.1 添加、删除列

使用 insert() 函数添加列,使用 drop() 函数删除列:

df.insert(1, 'NewColumn', [1, 2, 3, 4, 5])
df.drop(columns=['OldColumn'], inplace=True)

6.2 数据框合并

使用 concat()merge()join() 函数进行数据框合并:

# 使用 concat() 合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
result = pd.concat([df1, df2], ignore_index=True)

# 使用 merge() 合并
df1 = pd.DataFrame({'key': ['K0', 'K1'], 'A': [1, 2]})
df2 = pd.DataFrame({'key': ['K0', 'K1'], 'B': [3, 4]})
result = pd.merge(df1, df2, on='key')

# 使用 join() 合并
df1 = pd.DataFrame({'A': [1, 2]}, index=['K0', 'K1'])
df2 = pd.DataFrame({'B': [3, 4]}, index=['K0', 'K1'])
result = df1.join(df2)

6.3 数据透视表

使用 pivot_table() 函数创建数据透视表:

pivot_table = df.pivot_table(values='Value', index='Category', columns='Year', aggfunc='mean')
print(pivot_table)

6.4 交叉表

使用 crosstab() 函数创建交叉表:

crosstab = pd.crosstab(df['Category'], df['Year'])
print(crosstab)

7. 写入Excel文件


7.1 基本用法

使用 pd.DataFrame.to_excel() 函数将DataFrame写入Excel文件:

df.to_excel('output.xlsx', index=False)

7.2 指定工作表名称

可以使用 sheet_name 参数指定工作表名称:

df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

7.3 指定单元格位置

可以使用 startrowstartcol 参数指定单元格位置:

df.to_excel('output.xlsx', startrow=1, startcol=2, index=False)

7.4 处理多个工作表

使用 ExcelWriter 类处理多个工作表:

with pd.ExcelWriter('output.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1', index=False)
    df2.to_excel(writer, sheet_name='Sheet2', index=False)

7.5 设置样式和格式

可以使用 openpyxl 库设置单元格样式和格式:

from openpyxl import Workbook
from openpyxl.styles import Font

with pd.ExcelWriter('output.xlsx', engine='openpyxl') as writer:
    df.to_excel(writer, sheet_name='Sheet1', index=False)
    workbook = writer.book
    worksheet = workbook['Sheet1']
    for cell in worksheet['A'] + worksheet['B']:
        cell.font = Font(bold=True)

8. 实战项目


为了使实战项目更具实际操作性,我们设计一个简单的Excel数据集,该数据集包含一些虚拟的销售数据。这个数据集将包括以下列:

  • Date:销售日期
  • Region:销售区域
  • Product:产品名称
  • Quantity:销售数量
  • Unit Price:单价
  • Sales:销售额(通过 Quantity 和 Unit Price 计算得出)

以下是这个数据集的示例数据:

Date Region Product Quantity Unit Price Sales
2023-01-01 North ProductA 10 20 200
2023-01-01 South ProductB 15 30 450
2023-01-02 East ProductA 20 20 400
2023-01-02 West ProductC 25 25 625
2023-01-03 North ProductB 30 30 900
2023-01-03 South ProductC 35 25 875
2023-01-04 East ProductA 40 20 800
2023-01-04 West ProductB 45 30 1350
2023-01-05 North ProductC 50 25 1250
2023-01-05 South ProductA 55 20 1100

你可以将以上数据保存到一个Excel文件中,例如 sales_data.xlsx,并使用以下Python代码来读取、处理和分析这些数据。

8.1 读取真实Excel数据集

读取一个包含销售数据的Excel文件:

import pandas as pd

# 读取Excel文件
df = pd.read_excel('sales_data.xlsx')
print(df.head())

8.2 数据清洗与预处理

进行数据清洗和预处理,包括处理缺失值、重命名列、删除重复数据等:

# 检查缺失值并填充
df.fillna(0, inplace=True)

# 重命名列
df.rename(columns={'Unit Price': 'Unit_Price'}, inplace=True)

# 删除重复数据
df.drop_duplicates(inplace=True)

8.3 数据分析与可视化

进行数据分析和可视化,例如计算销售额总和并绘制图表:

import matplotlib.pyplot as plt

# 计算总销售额
total_sales = df['Sales'].sum()
print(f'Total Sales: {total_sales}')

# 按区域汇总销售额
region_sales = df.groupby('Region')['Sales'].sum()
print(region_sales)

# 绘制销售额柱状图
region_sales.plot(kind='bar')
plt.xlabel('Region')
plt.ylabel('Total Sales')
plt.title('Total Sales by Region')
plt.show()

8.4 将结果写回Excel文件

将处理后的数据和分析结果写回Excel文件:

with pd.ExcelWriter('processed_sales_data.xlsx') as writer:
    df.to_excel(writer, sheet_name='Data', index=False)
    pd.DataFrame({'Total Sales': [total_sales]}).to_excel(writer, sheet_name='Summary', index=False)
    region_sales.to_excel(writer, sheet_name='Region Sales')

9. 性能优化


9.1 数据取样

对于大型数据集,可以使用 sample() 函数进行数据取样:

sampled_df = df.sample(n=1000)

9.2 内存优化

使用 memory_usage() 函数检查内存使用情况,并使用 astype() 函数优化数据类型:

print(df.memory_usage(deep=True))
df['Column1'] = df['Column1'].astype('int32')

9.3 矢量化操作

矢量化操作是指在操作数组或数据时,通过使用向量化函数(通常是数组级函数)来替代显式的循环,以实现更高效的计算。这种方法利用了底层C、Fortran等语言的高效实现,显著提升了计算速度。

在Pandas中,矢量化操作通常涉及对整个Series或DataFrame进行操作,而不需要显式地遍历每个元素。矢量化操作不仅使代码更简洁、更易读,还能大幅提高数据处理的性能。

使用矢量化操作提高性能,例如使用 apply() 函数进行批量操作:

df['NewColumn'] = df['Column1'].apply(lambda x: x * 2)

以下是一些矢量化操作的示例:

示例1:简单数学运算

假设我们有一个包含销售数量的Series,我们希望将每个销售数量乘以2。

传统方法(使用循环):

import pandas as pd

# 创建示例数据
sales_quantities = pd.Series([10, 20, 30, 40, 50])

# 使用循环进行操作
doubled_quantities = []
for quantity in sales_quantities:
    doubled_quantities.append(quantity * 2)

doubled_quantities = pd.Series(doubled_quantities)
print(doubled_quantities)

矢量化方法:

# 使用矢量化操作
doubled_quantities = sales_quantities * 2
print(doubled_quantities)

示例2:应用自定义函数

假设我们有一个包含产品价格的DataFrame,我们希望对每个价格应用一个折扣函数。

传统方法(使用循环和apply):

import pandas as pd

# 创建示例数据
data = {'Product': ['A', 'B', 'C'], 'Price': [100, 200, 300]}
df = pd.DataFrame(data)

# 定义折扣函数
def apply_discount(price):
    return price * 0.9

# 使用apply方法
df['Discounted_Price'] = df['Price'].apply(apply_discount)
print(df)

矢量化方法:

# 使用矢量化操作
df['Discounted_Price'] = df['Price'] * 0.9
print(df)

示例3:条件操作

假设我们有一个包含销售数据的DataFrame,我们希望根据销售额为每个记录添加一个“高销售”标签。

传统方法(使用循环):

import pandas as pd

# 创建示例数据
data = {'Product': ['A', 'B', 'C'], 'Sales': [150, 300, 450]}
df = pd.DataFrame(data)

# 使用循环进行操作
high_sales_label = []
for sales in df['Sales']:
    if sales > 200:
        high_sales_label.append('High')
    else:
        high_sales_label.append('Low')

df['Sales_Label'] = high_sales_label
print(df)

矢量化方法:

# 使用矢量化操作
df['Sales_Label'] = df['Sales'].apply(lambda x: 'High' if x > 200 else 'Low')
print(df)

性能对比

矢量化操作通常比使用循环快得多,尤其是当数据量较大时。下面是一个简单的性能对比示例:

import pandas as pd
import numpy as np
import time

# 创建大规模示例数据
data = np.random.randint(1, 100, size=1000000)
df = pd.DataFrame(data, columns=['Value'])

# 使用循环进行操作
start_time = time.time()
doubled_values = []
for value in df['Value']:
    doubled_values.append(value * 2)
doubled_values = pd.Series(doubled_values)
print("Loop time:", time.time() - start_time)

# 使用矢量化操作
start_time = time.time()
doubled_values = df['Value'] * 2
print("Vectorized time:", time.time() - start_time)

Loop time: 0.83 seconds
Vectorized time: 0.02 seconds


请注意,具体的时间取决于执行环境和硬件配置,但一般来说,矢量化操作的性能会显著优于显式循环。这个示例展示了在处理大数据集时,矢量化操作可以显著提升性能,通常会快一个数量级甚至多个数量级。使用矢量化操作不仅使代码更加简洁和易读,还能显著提高数据处理的效率。

上一篇:【人工智能】机器学习 -- 决策树(乳腺肿瘤数)


下一篇:AUTOSAR CAN网络Bus Load Reduction Mechanism