Pandas数据分析实战03
Pandas数据分析实战03
任务目标
读取北上广深瓜子二手车的数据
• 1.分别读取4个csv文件,然后合并多个csv文件
• 2.去重复数据,重新设置连续索引
• 3.统计汽车自动挡和手动挡分别有多少辆
• 4.统计哪个城市二手车数量最多
• 5.统计深圳市最多的二手车品牌
数据准备
代码展示
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 设定文件名称
file_names = ["bj", "gz", "sh", "sz"]
# 设定文件路径
file_path = "D:\\Coding\\Python\\LogicCoding\\Data Analyze\\瓜子\\guazi_"
# 用pandas读取及合并csv文件
df_gz = pd.DataFrame()
for i in range(len(file_names)):
df = pd.read_csv(file_path + file_names[i] + ".csv")
df_gz = pd.concat([df, df_gz])
df_gz.info()
df_gz.head()
# 数据去重
df_gz.drop_duplicates()
df_gz.info()
# 重新设置索引从1开始,并保存文件
df_gz = df_gz.reset_index(drop=True)
df_gz.index = df_gz.index + 1
df_gz.to_excel(file_path + "merge.xlsx")
df_gz
# 统计汽车自动挡和手动挡的数量
df_speedbox = df_gz.groupby("speedbox")["speedbox"].count()
df_speedbox
# 统计哪个城市二手车数量最多
df_city = df_gz.groupby("city")["city"].count()
df_city
# 统计深圳市最多的二手车品牌
# 方法一,先用布尔索引筛选出所有深圳的二手车
df_sz = df_gz[df_gz["city"] == "深圳"]
# 再统计深圳各二手车品牌的数量
df_brand = df_sz.groupby("brand")["brand"].count()
df_brand
# 方法二,在groupby中指定分组优先级
df_brand = df_gz.groupby(by=["city", "brand"])["city"].count()
df_brand["深圳"]