Pandas数据分析实战03

Pandas数据分析实战03

Pandas数据分析实战03

任务目标

读取北上广深瓜子二手车的数据
• 1.分别读取4个csv文件,然后合并多个csv文件
• 2.去重复数据,重新设置连续索引
• 3.统计汽车自动挡和手动挡分别有多少辆
• 4.统计哪个城市二手车数量最多
• 5.统计深圳市最多的二手车品牌

数据准备

瓜子网二手车交易数据

代码展示

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] 
plt.rcParams['axes.unicode_minus'] = False

# 设定文件名称
file_names = ["bj", "gz", "sh", "sz"]

# 设定文件路径
file_path = "D:\\Coding\\Python\\LogicCoding\\Data Analyze\\瓜子\\guazi_"

# 用pandas读取及合并csv文件
df_gz = pd.DataFrame()
for i in range(len(file_names)):
    df = pd.read_csv(file_path + file_names[i] + ".csv")
    df_gz = pd.concat([df, df_gz])
df_gz.info()
df_gz.head()

Pandas数据分析实战03
Pandas数据分析实战03

# 数据去重
df_gz.drop_duplicates()
df_gz.info()

# 重新设置索引从1开始,并保存文件
df_gz = df_gz.reset_index(drop=True)
df_gz.index = df_gz.index + 1
df_gz.to_excel(file_path + "merge.xlsx")
df_gz

Pandas数据分析实战03

# 统计汽车自动挡和手动挡的数量
df_speedbox = df_gz.groupby("speedbox")["speedbox"].count()
df_speedbox

Pandas数据分析实战03

# 统计哪个城市二手车数量最多
df_city = df_gz.groupby("city")["city"].count()
df_city

Pandas数据分析实战03

# 统计深圳市最多的二手车品牌
# 方法一,先用布尔索引筛选出所有深圳的二手车
df_sz = df_gz[df_gz["city"] == "深圳"]

# 再统计深圳各二手车品牌的数量
df_brand = df_sz.groupby("brand")["brand"].count()
df_brand

# 方法二,在groupby中指定分组优先级
df_brand = df_gz.groupby(by=["city", "brand"])["city"].count()
df_brand["深圳"]

Pandas数据分析实战03

上一篇:chrome浏览器本地文件支持ajax请求的解决方法


下一篇:物料标签智能批量生成