1、数据加载
通过pandas直接读取网页数据df = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]
2.数据修改df.rename(columns={'Unnamed: 2':'金牌数','Unnamed: 3':'银牌数','Unnamed: 4':'铜牌数'},inplace='Ture')
3、设置列索引
将第一列(排名作为索引)df.set_index('排名',inplace=True)
4、修改索引df.rename_axis('金牌排名',inplace=True)
5、数据修改
通过iloc查找到对应的值,再将其赋值
iloc[行,列]df.iloc[4,0] = '俄奥委会'
6、数据替换(单值)
将金牌数为0的替换为无df['金牌数'].replace(0,'无',inplace=True)
7、数替换(多值)
同时替换
•将 无 替换为 缺失值
•将 0 替换为 None
点击查看代码
import numpy as np
df.replace(['无',0],[np.nan,'None'],inplace = True)
df
8、数据类型查看df.dtypes
9、数据类型修改df['金牌数'] = df['金牌数'].fillna('0').astype(int)
10、增加一列数据
重新加载数据 并 新增一列 比赛地点,值为东京df['比赛地点']="东京"
11、增加一列(计算值)
点击查看代码
df.replace('None',0,inplace=True)
df['银牌数'] = df['银牌数'].fillna(0).astype(int)
df.info()
df['金银牌总数']=df['金牌数']+df['银牌数']
df