pandas（3）：索引Index/MultiIndex

2023-01-04 21:00:59

一、索引概念
二、创建索引
- ①导入数据时指定索引
- ②导入数据后指定索引df.set_index()
三、常用的索引属性
四、常用索引方法
五、索引重置reset_index（）
六、修改索引值（修改列名）

一、索引概念

“索引”类似一本书的目录（页码），通过目录（页码），让我们能快速找到想看的位置。对于一个DataFrame数据框，其中：

行索引（Label index），是一条完整数据的索引，通过这个索引，能快速取出对应的某条数据记录。
列索引（Columns Names），指向的是每一个Series。
行是一条完整信息记录，索引在业务上一般不允许重复，好的索引能方便处理数据，重复的索引导入数据库可能出现限制，可以设置默认配置。
无论是行索引还是列索引，在 Pandas 里其实都是一个** Index 对象，都有类似的属性和方法**。
pandas的索引有不同的类型，目的都是为更方便处理数据。

二、创建索引

源Excel文件index.xlsx：

①导入数据时指定索引

未指定时，python会自动生成从0开始的行索引，列名默认为第1行

pandas不知道你实际业务情况，所以只能自动生成0-N的自然索引。

df = pd.read_excel('C:/Users/asus/Desktop/index.xlsx')

df

自定义指定

# 指定’姓名‘或’班级‘这一列为行索引

df = pd.read_excel('C:/Users/asus/Desktop/index.xlsx',index_col='姓名')

# df = pd.read_excel('C:/Users/asus/Desktop/index.xlsx',index_col='班级')

df

# 指定’班级‘、’姓名‘这两列为层级索引MultiIndex

df = pd.read_excel('C:/Users/asus/Desktop/index.xlsx',index_col=[1,0])

df

也可以根据header参数指定哪行作为列名，或根据names参数自定义列名，具体见:https://www.cnblogs.com/xiaoshun-mjj/p/14538695.html

②导入数据后指定索引df.set_index()

DataFrame.set_index(keys, drop=True, append=False,

                    inplace=False, verify_integrity=False)

参数说明：

keys：列标签或列标签/列表/series，需要设置为索引的列；
drop：是否保留设置索引的原列。默认为True，不保留；
append：是否保留原索引。默认为False，不保留；
inplace：输入布尔值，表示当前操作是否对原数据生效，默认为False。
verify_integrity：检查新索引的副本。否则，请将检查推迟到必要时进行。将其设置为false将提高该方法的性能，默认为false。

# 导入数据时，未指定索引

df = pd.read_excel('C:/Users/asus/Desktop/index.xlsx')

df.set_index('姓名') # 设置姓名为索引

df.set_index(['班级','姓名']) # 设置班级和姓名为索引

df.set_index('姓名',drop=False)  # 保留原列

df.set_index('姓名',append=True) # 保留原索引

三、常用的索引属性

以df.index为例，也适用于 df.columns, 因为两者都是 index 对象

df = pd.read_excel('C:/Users/asus/Desktop/index.xlsx') # 导入数据时，未指定索引

df.set_index('姓名',drop=False,inplace=True)  # 保留原列，对原数据生效

# 查看索引信息（值和类型，还有可能有名称）

df.columns

df.index

df.index.name # 行索引名称

df.index.dtype # 索引数据类型

df.index.shape # 形状

df.index.size # 元素数量，行记录条数

# df.columns.size

df.index.values # 索引的值，array 数组

# df.index.value_counts() # 去重统计

# df.index.values.tolist() # array 数组转换成列表list

df.index.is_unique # 判断是否有重复，业务上原则一般不会重复，有重复返回False

四、常用索引方法

一样适用于 df.columns。

df.columns.isin(['姓名','语文']) # 是否存在，快速查看是否有该列名或行

df.index.nunique() # 不重复值的数量

df.index.sort_values(ascending=False) # 排序,倒序

df.index.to_frame(index=False) # 转成 DataFrame

df.index.unique() # 去重

df.index.value_counts() # 去重分组统计

df.index.where(df.index=='林*') # 筛选，查看是否由该行记录

df.index.max() # 最大值

df.index.map(lambda x:x+'_') # 批量处理索引

五、索引重置reset_index（）

列可以变成索引，索引也能回复成列。

DataFrame.reset_index(level=None, drop=False,

                    inplace=False, col_level=0, col_fill='')