Pandas之三选择数据

前文介绍了如何查看dataframe数据,现在再来看看怎么样定位和修改pandas的具体数据。

官方推荐选择数据的方法为.at, .iat, .loc, .iloc,这些方法可以指定行列的信息进行数据筛选。具体功能说明如下:

  • at:根据标签(label)定位具体元素
  • iat:根据位置定位具体元素
  • loc:根据标签截取Series、dataframe或具体元素
  • iloc:根据位置截取Series、dataframe或具体元素

配合起来可以在dataframe里面使用多种方式选择数据:

  1. 按数据列选择数据
  2. 使用列表[]方式选择数据
  3. 按标签选择数据
  4. 按位置选择数据
  5. 按条件筛选数据
  6. 以新值更新选择的数据

下面我们依然使用前文生成的df对象来演示各种方法

df = pd.DataFrame(np.random.randn(6, 4), 
                  index=dates, 
                  columns=list("ABCD"))

Pandas之三选择数据

按列选择数据

可以使用df.A方式选择A列数据,该方式等同于df["A"]
Pandas之三选择数据

也可以通过df[["A","B"]]方式选择多个列
Pandas之三选择数据

列表[]方式选择数据

该方法是截取dataframe中的某些行

  1. 选择所有数据

Pandas之三选择数据

  1. 通过索引位置选择某几行,该方法按照左闭右开方式截取数据
    Pandas之三选择数据
  2. 选择某范围内的几行数据,该方法按照左闭右闭方式截取数据,类似于SQL语法中的between .. and ..

Pandas之三选择数据

注:官方并不推荐使用以上这种方式做数据选择,推荐选择数据的方法为.at, .iat, .loc, .iloc

按标签选择数据

  1. 可以根据index值选择某行数据

Pandas之三选择数据

  1. 可以根据用index的范围选择多行数据

Pandas之三选择数据

  1. 在选择数据时,可以配合列名进一步选择数据

Pandas之三选择数据

  1. 通过index和列名定位到某个cell具体的值(前文的方式获取到依然dataframe,而此处获取到的是标量数据),同时支持.loc.at方式。要注意的是:

    • .at不支持类型隐式转换,而.loc是支持的
    • .at的速度比.loc要快

Pandas之三选择数据

按位置选择数据

通过位置选择数据的时候,既可以选择一行一列、一行多列、多行一列、多行多列也可以选择具体元素,在label不明确的时候,可以通过位置进行选择。最典型的场景就是选择首行、尾行等。

  1. 选择第n行数据,只输入一个参数时,默认为行。

Pandas之三选择数据

  1. 选择第n行,某几列数据,同时输入行列数据时,使用逗号,间隔。在范围选择时,其按照左闭右开方式截取数据。

Pandas之三选择数据

  1. 选择某几行,某列数据

Pandas之三选择数据

  1. 选择某几行,某几列数据

Pandas之三选择数据

  1. 选择所有行,某些列数据

Pandas之三选择数据

  1. 选择具体元素

Pandas之三选择数据

按条件选择数据

在pandas中也可以使用条件进行数据过滤,就像使用where条件一样。

  1. 根据某列值进行筛选,如图选择B>1的数据

Pandas之三选择数据

  1. 对整个dataframe进行筛选,选择值>0的数据

Pandas之三选择数据

  1. 使用isin()做数据筛选,类似sql中的in

Pandas之三选择数据

更新数据

选择完数据之后,可以使用长度相同的数据的进行更新

  1. 将2021-09-01的A列数据更新为0

Pandas之三选择数据

  1. 将D列使用numpy.array替代,此列是以len(df)[7]来替代

Pandas之三选择数据


欢迎关注微信公众号:数据研发技术,会分享各类数据研发相关的技术

上一篇:macOS 下 Visual Studio Code(VSCODE)安装配置及应用


下一篇:如何在Linux下写无线网卡的驱动【转】