dplyr五个核心函数:filter()筛选行 arrange()排列行 select()选择列 mutate()基于现有变量创建新变量列 summarise()计算摘要统计量

%>% 管道函数读"then",即然后

  • 把左边值发送到右边的表达式,并作为右边表达式函数的第一个参数。 
  • 当操作多个数据集或函数时,使用%>%会更方便,更逻辑性。如计算cran上可用函数包的数量:
      • contrib.url    

dplyr五个核心函数:

  • filter()筛选行
  • arrange()排列行
  • select()选择列
  • mutate()基于现有变量创建新变量列
  • summarise()计算摘要统计量。

上面五个函数搭配group_by()可以对每个变量水平操作,高效解决数据框转换。

他们都是生成新数据框,不改变原数据。通用的参数结构:

  1. 第一个参数是数据框,待处理的数据集
  2. 变量名(不带引号),描述怎么处理

函数:

  1.  filter()函数筛选符合条件的观测行。
      •   常用到比较运算符 == !=   >   >=  < <=    搭配逻辑运算符 &  | ! 。
        • filter()多个condition时,表示“与”的关系,筛选同时满足这些条件的行。如flights%>% filter(dep_delay>120.arr_delay<=120)
        • x %in% y 表示x被包含于y,返回True.  
        • flights %>%filter(month==11 |month==12) ,等同于flights %>%filter(month %in% c(11,12))
        • between(x,left.right) 判断x是否落在 [left,right]区间内 。flights %>% filter(between(month,11,12))  
        • 注意出现无理数时,计算机会存储为有限位数。因此在这无理数基础上进一步计算、做判断时会False.在比较时需要用near()来比较是否近似相等。
        • dplyr五个核心函数:filter()筛选行 arrange()排列行 select()选择列 mutate()基于现有变量创建新变量列 summarise()计算摘要统计量
上一篇:11、Filter(过滤器 重点)


下一篇:将DataGridview的内容保存到Excel