《从Excel到R 数据分析进阶指南》一3.5 删除重复值

本节书摘来自异步社区《从Excel到R 数据分析进阶指南》一书中的第3章,第3.5节,作者 王彦平(蓝鲸),更多章节内容可以访问云栖社区“异步社区”公众号查看

3.5 删除重复值

很多数据表中还包含重复值的问题。Excel的数据目录下有“删除重复项”的功能,可以用来删除数据表中的重复值。默认Excel会保留最先出现的数据,删除后面重复出现的数据。


《从Excel到R 数据分析进阶指南》一3.5 删除重复值

R中使用duplicated()函数查找重复值。duplicated()函数既可以查找数据表的重复值,也可以查找特定列中的重复值。发现重复值后使用unique()函数删除重复值。下面是具体的代码和比较结果。

#查找数据表重复值
duplicated(df)

#查找特定列的重复值
duplicated(df$city)

#查看数据表的唯一值(删除重复值)
df<-unique(df)


《从Excel到R 数据分析进阶指南》一3.5 删除重复值
上一篇:freewaf开源啦


下一篇:加速 Android 开发的五大开源网站