今天要讲的是2012美国大选献金项目数据分析的数据分析项目,这是一个比较综合的项目,要运用前面说的许多知识来解决问题。具体要求如下:
首先还是老样子先导入必需的库和数据。(这里为了方便操作就先将月份和参选人以及所在政党进行定义,不要忘了定义哦)
然后就可以将数据读取并转换为DataFrame了
首先我们要先提取所需要的数据,将其他不需要的数据舍去。
这步比较简单,只需要将你要选取的列的索引都放入同一个DataFrame就可以了。
然后是用info函数查看新数据是否有缺少的数据
可以看见总共应该有536041行数据,但有的列并没有这么多数据,即缺失了数据。
又或者我们可以换一个方法:使用 isnull()函数并使用any就可以根据布尔值判定来检查数据是否缺少
下一步是使用统计学指标快速描述数值型属性的概要,这个有一个专门的函数,describe函数
下一步是将空值换为‘NOT PROVIDE’,这一步也很简单,只要用fillna函数将空值填上就行。
下面是处理异常值,即捐献金额小于等于0的数据删除。
这个操作只是将小于零的数据的索引找出并删除该行。
下面为了新建各个候选人的党派的列,先将候选人名字使用unique函数去重
使用映射操作就可以了
然后查看party这一列有哪些不同的数据。
然后统计各个元素出现次数
然后是查看各个党派献金总数(分类处理)
之后是显示每天各党派献金总数这里也是分类处理,只是by的条件更为复杂而已。
转换日期格式则是新建一个函数并将其映射,map函数里是能运行自己编的函数的。
最后是查看老兵的支持,这里是需要从职业中选出老兵,然后根据候选人分类并求和则可以得出。