Data Whale第20期组队学习 Pandas学习—Task Special & 综合练习
一、企业收入的多样性
【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标: I = − ∑ i p ( x i ) l o g ( p ( x i ) ) I=-\sum_{i} p(x_i)log(p(x_i)) I=−i∑p(xi)log(p(xi))
其中 p ( x i ) p(x_i) p(xi)是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年份的收入熵指标 I。
【数据下载】链接:https://pan.baidu.com/s/1leZZctxMUSW55kZY5WwgIw 20 密码:u6fd
解题思路:
1、获取表格中的企业证劵代码,并进行筛选删除重复行
2、根据获取的证劵代码筛选出每个企业相关数据
3、按照年份筛选企业每一年收入数据,然后求和与计算
p
(
x
i
)
p(x_i)
p(xi),接着计算
I
I
I
4、将计算结果进行汇总,并添加到第一张表。
二、组队学习信息表的变换
【题目描述】请把组队学习的队伍信息表变换为如下形态,其中“是否队长”一列取1表示队长,否则为0
是否队长 队伍名称 昵称 编号
0 1 你说的都对队 山枫叶纷飞 5
1 0 你说的都对队 蔡 6
2 0 你说的都对队 安慕希 7
3 0 你说的都对队 信仰 8
4 0 你说的都对队 biubiu