今天周末有点时间,自己也是非常热爱篮球,非常喜欢勒布朗.詹姆斯和德维恩.韦德。我们对2020年NBA各队数据做一个整体分析,之前获取的数据在去掉一些重复数据和问题数据之后,数据量有所降低,所以此次分析纯属娱乐,分析结果仅供各位NBA粉丝参考。
此次分析,并没有完全依赖matplotlib和pandas来实现,而是采用了seaborn这个便捷的绘图库,还是自己懒,记不住matplotlib众多的API。
第一步:载入数据
data=pd.read_csv(’./data/nba_2020_nba_players_with_salary.csv’)
data.head()
当我拿到这个数据的时候,作为一个资深的NBA球迷,我都怀疑他是不是2020年的数据,怎么看怎么像16年的数据
第二步:数据简单分析
从拿到的数据来看,共有342名NBA球员及38项统计数据。
从数据中看几项比较重要的信息:
球员平均年龄为26.4岁,年龄段在19-40岁;
球员平均年薪为730万美金,当时最大的合同为年薪3000万美金;
第三步:先看明星球员的效率值
在众多的数据中,有一项名为“RPM”,标识球员的效率值,该数据反映球员在场时对球队比赛获胜的贡献大小,最能反映球员的综合实力。
我们来看一下RPM与其他数据的相关性:
相关性API:corr()
热力图呈现相关性信息:heatmap()
说明一下:在图中我圈起来一个数据,annot=False,代表不在热力图中显示数据,原因是我最初创建的画布太小了,显示数据会比较乱。
如果需要显示数据可以通过plt.figure(),通过设置figsize参数创建合适大小的画布,调整annot=True,即可显示热力图数据即可。
第三步:球员薪资、效率值、年龄等数据分析
3.1 薪资最高的10名运动员
3.2 效率值最高的10名运动员
分析:詹皇拿着联盟最高的薪水,打球也毫不含糊,效率值排名第一。保罗和库里紧随其后,在前10的榜单里,宇宙勇占据3席,我勇威武。
3.3 出场时间最高的10名运动员
分析:“铁人” – 勒布朗詹姆斯
3.4 接下来看一下,数据中所有NBA球员效率值及年龄分布
分析:基本符合正态分布特征
球员薪水方面:
分析:不满足正态分布,明显属于偏态分布,高薪球员占比较小。
3.5 NBA中绝不是越老越值钱,那接下来我们以高斯核密度分布图看看
分析:25–30岁这个年龄段得球员普遍薪水会比较高,而联盟中绝大部分球员,都拿着不足千万美刀的年薪,真羡慕他们的国家,每年要收多少的税呀?哈哈
3.6 有个外行的想法,球员薪水、效率值、年龄及场均得分四个变量间有没有两两相关性关系呢?
分析:可能我肤浅,属实是没看出来什么关系。
3.7 看一看NBA各球队球员的年龄结构,内部我按照球员数量和效率值进行了排名:
分析:真羡慕波士顿凯尔特人、迈阿密热火以及我金州勇士队的老板们,拥有一帮年轻的优秀球员。
3.8 NBA各球队综合实力分析(重点参考球员薪资、效率值、球员平均得分以及三分球命中率等)
分析:勇士(GS)和骑士(CLE)占据前两名的位置,效率值反映球队实力的事实情况。
老马刺(SA)排名第三,平均年龄达29.5岁排名第一,更新血液迫在眉睫。
3.9 使用小提琴图查看NBA各球三分球和球员效率值
分析:从三分球命中率看勇士是当之无愧的王者,骑士次之;从球员效率值来看,勇士和骑士明显是两个最大赢家。