pd.info()
可以用这个函数查看dataframe的一些基本信息,数据缺失情况等
画词云
导入词云库
from wordcloud import WordCloud,ImageColorGenerator
首先下载图片模型,这里提供的是已经处理好的图片,有兴趣的选手可以自己写代码进行图片处理
处理结果:需要将人图像和背景颜色分离,并纯色填充,词云才会只显示在人图像区域
拜登原图:https://img.alicdn.com/tfs/TB1pUcwmZVl614jSZKPXXaGjpXa-689-390.jpg
拜登处理后图片:https://img.alicdn.com/tfs/TB10Jx4pBBh1e4jSZFhXXcC9VXa-689-390.jpg
在4.2 热门候选人拜登在各州的获得的捐赠占比 中我们已经取出了所有支持拜登的人的数据,存在变量:biden中
将所有捐赠者姓名连接成一个字符串
data = ’ '.join(biden[“NAME”].tolist())
读取图片文件
bg = plt.imread(“biden.jpg”)
生成
wc = WordCloud(# FFFAE3
background_color=“white”, # 设置背景为白色,默认为黑色
width=890, # 设置图片的宽度
height=600, # 设置图片的高度
mask=bg, # 画布
margin=10, # 设置图片的边缘
max_font_size=100, # 显示的最大的字体大小
random_state=20, # 为每个单词返回一个PIL颜色
).generate_from_text(data)
图片背景
bg_color = ImageColorGenerator(bg)
开始画图
plt.imshow(wc.recolor(color_func=bg_color))
为云图去掉坐标轴
plt.axis(“off”)
画云图,显示
保存云图
wc.to_file(“biden_wordcloud.png”)