2. 从文本文件中生成词云
需要先安装 wordcloud,jieba
词云是最近数据分析报告中非常常见的数据表现形式了,它会从一段文字中抽取出高频的词汇并且以图片的形式将它们展示出来。
如何用 Python 生成词云呢?
为了做示范,我们首先解析第一步我们抓取的 tips_1.html 网页(考研网),将所有的新闻标题都存储到一个文本文档中。
代码如下:
接下来我们将 news_title.txt
这个文本文件中的汉字进行分词,并生成词云。代码如下:
然后,在 main 函数中调用:
为了方便阅读,这里我也把整合好的代码放出来:
不过还是建议阅读源代码文件,源代码文件我此片段最后会放出来。
输出结果如下:
如果你想生成自己的词云,首先你需要想清楚你的数据来源,一般是一个网页或者一个文本文件。
如果是网页的话可以首先保存到本地,提取文本,之后就可以进行代码替换来生成了。(对于网页文件,需要自行提取文本咯,实在不会就把网页的文件的内容,复制出来。保存成 .txt 格式文件。
如果是文本,直接复制在 text,再执行下文即可。)
我们代码模板,实际是下面这个模板:
替换说明:
替换为你准备的网页或者文本文件的文件名。
PS:上面的模板生成的词语适合非专业的使用,毕竟如果要较真的话,还是很糙的。
代码:https://github.com/AndersonHJB/AIYC_DATA/tree/main/02-玩转图表,实现数据可视化/2.2%20从文本文件中生成词云