简书非官方大数据(一)

昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大:

1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据的爬取。
2 数据的清洗和处理: “一个好的数据决定一个好的分析”,昨天才开始下载anaconda玩,估计得恶补下。
3 数据分析 : 本人感觉表达能力不是特别好,本人现在也是一个研究生,社会实践项目较少,对数据的表达能力缺乏。

不过既然感兴趣,也想去做,那就做呗!然后准备就建个系列文章记录我的一个小的实战项目吧。

数据爬取分析

今天先讲讲我的爬取数据的一点分析吧。简书没有管理用户的一个系统,我的想法是:


简书非官方大数据(一)
1

简书非官方大数据(一)
2

简书非官方大数据(一)
3

第四步:就是通过URL获取用户的具体信息啦

部分成果

简书非官方大数据(一)

已经爬取了50w+数据,代码今天就不贴上了。大家有什么好的想法也可以和我讨论。

上一篇:开源计划之--Android绘图库--LogicCanvas


下一篇:用NumGo实现安卓动画