200行的Node爬虫花了半天的时间把网易云上的30万首歌曲信息都抓取回来了

早两天在网易云听歌看评论的时候,突然想把网易云上所有歌曲都抓取下来然后按照评论数进行一次排名,把评论数超过10万的歌曲都听一次,于是便有了这个项目。

因为只是一个小前端,所以使用了Node来写这个爬虫。

实现的思路比较简单,把网易云上的所有知名歌手先抓取下来,一共是3万左右。然后每个歌曲选取10首评论靠前的歌曲进行统计,所以一共统计了30万首歌曲,之后或许会统计更多的歌曲。

在本次的抓取过程中,从请求歌曲链接到获取信息并且写入数据库的效率大概是0.2秒一首歌曲,30万首一共需要16.6个小时左右。前面提到的抓取3万个歌手的效率十分高,不够10分钟可以抓取完毕,所以不作时间统计。

具体的抓取数据可看截图

歌手信息
200行的Node爬虫花了半天的时间把网易云上的30万首歌曲信息都抓取回来了

歌曲信息
200行的Node爬虫花了半天的时间把网易云上的30万首歌曲信息都抓取回来了

具体的技术细节以及项目代码可以到我的Github上看,已经开源。很多细节以及项目配置都在Github文档中写的很清楚,所以请移步Github地址

https://github.com/qiangzi7723/spider-for-netease-music

过两天会给这些数据写一个H5的数据统计以及展示页面,所以如果喜欢这个项目或者想持续关注此项目更新的同学可以到我的Github上点下Star。

上一篇:2018.10.5 hibernate导入约束,在Eclipse的xml文件实现自动提示


下一篇:【原创干货】大数据Hadoop/Spark开发环境搭建