scrapy框架使用-爬取全站的实践--新浪新闻

2023-11-29 23:03:16

####

爬取新浪新闻全站的新闻，

这算是一个大一点的项目了，要好好的规划，

其实使用scarpy难点，就是两个，一个登陆，一个提取，其他的都不难，scrapy都帮你做好了，

提取也不难，就是需要清洗一下数据，

####

先新建这个目录的层级，

这个目录，

你就要提取三级目标，

这个提取可能比较麻烦，但是不难，

而且可能有多套模板，这样你的爬虫还需要兼顾不同页面的不同模板，

不同页面，要用不同的提取规则，

这是很正常的，

####

如果你写完爬虫，就一劳永逸了，那你的价值在哪里，网站改版了你的爬虫可能就会报错，你就要去处理，

这就是斗争，

所以需要爬虫监控，爬虫告警，

####

编码思路

1，提取分类，要有3级分类，

2，分类下面提取标题和url，

3，提取详情页，正文内容

4，翻页问题，这个不同的网站是不一样的，

翻页的思路就是一直往下翻页，然后找到不能翻页的一个标志，然后就不断的调用自己，就可以了，

这个翻页的思路有递归的知识点，需要再次看一下，

这种比较简单，你只需要考虑随机ua和代理反爬，不需要考虑登陆的问题，

要有速度的话，还需要考虑分布式，

###

实际上这种爬虫不使用scrapy完全可以写，就是自己搞定这些事情就可以了，

###

#####