历史上的今天
在CSDN中,去年来,首页就一直有一类文章,也就是历史上的今天。这个专栏讲述了历史上的每一天所发生的有关计算机的大事。今天我们就要使用爬虫来爬取这一专栏的所有文章的数据,使用sqlite3保存到数据库中,并使用PIL包将任意事件制作成一个分享卡片。
爬取数据
爬取数据我们首先使用的是requests请求,历史上的今天作为一个专栏,专栏地址是https://blog.csdn.net/byeweiyang/category_11289966_1.html,再翻到第二页,地址为:https://blog.csdn.net/byeweiyang/category_11289966_2.html。因此我们发现页数动态地体现在网址里,目前共有4页,代码如下:
import requests
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; ..."} # 使用你自己的User Agent
<