Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习

hello,大家好,我是wangzirui32,今天我们来学习如何爬取CSDN博文之后还通过pdfkit转换为PDF方便学习。

学习目录

1. pdfkit安装及配置

首先,在cmd中输入:

pip install pdfkit

安装完成后,我们需要再次安装一个转换器,链接https://wkhtmltopdf.org/downloads.html,如图下载:
Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习
下载完成后,打开下载的exe安装程序,按图操作:
Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习
所有选项全部默认,只需要一直点下一步即可。
Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习接下来,需要找到转换器的路径,在笔者的电脑中,路径为C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe,如图:
Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习

2. 编写代码

这里我以一篇博文为例,代码如下:

import pdfkit

# 博文url
url = "https://blog.csdn.net/wangzirui32/article/details/116066478"
# 转换器路径
path_wkthmltopdf = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe'
# 配置转换器
config = pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
# 根据url生成PDF
pdfkit.from_url(url, "Git安装使用.pdf", configuration=config)

运行代码,等待一会,可以看见项目文件夹出现了Git安装使用.pdf,使用浏览器打开,显示:
Python网络爬虫:爬取CSDN博文 并通过pdfkit转换为PDF方便学习
(有些内容可能没有正确显示,但结果也还是真不戳)


好了,今天的课程就到这里了,喜欢的可以点个收藏和关注,我是wangzirui32,我们下次再见!

上一篇:mysql myisam 锁表问题<转>


下一篇:python生成一个pdf文件