python--爬取CSDN作者信息及文章

        本次项目爬取的是CSDN上作者的数据信息以及作者的文章,本次项目主要用到parsel、os、re、xlwt、requests、pdfkit等库。此次项目写了两个方面,分别为:爬取用户数据,爬取作者文章并且转化为pdf。
        用户数据模块主要包括:原创数量,周排名,总排名,访问数,用户等级,积分,分数,收藏的文章数量。爬取作者文章模块:将HTML文章转化为pdf文件格式,便于阅读以及防止乱码,数据及丢失等情况。


下面是部分源码:

主要用到的模块:

python--爬取CSDN作者信息及文章

获取作者文章部分源码:

python--爬取CSDN作者信息及文章

python--爬取CSDN作者信息及文章

获取作者数据信息部分源码:

python--爬取CSDN作者信息及文章

生成EXCL表格并将数据存储到表格中的部分源码:

python--爬取CSDN作者信息及文章

python--爬取CSDN作者信息及文章

 python--爬取CSDN作者信息及文章

除此之外,我们还用pdf工具包htmltopdt将网页版的文章转化为pdf版

下面是项目展示(我们以爬取xingjiarong作者为例):

这是HTML版的作者文章:

python--爬取CSDN作者信息及文章

 python--爬取CSDN作者信息及文章

PDF版的文章:

 python--爬取CSDN作者信息及文章

python--爬取CSDN作者信息及文章

爬取的作者信息和生成的EXCEL表格:

 python--爬取CSDN作者信息及文章          python--爬取CSDN作者信息及文章

通过这次PythonQ实训,我收获了很多,一方面学习到了许多以前没学过的专业知识与知识的应用,另-方面还提高了自我动手做项目的潜力。本次实训是对我潜力的进一步锻炼, 也是一种考验。 从中获得的诸多收获,也是很可贵的,是十分有好处的。

上一篇:用电脑如何把准考证保存为pdf


下一篇:Java 将PDF转为线性PDF