python爬虫学习过程记录

项目为爬取Python词条的信息。

项目代码在我的码云仓库。

https://gitee.com/libo-sober/learn-python/tree/master/baike_spider

1.开发轻量级爬虫

1.1爬虫简介

爬虫:一段自动抓取互联网信息的程序。

python爬虫学习过程记录

自动访问互联网并且提取数据。

价值:互联网数据为我所用。

1.2简单爬虫架构

python爬虫学习过程记录

运行流程:

python爬虫学习过程记录

1.3URL管理器

URL管理器:管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

python爬虫学习过程记录

实现方式:

python爬虫学习过程记录

一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器:将互联网上URL对应的网页下载到本地的工具。

python爬虫学习过程记录

Python有哪几种网页下载器?

python爬虫学习过程记录

1.5 urllib2

urllib2下载网页方法1:最简洁方法

python3中把urllib2改为了urllib.request

python爬虫学习过程记录

对应到代码:

python爬虫学习过程记录

urllib2下载网页方法2:添加data、http header

python爬虫学习过程记录

python爬虫学习过程记录

urllib2下载网页方法3:添加特殊情景的处理器。

python爬虫学习过程记录

有些网页需要登录才能处理,需要添加Cookie的处理;

有些网页需要代理才能访问,使用ProxyHandler;

有些网页使用Https加密访问,使用HTTPSHandler;

有些网页url是相互自动跳转的关系,使用HTTPRedirectHandler。

对应到代码:

python爬虫学习过程记录

1.6网页解析器

网页解析器:从网页中提取出有价值的数据的工具。

python爬虫学习过程记录

python有哪几种网页解析器?

python爬虫学习过程记录

结构化解析-DOM(Document Object Model)树

python爬虫学习过程记录

1.7 Beautiful Soup

python第三方库,用于从HTML或XML中提取数据

安装并测试beautifulsoup4

安装:pip install beautifulsoup4

测试:import bs4

语法:

python爬虫学习过程记录

例如:

python爬虫学习过程记录

创建BeautifulSoup对象

python爬虫学习过程记录

搜索节点(find_all, find)

python爬虫学习过程记录

访问节点信息

python爬虫学习过程记录

1.8 实例爬虫

python爬虫学习过程记录

目标:百度百科python词条相关词条网页-标题和简介。

入口页:https://baike.baidu.com/item/Python/407313

词条页面URL:/item/opencv 这不是一个完整的URL,需要补全。

数据格式:

标题:

《dd class="lemmaWgt-lemmaTitle-title">

Python

简介:

《div class=''para''>

上一篇:CentOS7下安装Mysql和Memcached 以及 使用C#操作Mysql和Memcached


下一篇:Kafka学习(学习过程记录)