开发者学堂课程【Python爬虫实战: python 爬虫分类和 robots 协议 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/555/detail/7640
python 爬虫分类和 robots 协议
内容介绍:
一、概述
二、爬虫分类
三、Robots 协议
一、概述
爬虫,应该称为网络爬虫,也叫网页蜘蛛、网络机器人、网络蚂蚁等。
搜索引擎,就是网络爬虫的应用者。
为什么到了今天,反而这个词汇被频繁的提起呢?有搜索引擎不就够了吗?
实际上,大数据时代的到了,所有的企业都希望通过海量数据发现其中的价值。
所以,需要爬取对特定网站、特定类别的数据,而搜索引擎不能提供这样的功能,因此,需要自己开发爬虫来解决。
二、爬虫分类
通用爬虫
常见就是搜索引擎,无差别的收集数据、存储,提取关键字,构建索引库,给用户提供搜索接口。
爬取一般流程
1.初始一批 URL ,将这些 URL 放到待爬取队列
2.从队列取出这些 URL ,通过 DNS 解析 IP ,对 IP 对应的站点下载 HTML 页面,保存到本地服务器中,爬取完的 URL 放到已爬取队列。
3.分析这些网页内容,找出网页里面的其他关心的 URL 链接,继续执行第2步,直到爬取条件结束。
搜索引擎如何获取一个新网站的 URL
●新网站主动提交给搜索引擎
●通过其它网站页面中设置的外链
●搜索引擎和 DNS 服务商合作,获取最新收录的网站
聚焦爬虫
有针对性的编写特定领域数据的爬取程序,针对某些类别数据采集的爬虫,是面向主题的爬虫
三、Robots 协议
指定一个rqbots.txt文件,告诉爬虫引擎什么可以爬取。
淘宝http://www.taobao.com/robots.txt
User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Allow: /ershou
Disallow: /product/
Disallow: /
User-Agent: Googlebot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Disallow: /
User-agent: Bingbot
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow:/ershou
Disallow: /
User-Agent: Yahoo! SlurpAllow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow:/ershou
Disallow:/
User-Agent:
Disallow: /
User-Agent: Yahoo! Slurp
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /oversea
Allow: /list
Allow: /ershou
Disallow: /
user-Agent:
Disallow:
马蜂窝 http://www.mafengwo.cn/robots.txt
User-agent:
Disallow:/music/
Disallow:/travel-photos-albums/
Disallow:/lushu/
Disallow:/hc/
Disallow:/hb/
Disallow:/insure/show.php
Disallow:/myvisa/index.php
Disallow:/booking/discount_booking.php
Disallow:/secrect/
Disallow:/gonglve/visa.php
Disallow:/gonglve/visa_info.php
Disallow:/gonglve/visa_case.php
Disallow:/gonglve/visa_seat.php
Disallow:/gonglve/visa_readme.php
Disallow:/gonglve/insure.php
Disallow:/gonglve/insurer.php
其它爬虫,不允许爬取
User-Agent:★
Disallow:/
这是一个君子协定,“爬亦有道”
这个协议为了让搜索引擎更有效率搜索自己内容,提供了如 Sitemap 这样的文件。
这个文件禁止抓取的往往又是可能我们感兴趣的内容,它反而泄露了这些地址。