爬虫简介

2024-01-15 21:06:40

什么是爬虫

通过编写程序，模拟游览器上网，然后去互联网上抓取数据的过程

爬虫在使用场景的分类

通用爬虫：
抓取的是一整张页面
聚焦爬虫：
是建立在通用爬虫的基础上，抓取的是页面中特定的内容
增量式爬虫：
检测网站中数据更新的情况，只会抓取网站中最新更新出来的数据。

反爬机制与反反爬策略

门户网站，可以通过制定相关的策略或者技术手段，防止爬虫程序进行网站数据的爬取。
爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取数据。

robot.txt协议

君子协议。规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬虫爬取。（主观遵从）
http://www.7k7k.com/robots.txt

User-agent: *
Disallow: /doyo/
Disallow: /doyoweb/
Disallow: /yy/
Disallow: /data/
Disallow: /widget/
Disallow: /api/
Disallow: /classic
Disallow: /classic/
Disallow: /classic/tag/
Disallow: /classic/swf/
Disallow: /classic/flash_fl/
Disallow: /classic/top/
Disallow: /classic/flash/
Disallow: /classic/index.htm
Disallow: /new/
Disallow: /m-iphone/art/
Disallow: /m-ipad/art/
Disallow: /m-android/art/

码农公寓

什么是爬虫

爬虫在使用场景的分类

反爬机制与反反爬策略

robot.txt协议

相关文章