什么是爬虫
通过编写程序,模拟游览器上网,然后去互联网上抓取数据的过程
爬虫在使用场景的分类
- 通用爬虫:
抓取的是一整张页面 - 聚焦爬虫:
是建立在通用爬虫的基础上,抓取的是页面中特定的内容 - 增量式爬虫:
检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。
反爬机制与反反爬策略
门户网站,可以通过制定相关的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取数据。
robot.txt协议
君子协议。规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬虫爬取。(主观遵从)
http://www.7k7k.com/robots.txt
User-agent: *
Disallow: /doyo/
Disallow: /doyoweb/
Disallow: /yy/
Disallow: /data/
Disallow: /widget/
Disallow: /api/
Disallow: /classic
Disallow: /classic/
Disallow: /classic/tag/
Disallow: /classic/swf/
Disallow: /classic/flash_fl/
Disallow: /classic/top/
Disallow: /classic/flash/
Disallow: /classic/index.htm
Disallow: /new/
Disallow: /m-iphone/art/
Disallow: /m-ipad/art/
Disallow: /m-android/art/