python爬虫(五) ProxyHandler处理器

ProxyHandler处理器

一、如果我们在一段时间内用某个ip地址访问了一个网站次数过多,网站就检测到不正常,就会禁止这个ip地址的访问。所以我们可以设置一些代理服务器,每段时间换个代理,就算ip被禁止,我们也可以换个ip继续爬取

代理有

1、西刺免费代理:http://www.xicidaili.com/

2、快代理:http://www.kuaidaili.com/

3、代理云:http://www.dailiyun.com/

有免费的代理和付费的代理

二、通过网址:http://httpbin.org/ip,可以看到电脑与外网连接的ip,

python爬虫(五) ProxyHandler处理器

也可以通过代码,url='http://httpbin.org/ip',查看ip地址

url = 'http://httpbin.org/ip'

resp=request.urlopen(url)
print(resp.read())

python爬虫(五) ProxyHandler处理器

三、当使用代理之后,ip地址就会发生变化

from urllib import request

url = 'http://httpbin.org/ip'

# 1、使用 ProxyHandler,传入代理构建一个handler
handler = request.ProxyHandler({"http":"223.241.78.43:8010"})
# 2、使用上面创建的handler构建一个opener
opener = request.build_opener(handler)
# 3、使用opener去发送一个请求
resp=opener.open(url)
print(resp.read())

这个时候输出的结果就是代理的ip地址,网站不知道真实的ip地址,自己的ip地址就不会被禁了

上一篇:ProxyHandler处理器__代理设置__自定义opener


下一篇:linux学习笔记 ftp命令