python 爬虫 urllib库使用

urllib库使用

urllib.request.urlopen() 模拟浏览器向服务器发送请求 
response 服务器返回的数据 
	response的数据类型是HttpResponse 
	字节‐‐>字符串
		解码decode 
	字符串‐‐>字节
		编码encode 
	read() 字节形式读取二进制 扩展:rede(5)返回前几个字节 
	readline() 读取一行 
	readlines() 一行一行读取 直至结束 
	getcode() 获取状态码 
	geturl() 获取url 
	getheaders() 获取headers 
	urllib.request.urlretrieve() 请求网页 请求图片 请求视频
import urllib.request

url = 'http://www.baidu.com'

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 一个类型和六个方法
# response是HTTPResponse的类型
# print(type(response))

# 按照一个字节一个字节的去读
# content = response.read()
# print(content)

# 返回多少个字节
# content = response.read(5)
# print(content)

# 读取一行
# content = response.readline()
# print(content)

# content = response.readlines()
# print(content)

# 返回状态码  如果是200了 那么就证明我们的逻辑没有错
# print(response.getcode())

# 返回的是url地址
# print(response.geturl())

# 获取是一个状态信息
print(response.getheaders())

# 一个类型 HTTPResponse
# 六个方法 read  readline  readlines  getcode geturl getheaders
上一篇:【Python爬虫】Urllib库的基本使用


下一篇:【Python】爬虫学习