python之urllib的基本使用

urllib是我们用来网络请求的一个第三方库,可以制定url,获取网页数据

import urllib.request


# 发送一个get请求
def getReq():
    # 引入urllib库中的request模块
    # 调用request中的urlopen方法
    # timeout设置超时时间
    response = urllib.request.urlopen("http://www.baidu.com", timeout=1)
    # 由于respon是一个对象地址,我们需要调用read()来获取数据 使用urf-8解码
    # print(response.read().decode("utf-8"))

    print(response.status)  # 获取返回状态信息码
    print(response.getheaders())  # 获取响应头
    print(response.getheader("Content-Type"))  # 获取响应头某个具体数据


import urllib.parse


# 发送一个post请求
def postReq():
    # 使用urllib.parse进行参数封装
    data = urllib.parse.urlencode({"name": "张三"})
    # 使用二进制流进行编码
    param = bytes(data, encoding="utf-8")
    response = urllib.request.urlopen("http://httpbin.org/post", data=param)
    print(response.read().decode("utf-8"))


# 忽略https证书
import ssl
ssl._create_default_https_context = ssl._create_unverified_context


# 请求豆瓣
def reqDouBan():
    try:
        url = "https://www.douban.com"
        headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36"
        }
        data = bytes(urllib.parse.urlencode({"name": "test"}), encoding="utf-8")
        # 设置url,设置请求数据,设置请求头,设置请求方式
        req = urllib.request.Request(url, data=data, headers=headers, method="POST")
        response = urllib.request.urlopen(req)
        print(response.read().decode("utf-8"))
    except urllib.error.HTTPError:
        print("请求失败")


reqDouBan()

上一篇:什么是网络爬虫?为什么要选择Python写网络爬虫?


下一篇:python网络爬虫