爬虫学习（1）：urllib教程

2023-12-24 21:25:04

文章目录

一、前言框架

之前我一直没想教大家urlib，思考万分，还是要补一下这个教程。

我们来学一下爬虫之祖urlib，不管你什么模块都是起源于该模块。
urlib库有几个模块，依次如下：

request ：用于请求网址的模块
error：异常处理模块
parse：用于修改拼接等的模块
robotparser：用来判断哪些网站可以爬，哪些网站不可以爬

二、网址请求

2.1 打开网址

以请求我自己的博客为例子，我博客链接为：

https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343

我们使用urlib库中的request模块如下：

import urllib.request  

response = urllib.request.urlopen('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343')  

print(response.read().decode('utf-8'))#调用 read 方法可以得到返回的网页内容，打印网页内容

运行结果：

留个问题：你可否去请求一下别的网址试试？比如你自己的博客？

我们接着来看看其它的问题：如何才知道自己请求网址成功？我可不想每次都把他打印出来才看自己成功没有。
我们使用status函数来查看，这个单词就是状态的意思，如果返回结果为200就是请求成功，404就是请求失败的意思。
假设我请求自己博客：

import urllib.request  
response = urllib.request.urlopen('https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343')  
print(response.status)

运行：

可以看到是200，代表请求成功了。那么我们来请求一个别的网址呢？比如我们现在来请求国外的facebook:

import urllib.request  
response = urllib.request.urlopen('https://www.facebook.com/')  
print(response.status)

运行：

惊奇的是我请求成功了，不过我估计你们可能会请求得到404，这也没关系，正常的。

2.2 超时设置

我们只需要加上timeout参数即可，为什么我们要用超时设置，因为有些网站我们不能马上请求进入，有可能是自己网络原因，也有可能是对方服务器卡顿等原因，因此需要设置一下超过规定的时间就不去请求了。
举个例子：我要请求打开github不能超过十秒，如果超过十秒就不请求了。

import urllib.request  
response = urllib.request.urlopen('https://github.com/',timeout=10)  
print(response.status)

运行看看：

显示time out意思就是超时打开错误，如果你把请求十秒钟改为30秒，再去试试能否成功？（毕竟国内上github会卡很正常）

2.3 错误抓取

前面我们遇到了请求超时，就会报错出一大堆，假如先去判是否请求成功，需要用try…except来获取报错信息，具体如下：

import socket  
import urllib.request  
import urllib.error  

try:  
    response = urllib.request.urlopen('https://github.com/', timeout=5)  
except urllib.error.URLError as e:  
    if isinstance(e.reason, socket.timeout):  
        print('请求超时')

运行看看：

三、更深请求

3.1 打开网址

import urllib.request
request = urllib.request.Request("https://www.csdn.net/?spm=1011.2124.3001.5359")
response=urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

说一下每一行大概是什么。

第一行导入模块
第二行用Requests请求网址
第三行再用urlopen打开网址
第四行用read打印内容

运行看看：

3.2 请求头添加

为什么要添加请求头，请求头的作用是模拟浏览器去爬取内容，主要是为了被反扒。
有个新词：反扒为什么会被反扒？因为有些网站是不允许你去爬取的，但是我们就是需要爬取内容，因此我们使用请求头来模拟进行。请求头的添加能帮助我们解决百分之八十的反扒，不用担心我，后面的反扒技术我都会教大家。
看个例子，我们已爬取CSDN首页为例子：

from urllib import request
url='https://www.csdn.net/?spm=1011.2124.3001.5359'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

req=request.Request(url=url,headers=headers)
response=request.urlopen(req)
print(response.read().decode('utf-8'))

大概说一些每一行的例子:

第一行从库导入模块
第二行就是我们需要请求的网址
第三行就是我们的请求头，固定这个模式，不用去背，以后添加请求头复制粘贴就行
第四行就是使用请求头去请求网址
第五行：请求成功打开网址（urlopen翻译过来就是打开网址的意思啊）
第六行用read打印内容

3.3 链接解析

我直接以CSDN官网首页为例子。
1.urlparse

from urllib.parse import urlparse
s=urlparse('https://www.csdn.net/?spm=1011.2124.3001.5359')#解析的网址
print(type(s),s)#打印类型和解析结果

看看打印结果：

分析下结果：
ParseResult这个类型对象，打印了六个部分结果：
scheme是协议，这里协议就是https
netloc是域名，域名是啥就步说了吧，自己百度
path是访问路径
params就是参数
query就是查询条件，一般用作get类型的url
fragment就是描点，用于定位页面内部下拉位置
所以网址的标准链接格式就是：

scheme：//netloc/path；params?query#fragment

这些能看懂一个网址什么组成的了吧
2.urlunparse
与第一个对立，他接受的参数是可迭代对象，对象长度必须是6

from  urllib.parse import urlunparse
data=['http','www.baidu.com','index.com','user','a=7','comment']
print(urlunparse(data))

结果如下：

这就构造了一个url，当然随便构造一个url是不能正常访问的。对比上面的urlparse，一个是拆分url，这个就是构造url。
3.urlsplit
跟urlparse类似，知识返回结果只有五个，params合并到了path中

from urllib.parse import urlsplit
s=urlsplit('https://www.csdn.net/?spm=1011.2124.3001.5359')
print(type(s),s)

老规矩还是以CSDN首页为例子，看打印结果：

但是呢，SplitResult是元组类型，可以通过索取获得想要的，不用都打印出来：

from urllib.parse import urlsplit
s=urlsplit('https://www.csdn.net/?spm=1011.2124.3001.5359')
# print(type(s),s)
print(s.path)
print(s.netloc)
print(s[1])
print(s[3])

这样打印结果姐如下：

4.urlunsplit()
跟上面那个方法类似，这个就是再把各个部分组合成完整的链接，长度必须是5，举例如下：

from urllib.parse import urlunsplit
data=['http','www.csdn.net','/','spm=1011.2124.3001.5359',' ']
print(urlunsplit(data))

根据前面打印拆分结果，我再给它复原了，运行结果如下，又得到csdn首页链接了

5.urljoin
就是对链接的补充合并，自己可以多打印几个试试

from urllib.parse import  urljoin
print(urljoin('http://www.baidu.com','index.html'))
print(urljoin('http://www.baidu.com','http://www.baidu.com/index.html'))

效果如下：

6.urlencode
跟上面的类似，也是用于构造url
例子如下：

from urllib.parse import urlencode
parms={
    'name':'chuan',
    'age':'20'
}
b_url='http://www.baidu.com?'
url=b_url+urlencode(parms)
print(url)

结果：

7.parse_qs

from urllib.parse import parse_qs
u='name=chuan&age=20'
print(parse_qs(u))

parse_qs作用就是把得到的get请求参数字符串转为字典，这样便于好看理解。前面都是有序列化，这个就是反无序化。

8.parse_sql

from urllib.parse import parse_qsl
u='name=chuan&age=20'
print(parse_qsl(u))

跟上面第七个方法类似，这个就是返回的列表，列表里装的元组，元组左边为名，右边为值
9.quote

from urllib.parse import quote
key='川川'
url='http://www.baidu.com/?wd='+quote(key)
print(url)

这个很常见，我的理解就是把中文转换为url格式。对中文进行编码。

10.unquote

from urllib.parse import unquote
url='http://www.baidu.com/?wd=%E5%B7%9D%E5%B7%9D'
print(unquote(url))

它就可以把被编码后的中文还原。

这个模块差不多就这些了，学习爬虫慢慢来，不要一蹴而就。有了这个模块就可以对url解析和构造了。

四、Robots 协议

虽然我在教大家爬虫，但是我还是要声明一下不要什么都去爬，所以我们来看下哪些可以爬，哪些不可以爬，这就要根据robots协议了。（当然我们可能不会完全遵守他的协议，不然爬虫也没啥意思了，自己把握分寸）

首先我们来学会一下如何查看协议，比如我们要访问CSDM网址：

https://www.csdn.net/

查看协议就是：在网址后面加上robots.txt

https://www.csdn.net/robots.txt

输入回车：

看看这个协议的含义：
user-agent：后面是蜘蛛的名称，表示一种代理的意思；
disallowed: 表示禁止，后面的内容蜘蛛禁止抓取；
allowed ：表示允许蜘蛛抓取后面文件的内容；

好家伙，CSDN全部不允许爬，哈哈哈，没事，适当爬可以的。

五、万能视频下载

具体我就不说了，这个可以下载几乎百分之就是的网上和平台的视频，自己去尝试（请悄悄使用）
下载安装包：

pip install you_get

与代码同级目录新建一个mp4文件夹。
源代码如下：

import sys
from you_get import common as you_get#  导入you-get库

#  设置下载目录
directory=r'mp4\\'
#  要下载的视频地址
url='https://music.163.com/#/mv?id=14306186'
#  传参数 固定
sys.argv=['you-get','-o',directory,'--format=flv',url].encode('utf-8')
you_get.main()

效果：

码农公寓