新版本移步:https://www.cnblogs.com/zy7y/p/13376228.html
下载斗图拉最新表情包
要爬取的目标所在网址:http://www.doutula.com/photo/list/?page=1
需要用到的第三方库:requests(用于请求图片链接得到图片内容)
一点点正则表达式的应用:
(.*?):在代码中用来匹配图片链接地址,(.*):用来匹配图片对应的名称
更多的正则表达式使用参见正则表达式re模块的使用,其中用到re.findall('匹配规则',字符串),将符合匹配规则从整个字符串从找出来,放在一个新的列表中,并返回这个列表(list)
,更多re模块使用
参见菜鸟教程-Python正则表达式-
详细代码
# !usr/bin/env/python
# -*- coding:utf-8 -*-
"""
time: 2020/02/01 12:37
author: Tceo1
OS: windows10
"""
import re
import requests # url地址:http://www.doutula.com/photo/list/ 有页数之后:http://www.doutula.com/photo/list/?page=2
url = "http://www.doutula.com/photo/list/?page=1"
response = requests.get(url) # 返回一个响应类型
m = r'data-original="(.*?)" alt="(.*)" class'
# 查找符合的图片url,与图片名称
result_list = re.findall(m, response.text)
print(result_list)
for image in result_list:
image_url = image[0]
image_name = image[1]
# 通过切片获取到后缀名 如 .jpg
image_type = image[0][-4:]
# 请求图片url, 返回二进制响应
image_content = requests.get(image_url).content
save_path = r'E:/image/'
with open(save_path + image_name + image_type, 'wb') as f:
# 将二进制响应写入图片
f.write(image_content)
print("over") 代码地址:https://github.com/Tceo1/scriptTools/blob/master/dtl.py
最后
感谢那些给予我帮助的人!