最近有一个需求,就是想批量下载网站的图片,刚开始想到的是用爬虫方式,但是尝试了一些网站,发现都有反爬虫,虽然也有修改Header、设置代理IP等方法可以解决,但是后续爬虫代码自我感觉写起来也挺麻烦。之后学习了selenium,发现它操作起来更加简单。其本质就是用电脑代码模拟代替人为对图片进行下载。
(1)webdriver的安装(如已安装可直接跳过)
(1)下载地址:http://npm.taobao.org/mirrors/chromedriver/ 找到与自己chrome浏览器对应版本。chrome版本可在浏览器右上角 设置—>关于chrome中查看。
(2)将下载的文件放在python解释器同级目录下
(2)下面给出源代码:
from selenium import webdriver
import time
import re
from selenium.webdriver.common.action_chains import ActionChains
import pyautogui
browser = webdriver.Chrome()
# BASE_DOMAIN = 'https://pixabay.com/zh/images/search/?order=ec'
BASE_DOMAIN = 'https://pixabay.com/images/search/?pagi='
for j in range(2,30):
browser.get(BASE_DOMAIN+str(j))
# input_ = browser.find_element_by_id('search-text') # 获取输入框元素
# input_.send_keys('Makise Kurisu') # 输入要搜索的名称
# time.sleep(2) # 睡两秒
# button_ = browser.find_element_by_xpath('//*[@id="startpage-search"]/div/button') # 获取搜索按钮元素
# button_.click() # 进行点击
text = browser.page_source # 获取页面信息
pattern = re.compile(r'<a class="link--h3bPW" href="(.*?)" data-id="(.*?)">')
res = re.findall(pattern, text) # 正则表达式匹配
browser.get(res[0][0])
for i in res:
browser.get(i[0])
time.sleep(3)
pic = browser.find_element_by_xpath('//picture//img')
action = ActionChains(browser).move_to_element(pic) # 移动到该元素
action.context_click(pic) # 右键点击该元素
action.perform() # 执行
pyautogui.typewrite(['down', 'down', 'enter'])
# pyautogui.typewrite(['v']) # 敲击V进行保存
# # 单击图片另存之后等1s敲回车
time.sleep(1)
pyautogui.typewrite(['enter'])
time.sleep(10)
browser.close()