python+selenium实现网站图片批量下载保存

    最近有一个需求,就是想批量下载网站的图片,刚开始想到的是用爬虫方式,但是尝试了一些网站,发现都有反爬虫,虽然也有修改Header、设置代理IP等方法可以解决,但是后续爬虫代码自我感觉写起来也挺麻烦。之后学习了selenium,发现它操作起来更加简单。其本质就是用电脑代码模拟代替人为对图片进行下载。

(1)webdriver的安装(如已安装可直接跳过)

(1)下载地址:http://npm.taobao.org/mirrors/chromedriver/ 找到与自己chrome浏览器对应版本。chrome版本可在浏览器右上角 设置—>关于chrome中查看。
(2)将下载的文件放在python解释器同级目录下
python+selenium实现网站图片批量下载保存
python+selenium实现网站图片批量下载保存

(2)下面给出源代码:

from selenium import webdriver
import time
import re
from selenium.webdriver.common.action_chains import ActionChains
import pyautogui

browser = webdriver.Chrome()
# BASE_DOMAIN = 'https://pixabay.com/zh/images/search/?order=ec'
BASE_DOMAIN = 'https://pixabay.com/images/search/?pagi='
for j in range(2,30):
    browser.get(BASE_DOMAIN+str(j))
    # input_ = browser.find_element_by_id('search-text')  # 获取输入框元素
    # input_.send_keys('Makise Kurisu')  # 输入要搜索的名称
    # time.sleep(2)  # 睡两秒
    # button_ = browser.find_element_by_xpath('//*[@id="startpage-search"]/div/button')  # 获取搜索按钮元素
    # button_.click()  # 进行点击
    text = browser.page_source  # 获取页面信息
    pattern = re.compile(r'<a class="link--h3bPW" href="(.*?)" data-id="(.*?)">')
    res = re.findall(pattern, text)  # 正则表达式匹配

    browser.get(res[0][0])


    for i in res:
        browser.get(i[0])
        time.sleep(3)
        pic = browser.find_element_by_xpath('//picture//img')
        action = ActionChains(browser).move_to_element(pic)  # 移动到该元素
        action.context_click(pic)  # 右键点击该元素
        action.perform()  # 执行

        pyautogui.typewrite(['down', 'down', 'enter'])

        # pyautogui.typewrite(['v'])  # 敲击V进行保存
        #     # 单击图片另存之后等1s敲回车
        time.sleep(1)
        pyautogui.typewrite(['enter'])
        time.sleep(10)
browser.close()


上一篇:【邵奈一】Python爬虫专栏(三)之自动登录


下一篇:Javascript工具 - javascript混淆器Obfuscator