selenium + PhantomJS 爬取js页面

2023-08-04 13:01:22
from selenium import webdriver

import time

_url="http://xxxxxxxx.com"

driver = webdriver.PhantomJS()

driver.get(_url)

time.sleep(5)

webdata=driver.page_source

#这样就得到了web页面的内容,最好加个延时页面加载需要时间

#下面的就可以对这个页面进行爬取了

.

.

.

.

# 最好要记得关闭浏览器

driver.quit()

在这里标记一个小坑：在爬取页面的下载连接时，出现这样的：http%3A%2F%2Ftencent.myaora.net%2Ftest%2Fupload%2Fopen%2F2017%2F03%2F48023%2Fapk%2F20171114142640_380_0290.apk
一堆的%+大写字母+数字 混淆了真实地址，解决方法就是：

download_url="http%3A%2F%2Ftencent.myaora.net%2Ftest%2Fupload%2Fopen%2F2017%2F03%2F48023%2Fapk%2F20171114142640_380_0290.apk"

urllib.parse.unquote(download_url)# quote & unquote 可以将连接“加密和解密”
码农公寓

相关文章