简介
在日程爬虫中我们需要使用许多方法来获取HTML或XML标签中的内容,例如正则表达式、xpath语法,除了上述方法,还有一种更加方便、强大的工具叫Beautiful Soup,通过使用它我们同样也可以提取出 HTML 或 XML 标签中的内容。
使用方法
在使用BeautifulSoup时,我们首先创建一个BeautifulSoup对象,将对象进行实例化,实例化的方法有2种,一种是直接将我们通过request请求返回的html进行实例化,另一种是可以用本地存储的 HTML 文件来创建对象。
Beautifulsoup对象的实例化:
—— BeautifulSoup(fp,'lxml'):用来将本地存储的html文档中的数据进行解析
—— BeautifulSoup(page_text,'lxml'):用来将互联网请求到的页面源码数据进行解析
soup = BeautifulSoup(open('index.html')) #将本地 index.html 文件打开,用它来创建 soup 对象
实例化BeautifulSoup之后,我们需要掌握BeautiSoup的获取html元素的方法,常用的标签定位方法有以下几种方式:
soup.tagName:只可以定位到第一次出现的tagName标签
soup.find('tagName',attrName='value'):属性定位
soup.findAll:跟find一样用作属性定位,只不过findAll返回的是列表
soup.select('选择器'):选择器定位
元素定位成功后,通过.text()或者.string方法获取文本内容。
实战
下面通过一个实战来具体看一下BeautifulSoup的使用方法,我们以爬取校花网为例,把网页中的图片爬取下来并保存到本地。
代码如下:
import requests
from bs4 import BeautifulSoup
import lxml
import os
dirname = 'F:\\xunlei02'
if not os.path.exists(dirname):
os.mkdir(dirname)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
def get_url():
url = 'http://www.521609.com/qingchunmeinv/'
response = requests.get(url,headers = headers).text.encode('iso-8859-1').decode('GBK')
#print(response)
soup = BeautifulSoup(response,'lxml')
#print(soup)
#print(soup.li) #定位获取到第一个li标签
#print(soup.find('img',alt="师大清纯美女")) #根据标签进行定位和属性值进行定位
#print(soup.findAll('img',alt="师大清纯美女")) #和soup.find用法一致,返回形式是list列表
#获取属性值,这里是获取href
# context = soup.findAll('a',class_ = 'title')
# for i in context:
# print(i['href'])
img_list = soup.findAll('img')
for img in img_list[1:]:
url_img = 'http://www.521609.com/'+ img['src']
print(url_img)
downimage(url_img)
def downimage(url):
img_name = dirname + '\\' + url.split('/')[-1]
#print(img_name)
response = requests.get(url,headers = headers).content
with open(img_name,'ab') as f:
f.write(response)
if __name__ == '__main__':
get_url()
可以看到,通过使用BeautifulSoup方法我们成功获取到了图片链接地址,并将图片成功保存到本地电脑中。