Python爬虫初学(二)—— 爬百度贴吧
昨天初步接触了爬虫,实现了爬取网络段子并逐条阅读等功能,详见Python爬虫初学(一)。 今天准备对百度贴吧下手了,嘿嘿。依然是跟着这个博客学习的,这次仿照该博主用类的方式写。
其实我从来不玩贴吧,不过据我所知贴吧有一些网友,他们开帖子连载原创小说;还有些网友提供“福利”,造福广大网民。嗯,所以今天的目标是这样的:
- 把分散的连载小说下载到本地
- 批量下载贴吧图片
一. 下载小说
1. 定义一个类
这次用类来写。实现这个也不难,经过昨天的学习已经有一定经验了。导入库什么的就不说了。先看贴吧的url构成,如http://tieba.baidu.com/p/4723863270?see_lz=1&pn=2
。其中http://tieba.baidu.com/p/4723863270
为该帖的基础地址,?see_lz=1
是只看楼主标志位,为1
是表示“只看楼主”,pn=2
代表当前帖子的页码。现在来定义一个爬取百度贴吧的SpiderBaidu
,初始化,然后定义一个open_url()
来返回网页内容。
class SpiderBaidu:
# 初始化帖子原地址,默认只看楼主
def __init__(self, url, see_lz_flag=1):
self.url = url
# 可设置看所有楼
self.see_lz = '?see_lz=' + str(see_lz_flag)
self.res = []
# 打开具体网址并返回网页内容
def open_url(self, num):
# 该帖具体网址,num指定页码
wanted_page = self.url + self.see_lz + '&pn=' + str(num)
req = request.Request(wanted_page)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
response = request.urlopen(req)
html = response.read().decode('utf-8')
return html
2. 获取标题和总页数
我们想要知道帖子标题以及总页数,提取出来就是了!
可以发现标题被<h1 class="core_title_txt(...)</h1>
包含起来了,这里要注意的是,有些帖子不是<h1>
,可能是<h3>
或者其他,一会儿匹配的时候考虑进去。
# 提取标题
def get_title(self):
# 第1页就包含标题,所以num用1即可
html = self.open_url(1)
# 提取标题的规则,<h\d>即无论h1还是h3都会匹配成功
title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
title = re.findall(title_pattern, html)
# 返回的是列表且只有一个元素,故用title[0]
return title[0]
接下来是总页数,仔细观察总页数其实在最上面和最下面都是有一个的,所以一会儿匹配后返回的列表会有两个元素,这两个元素是一模一样的!
如上图,数字7被<span class="red">(需要提取的数字)</span>
包含。代码如下。
# 获取总页数
def get_page_num(self):
# 第1页也有总页数
html = self.open_url(1)
num_pattern = re.compile(r'<span class="red">(\d+)</span>')
page_num = re.findall(num_pattern, html)
# 贴吧的最上和最下面都有总页码,随便返回一个即可
return page_num[0]
我们来看一下提取出来的标题和页码。
3. 获取正文
正文前面有空格,依然要用\s+
匹配。正文被<div id="post_content...class=d_post_content j_d_post_content...空格空格(正文)</div>
包含。以下函数提取出正文。
# 获取正文
def get_content(self, num):
# 获取网页全部内容
html = self.open_url(num)
# 提取每楼发言
content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
r'.*?>\s+(.*?)</div>')
content = re.findall(content_pattern, html)
return content
即使是提取出帖子正文了,也别高兴的太早。贴吧发帖不可能人人都发的纯文本,可以预想到里面会有图片(包含表情),超链接,还有设置的签名等。这些还没有被过滤掉。(不好意思忘了截图,反正打印出来的内容会含有很多又长又难看的链接)
我们再制定规则过滤掉。
# 这里参数con为get_content()函数返回的包含正文的列表
def get_words_only(self, con):
for i in con:
# 删除图片
each = re.sub(r'<img class=".*?>', '', i)
# 删除签名
each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
# 换行
each = re.sub(r'<br>', '\n', each)
# 删除超链接
each = re.sub(r'<a href=.*?</a>', '', each)
# 添加到初始化的列表中
self.res.append(each)
return self.res
4. 下载小说到本地
默认模式为只看楼主,其他人插楼小说还咋读是不。
# 下载到本地
def save_text(self):
# 返回的帖子标题作为文件名
file_title = self.get_title()
# 最大页码
page_num = int(self.get_page_num())
with open(file_title + '.txt', 'w', encoding='utf-8') as f:
# 每一页内容都写入文件
for number in range(1, page_num + 1):
con = self.get_content(number)
# 只留下纯文字,过滤图片、超链接等
result = self.get_words_only(con)
f.writelines(result)
最后创建一个实例就好了,试试下载吧。
if __name__ == '__main__':
spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
title = spider.get_title()
total_num = spider.get_page_num()
print('{}(共{}页)'.format(title, total_num))
spider.save_text()
下载下来后是这个效果,还行,能读。
二、 批量下载图片
刚才有过滤图片是不?我们反过来利用它,分分钟就搞定!
提取图片链接即可。它被<img class="BDE_Image" src="(.*?jpg)"
这样的形式包含。
# 只保存图片
def save_images(self, folder):
page_num = int(self.get_page_num())
# 文件名序号
seq = 1
# 创建文件夹
os.mkdir(folder)
# 工程目录切换到当成文件夹
os.chdir(folder)
for number in range(1, page_num + 1):
# 网页全部内容
html = self.open_url(number)
img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
images = re.findall(img_pattern, html)
# 每爬一页,休息10秒
time.sleep(10)
for each in images:
# 文件名
filename = str(seq) + '.jpg'
# 下载到文件夹
request.urlretrieve(each, filename)
# 数字递增方式给文件命名
seq += 1
# 每两秒下载一次
time.sleep(2)
可以适当加入
time.sleep()
,防止访问频率过快导致爬虫封IP。简单的可以这么做,当然可以用代理,多线程,不过我还没接触到,以后再深入。
居然几百张!大丰收呀,看到图片自动地就被飞速下载到本地了,还用一张张右键吗?No!挂着程序让它跑,看部电影去吧!
整理一下,全部代码如下
from urllib import request, parse
import re
import os
import time
class SpiderBaidu:
# 初始化帖子原地址,默认只看楼主为否
def __init__(self, url, see_lz_flag=1):
self.url = url
self.see_lz = '?see_lz=' + str(see_lz_flag)
self.res = []
def open_url(self, num):
# 该帖具体网址
wanted_page = self.url + self.see_lz + '&pn=' + str(num)
req = request.Request(wanted_page)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
response = request.urlopen(req)
html = response.read().decode('utf-8')
return html
# 提取标题
def get_title(self):
html = self.open_url(1)
title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
title = re.findall(title_pattern, html)
return title[0]
# 获取总页数
def get_page_num(self):
html = self.open_url(1)
num_pattern = re.compile(r'<span class="red">(\d+)</span>')
page_num = re.findall(num_pattern, html)
# 贴吧的最上和最下面都有总页码,随便返回一个即可
return page_num[0]
# 获取正文
def get_content(self, num):
html = self.open_url(num)
content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
r'.*?>\s+(.*?)</div>')
content = re.findall(content_pattern, html)
return content
# 去除文字外所有内容
def get_words_only(self, con):
for i in con:
# 删除图片
each = re.sub(r'<img class=".*?>', '', i)
# 删除签名
each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
# 换行
each = re.sub(r'<br>', '\n', each)
# 删除超链接
each = re.sub(r'<a href=.*?</a>', '', each)
self.res.append(each)
return self.res
# 下载到本地
def save_text(self):
# 帖子标题作为文件名
file_title = self.get_title()
# 最大页码
page_num = int(self.get_page_num())
with open(file_title + '.txt', 'w', encoding='utf-8') as f:
for number in range(1, page_num + 1):
con = self.get_content(number)
result = self.get_words_only(con)
f.writelines(result)
# 只保存图片
def save_images(self, folder):
page_num = int(self.get_page_num())
# 文件名序号
seq = 1
os.mkdir(folder)
os.chdir(folder)
for number in range(1, page_num + 1):
html = self.open_url(number)
img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
images = re.findall(img_pattern, html)
time.sleep(10)
for each in images:
filename = str(seq) + '.jpg'
request.urlretrieve(each, filename)
seq += 1
time.sleep(2)
if __name__ == '__main__':
spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
title = spider.get_title()
total_num = spider.get_page_num()
print('{}(共{}页)'.format(title, total_num))
spider.save_text()
spider.save_images('图')
by @sunhaiyu
2016.8.16