前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者:分享儿
代码
import request from bs4 import BeautifulSoup headers={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4208.400' } #请求头,爬虫伪装 for i in range(0,100): url = 'http://xiaohua.zol.com.cn/detail15/{}.html'.format(i) #爬虫目标网站 html = request.get(url, headers=headers) #请求后返回的源代码 # html.encoding = 'utf-8' soup = BeautifulSoup(html.text, 'lxml') #对源代码进行解析 if html.status_code==200: # 访问成功 title = soup.select(".article-title")[0].text.replace(' ', '') content = soup.select(".article-text")[0].text.replace(' ', '') with open('D:/xh.txt', 'a',encoding='utf-8') as f: #保存文件在D:/xh.txt文件中 f.write(title) f.write(content) f.write('\n\n') f.close() print(title, content) else: #访问失败 continue