Scrapy入门探索盗墓笔记

2023-11-29 23:18:16

Scrapy入门探索盗墓笔记

声明：本文只作学习研究，禁止用于非法用途，否则后果自负，如有侵权，请告知删除，谢谢！

引言

本文出自微信公众号【Python三剑客】

作者：阿K

阅读时长：5min

留言：没有精美的文案，没有动情可爱的故事情节，不想随波逐流，暂时只想努力输出好的文章，如果对大家有帮助希望大家能够点赞、收藏、分享一键三连！在此感谢各位读者！

该文章为scrapy入门案例，希望能对你有所帮助

一、Scrapy依赖包安装

pip install scrapy

二、创建Scrapy项目

scrapy startproject ScrapyDaomu

进入当前项目文件之后创建爬虫文件
cd ScrapyDaomu

scrapy genspider daomu "daomubiji.com"

项目结构

scrapy.cfg：项目的总配置文件，通常无须修改。
daomu项目的 Python 模块，程序将从此处导入 Python 代码。
ScrapyDaomu/items.py：用于定义项目用到的 Item 类。Item 类就是一个 DTO（数据传输对象），通常就是定义 N 个属性，该类需要由开发者来定义。
ScrapyDaomu/pipelines.py：项目的管道文件，它负责处理爬取到的信息。该文件需要由开发者编写。
ScrapyDaomu/settings.py：项目的配置文件，在该文件中进行项目相关配置。
ScrapyDaomu/spiders：在该目录下存放项目所需的蜘蛛，蜘蛛负责抓取项目感兴趣的信息。

三、items.py

import scrapy

class ScrapydaomuItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # items 需要处理的数据：文件名、路径
    # 文件名：小标题名称  son_title: 七星鲁王 第一章 血尸
    son_title = scrapy.Field()
    directory = scrapy.Field()
    content = scrapy.Field()

四、piplines.py

class ScrapydaomuPipeline:
    def process_item(self, item, spider):
        # filename: ./novel/盗墓笔记1:七星鲁王宫/七星鲁王_第一章_血尸.txt
        filename = '{}{}.txt'.format(item['directory'], item['son_title'].replace(' ', '_'))
        with open(filename, 'w') as f:
            f.write(item['content'])

        return item

五、daomu.py

import scrapy
from ..items import ScrapydaomuItem
import os

class DaomuSpider(scrapy.Spider):
    name = 'daomu'
    allowed_domains = ['www.daomubiji.com']
    start_urls = ['http://www.daomubiji.com/']

    def parse(self, response):
        """
        一级页面解析函数：提取标题、链接，并把大连接交给调度器入队列
        """
        a_list = response.xpath('//li[contains(@id,"menu-item-20")]/a')
        for a in a_list:
            item = ScrapydaomuItem()  # 实例化item列表
            parent_title = a.xpath('./text()').get()
            parent_url = a.xpath('./@href').get()
            item['directory'] = './novel/{}/'.format(parent_title)
            # 创建对应文件夹
            if not os.path.exists(item['directory']):
                os.makedirs(item['directory'])
            # 交给调度器入队列
            yield scrapy.Request(url=parent_url, meta={'meta_1': item}, callback=self.detail_page)

    # 返回11个response,调用该函数
    def detail_page(self, response):
        """
        二级页面解析函数：提取小标题、小链接
        """
        # 接收item
        meta_1 = response.meta['meta_1']
        art_list = response.xpath('//article')
        for art in art_list:
            # 只要有继续交往调度器的请求，就必须新建item对象
            item = ScrapydaomuItem()
            item['son_title'] = art.xpath('./a/text()').get()
            son_url = art.xpath('./a/@href').get()
            item['directory'] = meta_1['directory']
            # 再次交给调度器入队列
            yield scrapy.Request(url=son_url, meta={'item': item}, callback=self.get_content)

    # 盗墓笔记1: 传过来了75个response
    # 盗墓笔记2: 传过来了 n 个response
    # ....

    def get_content(self, response):
        """三级页面解析函数：提取具体小说内容"""
        item = response.meta['item']
        # content_list: ['段落1','段落2','段落3',...]
        content_list = response.xpath('//article[@class="article-content"]/p/text()').extract()
        item['content'] = '\n'.join(content_list)

        # 至此,一条item数据全部提取完成
        yield item

六、settings.py

BOT_NAME = 'ScrapyDaomu'

SPIDER_MODULES = ['ScrapyDaomu.spiders']
NEWSPIDER_MODULE = 'ScrapyDaomu.spiders'

ROBOTSTXT_OBEY = False

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

ITEM_PIPELINES = {
   'ScrapyDaomu.pipelines.ScrapydaomuPipeline': 300,
}

七、run.py[在项目文件下创建]

from scrapy import cmdline

cmdline.execute('scrapy crawl daomu'.split())

启动文件：运行run文件

码农公寓

Scrapy入门探索盗墓笔记

引言

目录

一、Scrapy依赖包安装

二、创建Scrapy项目

三、items.py

四、piplines.py

五、daomu.py

六、settings.py

七、run.py[在项目文件下创建]

相关文章