scrapy获取58同城数据

1、创建scrapy项目

> scrapy startproject scrapy_58tc

文件路径scrapy_58tc\scrapy_58tc

scrapy获取58同城数据

2、找到访问接口

scrapy获取58同城数据

 

 

4、创建爬虫文件

scrapy_58tc\scrapy_58tc\spiders> scrapy genspider tc https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91&classpolicy=jianzhi_B

文件路径scrapy_58tc\scrapy_58tc\spiders\spiders

scrapy获取58同城数据

提示遵守robots协议

 

scrapy获取58同城数据

 

 

 注释spider目录下的settings中的遵守robots协议

scrapy获取58同城数据

 

 

scrapy获取58同城数据

 

 

ty.py

import scrapy

class TcSpider(scrapy.Spider):
    name = 'tc'
    allowed_domains = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']
    start_urls = ['https://bj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91']

    def parse(self, response):
        # 字符串
        # content = response.text
        # 二进制数据
        # content = response.body
        # print('===========================')
        # print(content)
     # 获取列表中的第一元素
        span = response.xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0]
        print('=======================')
     #获取Seletor对象的data属性值 print(span.extract())
print(span)

scrapy获取58同城数据

运行爬虫文件 

scrapy_58tc\scrapy_58tc\spiders> scrapy crawl tc

print(span.extract())

scrapy获取58同城数据

上一篇:scrapy下载文件


下一篇:Python -- scrapy