小白学 Python 爬虫（26）：为啥上海二手房你都买不起

2022-08-03 22:13:50

人生苦短，我用 Python

前文传送门：

小白学 Python 爬虫（1）：开篇

小白学 Python 爬虫（2）：前置准备（一）基本类库的安装

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门

小白学 Python 爬虫（4）：前置准备（三）Docker基础入门

小白学 Python 爬虫（5）：前置准备（四）数据库基础

小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装

小白学 Python 爬虫（7）：HTTP 基础

小白学 Python 爬虫（8）：网页基础

小白学 Python 爬虫（9）：爬虫基础

小白学 Python 爬虫（10）：Session 和 Cookies

小白学 Python 爬虫（11）：urllib 基础使用（一）

小白学 Python 爬虫（12）：urllib 基础使用（二）

小白学 Python 爬虫（13）：urllib 基础使用（三）

小白学 Python 爬虫（14）：urllib 基础使用（四）

小白学 Python 爬虫（15）：urllib 基础使用（五）

小白学 Python 爬虫（16）：urllib 实战之爬取妹子图

小白学 Python 爬虫（17）：Requests 基础使用

小白学 Python 爬虫（18）：Requests 进阶操作

小白学 Python 爬虫（19）：Xpath 基操

小白学 Python 爬虫（20）：Xpath 进阶

小白学 Python 爬虫（21）：解析库 Beautiful Soup（上）

小白学 Python 爬虫（22）：解析库 Beautiful Soup（下）

小白学 Python 爬虫（23）：解析库 pyquery 入门

小白学 Python 爬虫（24）：2019 豆瓣电影排行

小白学 Python 爬虫（25）：爬取股票信息

引言

看到题目肯定有同学会问，为啥不包含新房，emmmmmmmmmmm

说出来都是血泪史啊。。。

小编已经哭晕在厕所，那位同学赶紧醒醒，太阳还没下山呢。

别看不起二手房，说的好像大家都买得起一样。

分析

淡不多扯，先进入正题，目标页面的链接小编已经找好了：https://sh.lianjia.com/ershoufang/pg1/ 。

房源数量还是蛮多的么，今年正题房产行业不景气，据说房价都不高。

小编其实是有目的的，毕竟也来上海五年多了，万一真的爬出来的数据看到有合适，对吧，顺便也能帮大家探个路。

首先还是分析页面的链接信息，其实已经很明显了，在链接最后一栏有一个 pg1 ，小编猜应该是 page1 的意思，不信换成 pg2 试试看，很显然的么。

随便打开一个房屋页面进到内层页面，看下数据：

数据还是很全面的嘛，那详细数据就从这里取了。

顺便再看下详情页的链接：https://sh.lianjia.com/ershoufang/107102012982.html 。

这个编号从哪里来？

小编敢保证在外层列表页的 DOM 结构里肯定能找到。

这就叫老司机的直觉，秀不秀就完了。

撸代码

思想还是老思想，先将外层列表页的数据构建一个列表，然后通过循环那个列表爬取详情页，将获取到的数据写入 Mysql 中。

本篇所使用到的请求库和解析库还是 Requests 和 pyquery 。

别问为啥，问就是小编喜欢。

因为简单。

还是先定义一个爬取外层房源列表的方法：

def get_outer_list(maxNum):

    list = []

    for i in range(1, maxNum + 1):

        url = 'https://sh.lianjia.com/ershoufang/pg' + str(i)

        print('正在爬取的链接为： %s' %url)

        response = requests.get(url, headers=headers)

        print('正在获取第 %d 页房源' % i)

        doc = PyQuery(response.text)

        num = 0

        for item in doc('.sellListContent li').items():

            num += 1

            list.append(item.attr('data-lj_action_housedel_id'))

        print('当前页面房源共 %d 套' %num)

    return list

这里先获取房源的那个 id 编号列表，方便我们下一步进行连接的拼接，这里的传入参数是最大页数，只要不超过实际页数即可，目前最大页数是 100 页，这里最大也只能传入 100 。

房源列表获取到以后，接着就是要获取房源的详细信息，这次的信息量有点大，解析起来稍有费劲儿：

def get_inner_info(list):

    for i in list:

        try:

            response = requests.get('https://sh.lianjia.com/ershoufang/' + str(i) + '.html', headers=headers)

            doc = PyQuery(response.text)

            # 基本属性解析

            base_li_item = doc('.base .content ul li').remove('.label').items()

            base_li_list = []

            for item in base_li_item:

                base_li_list.append(item.text())

            # 交易属性解析

            transaction_li_item = doc('.transaction .content ul li').items()

            transaction_li_list = []

            for item in transaction_li_item:

                transaction_li_list.append(item.children().not_('.label').text())

            insert_data = {

                "id": i,

                "danjia": doc('.unitPriceValue').remove('i').text(),

                "zongjia": doc('.price .total').text() + '万',

                "quyu": doc('.areaName .info').text(),

                "xiaoqu": doc('.communityName .info').text(),

                "huxing": base_li_list[0],

                "louceng": base_li_list[1],

                "jianmian": base_li_list[2],

                "jiegou": base_li_list[3],

                "taoneimianji": base_li_list[4],

                "jianzhuleixing": base_li_list[5],

                "chaoxiang": base_li_list[6],

                "jianzhujiegou": base_li_list[7],

                "zhuangxiu": base_li_list[8],

                "tihubili": base_li_list[9],

                "dianti": base_li_list[10],

                "chanquan": base_li_list[11],

                "guapaishijian": transaction_li_list[0],

                "jiaoyiquanshu": transaction_li_list[1],

                "shangcijiaoyi": transaction_li_list[2],

                "fangwuyongtu": transaction_li_list[3],

                "fangwunianxian": transaction_li_list[4],

                "chanquansuoshu": transaction_li_list[5],

                "diyaxinxi": transaction_li_list[6]

            }

            cursor.execute(sql_insert, insert_data)

            conn.commit()

            print(i, '：写入完成')

        except:

            print(i, '：写入异常')

            continue