今年五一放了四天假,很多人不再只是选择周边游,因为时间充裕,选择了稍微远一点的景区,甚至出国游。各个景点成了人山人海,拥挤的人群,甚至去卫生间都要排队半天,那一刻我突然有点理解灭霸的行为了。
今天,通过分析去哪儿网部分城市门票售卖情况,简单的分析一下哪些景点比较受欢迎。等下次假期可以做个参考。
用到的Python模块
BeautifulSoup
、requests
、pymongo
、pylab
方法
通过请求https://piao.qunar.com/ticket/list.htm?keyword=北京 ,获取北京地区热门景区信息,再通过BeautifulSoup去分析提取出我们需要的信息。
这里为了偷懒只爬取了前4页的景点信息,每页有15个景点。因为去哪儿并没有什么反爬措施,所以直接请求就可以了。
这里只是随机选择了13个热门城市:北京, 上海, 成都, 三亚, 广州, 重庆, 深圳, 西安, 杭州, 厦门, 武汉, 大连, 苏州。
并将爬取的数据存到了MongoDB
数据库 。
爬虫部分完整代码如下
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 |
|
效果图如下
有了数据,我们就可以分析出自己想要的东西了
最受欢迎的15个景区
由图可以看出,在选择的13个城市中,最热门的景区为上海的迪士尼乐园
代码如下
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
|