基于阿里云平台的大数据教学案例 —— 北京购房推荐指南

一、实验题目

北京购房推荐指南

二、实验目的

通过数据集进行多维度分析,给出一定的结论,并有数据支撑

三、实验难点

分析维度与机器学习

四、实验过程(截图)
数据集介绍
URL,ID,经度,纬度,小区ID,交易时间,上市天数,关注人数,总价,每平米价格,面积,寝室,客厅,厨房,浴室,楼层,建筑类型,建楼时间,装修情况,建筑结构,梯户比,是否有电梯,是否满五年,是否临近地铁,地区,小区平均房价
1、在MaxCompute平台上建立数据表
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
2、导入数据
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南

3、建立维度表以便使用QuickBI展示:
数据预处理:
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南

建维度表:
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南

4、为机器学习PAI测试SQL语句
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南

5、QuickBI可视化展示
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
左上为观察数据集中,满5年的房屋数量,60%以上的数据为5年以上的房屋
右上为每个地区对房价的关注人数,可见朝阳地区对房价的关注人数最多(关注程度最高)
左下为地区对应房价的维度分析,可见西城和东城房价普遍偏高,房山房价偏低
右下为地区对应面积的维度分析,可见昌平/顺义的建房面积普遍较大
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
最上的表格表示了寝室数量和房价的对应关系(寝室数量越多房价越高)
左下展示了建筑类型和房价的对应关系,平方(四合院)平均房价最高,板楼平均房价最低
右下展示了住房面积和建筑类型的对应关系,板塔结合的类型住房面积最大。
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
上方表格显示了建筑结构和价格的对比,结果显示,砖木价格最贵,混合最便宜
左下展示了装修情况和面积的对比毛坯房面积最大,简装修面积最小
右下展示了建楼时间与面积的对应关系,可见1944年平均建楼面积最大,之后一直呈现下降趋势

6、机器学习PAI
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
预测通过给价钱分级,大于等于100,小于等于350的记为-1,大于等于350,小于等于750的记为0,其余的记为1使用逻辑回归算法,进行预测,本部分进行预测的是根据Livingroom的数量/装修情况/建楼时间//建筑面积/上市时间和关注人数预测这个房子的价格分级。

混淆矩阵
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
准确率/精确率
基于阿里云平台的大数据教学案例 —— 北京购房推荐指南
本部分使用了朴素贝叶斯/随机森林等算法模型,评分不是很理想,最终决定使用逻辑回归算法进行建模。

推荐结论:

若想找专业人士询问关于房子的相关问题,建议找朝阳人;
如果不在意地点的情况下,房山为房价最低的地区
如果对建筑面积有所需求,喜欢住面积大的房子,可以去昌平/顺义买房
板楼的住房面积位于第二大,同时板楼也是房价最低的楼型。
混合材料建筑价格最低,砖木建筑价格最高,可根据自身情况选择建筑材料。

上一篇:全程记录 Server Core 上部署 II7 + PHP FastCGI + MySQL


下一篇:基于阿里云平台的大数据教学案例 —— B站弹幕数据分析