一、数据描述
1、数据字段及解释
order_id:订单号id
quantity:数量
item_name:商品名称
choice_description:订单备注
item_price:商品价格
2、导入数据
二、提出问题
1、猜想订单备注信息或许与收入有关系
2、猜想订单数量或许与商品价格有关系
三、数据清洗和预处理
1、查找查看不同item的购买数量
2、不同item出现的次数统计
3、对price进行处理
4、增加“sub_total”列,查看每笔订单的总金额
5、对异常值,进行删除处理
四、数据可视化
1、绘制整体“description_len”与"sub_total"的关系
2、通过聚类方法进行分组,选取方法:KMeans, DBSCAN, MeanShift, AgglomerativeClustering, OPTICS
五、总结
如果从用户消费习惯分类,可以将理想分类模型先用tableau进行模拟,分类规则制定的思想:
1、description 较长,但订单总价不高,大体处于订单总价中最低档,用户价值较低,但用户参与度较高,可以推送促销、打折商品,对价格敏感度高
2、description 较短,并且订单总价较为集中,大体仍处于订单总价中最低档。用户价值较低,且用户参与度不高,可以推送促销、打折商品,对价格敏感度高
3、description 较长,订单总价大体处于订单总价中中等档。用户价值较高,且参与度较高。可以推送价格适中的商品,或促销打折的大牌商品
4、description 较长,订单总价大体处于订单总价中最高档,较为分散。用户价值很高,参与度较为分散,可以推送大牌潮牌等商品