我们咨询界的前辈杰弗里摩尔在上世纪就说过:“离开大数据分析的企业又聋又瞎,就像误入高速的麋鹿,在发展路上迷失了方向”。早在2005年,《市场研究杂志》(Journal of Marketing Research)就提出了RFM和CLV模型,其中RFM所代表的Recency(最近一次消费)、Frequency(消费频率)和Monetary(消费金额)至今仍被广泛认为是客户数据分析最好的指标。
在这之前,市场分析人员总是拍脑袋来创建客户分类,比如根据消费偏好,购买力等,但这会带来两个问题,首先是时效性问题,我们不清楚什么时候之前的分类结果需要刷新;其次是完整性问题,如果客户无法落入之前的任何一个分类中需要如何处理,重构数据模型的代价是巨大的。
尽管市场法则遵循二八定律,20%的核心客户可以不问缘由地为你的商品买单,但是对于RFM分类后的其他客户,就算他们目前没有贡献多大利润,为了避免他们快速成为竞争对手的核心客户,任何企业都会想办法争取一下。
根据RFM分类,针对不同的客群需要匹配不同的营销策略,譬如价格敏感用户,他们对商品打折更感兴趣,可以通过提高订单净值(AOV),例如买二送一来获取更大利益;再譬如潜在忠实用户,可以对其扩大品牌宣传,施以影响力来打动用户。
咱们既然是个技术公众号,那就必须要聊点干货,我们知道数据科学家60%-90%的时间在做数据清洗工作,因此在对于客户数据的学习建模也可以大致分为以下五个步骤:
- 发现客户相关数据:包括行为数据和统计数据,有时候我们单看行为数据往往不能洞察客户的真实购买力(需要结合统计数据中的收入),融合这两类数据才能更好地分析出客户的特征。
- 关联、过滤、转置并清洗数据:这就是前面说的数据科学家最头痛的一步,在一堆海量数据中提取特征,然后归一化以便之后的算法模型可以运算分析。
- 数据汇总:将特种工程、归一化后的数据导入到数据开发环境。
- 分析数据:建立匹配业务场景的数据模型,对历史数据进行学习,调整模型参数。
- 行为观测:在现实环境中对模型持续优化。
完成上述五项工程后,我们最终获得了客户画像,这是一幅没有“画像”的画像,包括个人消费倾向、性格特点、兴趣爱好等等。这类评价大多是可量化的,例如外向型、消费冲动型都会用相应的分值表示。
以人们喜欢的借阅DVD为例,举这个例子是因为Github上有现成的样例数据库(https://github.com/priyank-purohit/PostGUI),样例包含了不同人群的类型偏好、单次借阅量和开销等信息。以下是这个样例数据库的ER图。
在配置环境变量阶段,我们加载两个通用的评分模型:CH评分和Silhouette评分。两者都是基于K邻域算法
然后针对上面所提到的归一化,我们需要将所有字符串类型的转换为数值型,例如区域需要将原来的主数据转换成元数据,比如将原先的居住城市(北京、上海、东京、伦敦等)转换为新的属性字段(“是否居住在北京?”,“是否居住在上海?”,“是否居住在东京?”,“是否居住在伦敦?”等),而用1和0表示目标用户是否住在此。
凭借对不同维度数据的加总统计,我们可以获得每个用户借阅量的信息。
以及每个用户最爱的DVD名和分类
结合单片的价格,以及对群体样本的统计分析,可以得出客户消费周期的价值总览。
红框圈出的部分就是为公司创造80%价值的核心/VIP客户,如何服务好这个人群,使其价值最大化无疑需要继续深度个性化,回到他们每个人的样本进行研究分析,而其他用户可能并不值得公司进行1对1服务,群组定制化就足够了。
群体统计有好多种分类算法,除了上面说到的K邻域算法外,还有聚合分群(Agglomerative Clustering)和聚类分群(Birch Clustering)。
基于上述分类,当有新样本入库时,我们可以为新样本分群的置信度进行打分,以Silhouette评分为例,我们可以看到这个分类算法对于新样本的类别划分的可行度并不高(Silhouette分数越高越可信),可能都处在现有群族的交界位置,因此我们可能需要重新考虑适用的分类算法。
最后,从实际操作上来讲,任何一个标签都需要赋予一个业务加权值。例如我们可能认为用户是否是本国居民对于他喜欢哪类DVD没有太大影响,相反用户有多少空闲时间会影响他对DVD的偏好。
最后的最后,客户对于营销方式可能也是有偏好的,比如有些客户喜欢图文推送,有些客户喜欢电话交流,这也是在后期具体操作的时候需要考量的因素。