090实战 Hadoop离线项目介绍(不包括程序)

一:项目场景

1.需求分析

  根据用户行为数据进行程序的处理,得到结果保存到关系型数据库中
  需要收集用户(系统使用者)在不同客户端上产生的用户行为数据,最终保存到hdfs上
  需要明确收集字段的相关信息,而且需要考虑到后期的新需求的提出

  总:收集不同客户端的用户行为数据,通过mr、hive进行数据分析处理,将分析结果数据保存到关系型数据库中

2.场景一

  090实战 Hadoop离线项目介绍(不包括程序)

二:核心关注点

1.核心关注点

  购买率
    购买的人数/总人数 购买的人数/查看该商品的总人数
  复购率
    n次购买的人数 / n-1次购买的人数(n>=2)
  订单数量、订单金额、订单的类型
  成功订单数量、成功订单金额、成功订单的类型
  退款订单数量、退款订单金额、退款订单的类型
  访客/会员数量
  访客转会员的比率
  SEM效果(广告推广效果)
  网站内容相关的一个分析(网站的跳出率、页面的跳出率)

三:重要概念

1.访客

  标示访问网站指定用户、一般称为自然人

  区分PC,手机:

  )PC:

    采用IP地址区分访客。由于NAT、代理等等,面临一个问题:一个IP地址对应多个访客, 但是实现简单

    采用客户端种植cookie的方式,当用户第一次访问系统的时候,在客户端的cookie中保存一个唯一uuid标识符,将过期时间设置为10年

  )手机   

    采用设备的固定识别码,比如:IMEI、MEID.....
      如果设备是比较差的,或者进行过刷机操作,这些识别码可能会出现误差,多个设备对应一个识别码
     类似于pc端的种植cookie的方式,在用户第一次访问系统的时候,在磁盘中写入一个唯一标识符

  指标:

  )新增访客:第一次访问系统的访客数量
  )活跃访客数量:统计的是给定时间段内访问过系统的访客数量(老访客+新访客)
  )总访客数量:迄今为止,访问过系统的访客总数量
  )流失访客数量:上一个时间段内访问过系统,但是当前时间段内没有访问系统的访客数量
  )回流访客数量:上一个时间段内没有访问过系统,但是当前时间段内访问过系统的访客数量

2.会员

  指业务系统中注册用户、直接使用业务系统中会员标识符id来表示
  标示当访问者登录我们的系统后,就成为一个会员,但是此时该访问者还是访客
  统计指标:
   )新增会员:第一次登录系统的会员数量
  )活跃会员数量:统计的是给定时间段内登录过系统的会员数量(老会员+新会员)
  )总会员数量: 迄今为止,新增会员数量的总和
  )回流会员
  )流失会员
  )访客转会员比率
  )新增访客转会员的比率

3.会话(案例在下面

  用户进入到系统到离开系统这一段时间被成为会话,这段时间的会话时间长度就叫做会话长度,一个会话中的所有操作都属于同一个会话

  区分会话

  )PC端:
    采用浏览器的session机制(SessionStorage、Cookie Session)
    在cookie中存储一个操作时间,在操作的时候,进行判断时间是否过期,如果过期,产生一个新的会话,如果没有过期,更新操作时间
  )移动端:
    采用移动端的session机制
    类似pc端种植cookie的方式,在磁盘中写入一个时间进行判断

  指标:

    会话长度
    会话数量
    跳出会话的数量:在一个会话中,只访问过一次网站的会话数量

4.跳出率

  指标:  

  会话跳出率:跳出会话/总会话数量
  页面跳出率
    从该页面离开后,进入到其他页面的会话数量占进入该页面会话数量的百分比
      -1. 离开系统的会话数量 / 进入该页面的会话数量
      -2. 进入详情页面的会话数量 / 进入该页面的会话数量

5.外链

  不同外链带来的会话数量/访客数量/订单数量

6.pv

7.uv

8.独立IP

9.DEPth view

  访问深度,访问了多少页面
  统计的是各个不同访问深度中的访客/会话数量
  DV展示的是一个网站内容整体上对用户的吸引程度,结合跳出率,能够更改的修改网站内容,增加网站的黏性,增加网站的友好性

四:维度

  操作系统维度: 操作系统名称、操作系统版本
  语言维度:
  外链维度:百度、360、google等等
  支付方式维度:alipay、weixin、银行卡支付....
  货币类型维度:
  商铺维度
  版本维度: 比如v1, v2等等,一般用于多个版本之间进行数据比较(AB测试)

  以及:

  090实战 Hadoop离线项目介绍(不包括程序)

五:分析

  维度+核心点+重要概念

六:项目结构

1.整体

  )用户数据基本分析模块

  )浏览器分析模块

  )地域分析模块

  )外链分析模块

  )用户浏览深度分析模块

  )事件分析模块

  )订单分析模块

 090实战 Hadoop离线项目介绍(不包括程序)

2.用户基本数据

  090实战 Hadoop离线项目介绍(不包括程序)

3.浏览器分析

  090实战 Hadoop离线项目介绍(不包括程序)

4.地域分析

  090实战 Hadoop离线项目介绍(不包括程序)

5.用户深度分析

  090实战 Hadoop离线项目介绍(不包括程序)

6.外链分析

  090实战 Hadoop离线项目介绍(不包括程序)

7.订单分析

  090实战 Hadoop离线项目介绍(不包括程序)

8.事件分析

  090实战 Hadoop离线项目介绍(不包括程序)

 

  

  

上一篇:九度OnlineJudge之1017:还是畅通工程


下一篇:CSAPP学习笔记(第一,二章)