滴滴敏捷数据中台实践

作者: 滴滴首席工程师张茂森分享,大数据技术与架构整理 点击右侧关注,大数据开发领域最强公众号! 点击右侧关注,暴走大数据!


By  大数据技术与架构

场景描述:滴滴每天处理交通大数据超过4800TB,日均车辆定位数据超过150亿,每日处理路径规划请求400亿次,数据覆盖了交通路况、用户叫车信息、司机驾驶行为、车辆数据等多个维度。滴滴目前对15分钟后供需预测的准确度已经达到了85% 。

关键词:滴滴 数据中台

滴滴敏捷数据中台实践


滴滴每天处理交通大数据超过4800TB,日均车辆定位数据超过150亿,每日处理路径规划请求400亿次,数据覆盖了交通路况、用户叫车信息、司机驾驶行为、车辆数据等多个维度。滴滴目前对15分钟后供需预测的准确度已经达到了85% 。  

滴滴数据中台发展

业务发展驱动数据进化
滴滴数据中台建设围绕四个方面进行:
  • 业务信息化

  • 信息数据化

  • 数据资产化 

  • 资产变现化

并且解决不同的问题。

滴滴敏捷数据中台实践
中台数据体系建设的核心难点
产品方面: 多场景,全链路的复杂需求 业务方面多团队,多目标的协作需求
滴滴敏捷数据中台实践
滴滴精益数据管理体系 滴滴的数据中台从底向上构建了包括数据基础建设,敏捷数据资产,数据治理,数据交付体系。
滴滴敏捷数据中台实践

两年来的建设成果:
  • 数据基础设施+系统工具链:开始对外输出

  • 数据文化 150+次改进复盘,周活1700到5000+ 

  • 敏捷数据治理 DataRank资产分从40到70

  • 精益数据生产D0级事故从非例行任务从10+降为1

  • DataGraph智能数据目录20%员工高频使用

  • 价值交付 NPS从19%到60% 

 

滴滴数据系统构成

数据架构:
滴滴敏捷数据中台实践 滴滴的数据架构体系包含了当前大数据领域主流的技术:
离线部分以Hadoop和Hive为主,实时计算部分Flink,Spark OLAP领域使用了Hbase、Presto和Clickhouse。

智能数据目录
  • 统一的元数据检索能力,

  • 支持Hive、 报表等多种数据实体的统一搜索 

  • 基于数据价值或热度的综合排序 

  • 业务驱动的数据图谱

  • 众包协作的知识沉淀

滴滴敏捷数据中台实践滴滴敏捷数据中台实践
精益数据生产
  • 数据基础质量

  • 稳定性建设 

  • 数据上下游联动(全链路 SLA) 

  • 埋点管理 

  • 数据采集 

  • 运维/质量监控 

  • 90%复盘率

建立数据委员会,推进业务-运维-数据的 协同机制 一键埋点,用户行为轨迹全记录 数据采集秒级同步,准确性99.999% 数据链路全监控,自动定位关键节点。
如何定位需要的数据
  • 指标口径管理(数据字典)

  • 元数据(数据地图+OneSearch)

  • 资产价值评估体系(DataRank) 

  • 数据开放 

  • 数据安全规范

指标口径变动100%管控 所有元数据信息一键快速查询 精准评估每一张表的数据影响和价值 数据开放率99.04% 隐私数据全脱敏,完备的权限管控机制, 数据泄露0事故。
更快更简单的使用数据
  • 精细化建设

  • 分级保障

  • 数据图谱与数据中间层

  • 成本优化

  • 数据价值量化

核心数据5点产出(业内普遍7-8点),开发效率提升35% ,指导数据优化方向

标准化数据服务 滴滴敏捷数据中台实践实时数据集成服务
  • 采集集群总规模约300+ 

  • 数据源约4500+个

  • Agent 数量27000个 

  • 峰值摄入数据条数2900w/s

  • 日均查询2千万次

  • 平均响应时间<1S 

  • 稳定性99.996%

滴滴敏捷数据中台实践欢迎点赞+收藏+转发朋友圈素质三连

滴滴敏捷数据中台实践滴滴敏捷数据中台实践

文章不错?点个【在看】吧! ?

上一篇:Python-web开发验证码的制作


下一篇:2022考研计算机专业课操作系统学习视频网盘分享