基于OSS的EB级数据湖

背景

随着数据量的爆发式增长,数字化转型成为整个IT行业的热点,数据也开始需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,从而应对未来不断变化的需求。当前以oracle为代表的数据库中间件已经逐渐无法适应这样的需求,于是业界也不断的产生新的计算引擎,以便应对数据时代的到来。在此背景下,数据湖的概念被越来越多的人提起,希望能有一套系统在保留数据的原始信息情况下,又能快速对接多种不同的计算平台,从而在数据时代占的先机。

概述

什么是数据湖

数据湖(Data Lake)以集中式存储各种类型数据,包括:结构化、半结构化、非结构化数据。数据湖无需事先定义Schema,数据可以按照原始形态直接存储,覆盖多种类型的数据输入源。数据湖无缝对接多种计算分析平台,对Hadoop生态支持良好,存储在数据湖中的数据可以直接对其进行数据分析、处理、查询,通过对数据深入挖掘与分析,洞察数据中蕴含的价值。

基于OSS的EB级数据湖

数据湖的关键特征与价值

  • 海量数据存储:面向海量数据存储设计,完全独立于计算框架之外,无需额外的挂载操作,数据可直接访问,具备极大的灵活性和弹性能力,足以应对数据爆炸式发展,同时支持多层冗余能力,实现数据高可靠与高可用
  • 高效数据计算:丰富的数据存储类型和共享能力,支持存储结构化、半结构化、非结构化数据,同时可以适配多种不同的计算平台,避免数据孤岛与无效的数据拷贝
  • 安全数据管理:支持数据目录功能,智能化的管理海量的数据资产,通过精细化权限控制保障数据安全

基于OSS的数据湖存储

OSS介绍

阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。OSS具有与平台无关的RESTful API接口,您可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。

基于OSS构建数据湖存储

基于OSS的EB级数据湖

OSS在作为数据湖存储,充分满足数据湖的关键特性:

海量数据存储:

  • OSS采用分布式系统架构,扁平命名空间设计,支持无限制的存储规模,并且性能和容量可以随着系统扩展线性提升
  • OSS支持弹性扩容,容量自动扩展,不限制存储空间大小,用户可以根据所需存储量无限扩展存储空间,并只按照实际使用量收取费用,无需客户自己提前配置
  • OSS支持数据高可用,1)在同一地域内(region)采用多可用区(AZ)冗余机制以及跨地域的复制机制,避免单点故障导致数据丢失或无法访问;2)支持数据周期性校验,避免静默数据损坏;3)支持Object操作强一致性,写入Object的数据在返回成功响应后,立即可读;4)支持多版本能力,防止数据误删。整体OSS满足12个9的数据持久性以及995%的服务可用性

高效数据计算:

  • OSS提供RESTFul API,具有互联网可访问能力,用户可以随时随地立即存储或者访问数据,无需提前进行映射和挂载操作
  • OSS兼容开源Hadoop生态,且无缝对接阿里云多种不同的计算平台,使得数据无需拷贝即可被计算平台共享使用。同时针对部分计算平台优化特定操作,从而提升数据处理性能
  • OSS支持算子卸载能力,目前提供了Select语句支持,可以让用户从单个文件中仅读取需要的数据,从而提升数据获取效率

安全数据管理:

  • OSS支持数据生命周期管理,用户可以通过设置生命周期规则,将符合规则的数据自动删除或者转储到更低成本的存储中
  • OSS支持客户端和服务端两种数据加密能力,用户可以根据自身情况灵活选择加密方案,避免数据泄露
  • OSS通过WORM(Write Once Read Many)特性,支持数据保留合规,允许用户以“不可删除、不可篡改”方式保存和使用数据,符合美国证券交易委员会(SEC)和金融业监管局(FINRA)的合规要求(OSS已获得对应的合规认证)
  • OSS支持多种数据访问安全控制策略,实现针对bucket、object、role的长期或者临时授权,从而满足最小权限数据共享的安全策略

总结

综合以上内容,在未来面向海量数据的数据湖场景下,对象存储OSS非常适合企业构建海量、高效、安全的数据湖。


更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群
基于OSS的EB级数据湖

上一篇:我是如何在SQLServer中处理每天四亿三千万记录的


下一篇:阿里云 EMR 产品内部培训课程首次免费对外公开!