一文搞懂什么是数据湖(data lake)?

    data lake数据湖,最早由Pentaho的CTO,James Dixon发明。他在博客中这样描述数据湖:如果你把数据集市看作是一家售卖干净的、规整包装的、便于消费的瓶装水的商店,那么数据湖就是更自然状态下的一大片水域。数据湖的内容从一个源头流入,各类用户可以前来检查,探索或者取样。
    ![在这里插入图片描述](https://www.icode9.com/i/ll/?i=f84b74d9b18244ef8cd9953830407ae4.png?,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5rW36IulW01BVFJJWF0=,size_20,color_FFFFFF,t_70,g_se,x_16)
    数据湖最重要的特点有两个,第一个是自然,第二个是可以被各类用户使用。
    我们先讲何为自然,自然在这里指自然而然,未经处理,原始状态。就像一大片湖水一样,原生态。类比到数据,就是原生的数据,未经任何转换和加工。那么我们得到原汁原味的数据有什么意义那,传统的etl为什么不再适用新的业务场景。究其根本,是数据科学家对数据有了更高的需求。随着硬件的快速升级换代,机器学习以及深度学习技术,越来越多的被数据科学家使用。舌尖上的中国,讲高端的食材,不需要特殊的烹饪方法。在此,我们讲,高端的算法往往需要数据保留原始样子,这样数据科学家可以选择更多的特征去训练模型。多年前,我在参与一个人工智能项目时,就曾经因为数据生产出来后,清洗掉了一些关键特征,导致后来花了大量人力去重新让数据拥有那些特征。
    ![在这里插入图片描述](https://www.icode9.com/i/ll/?i=c424f9ad7a074af5a4e0180edce9cd41.png?,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5rW36IulW01BVFJJWF0=,size_20,color_FFFFFF,t_70,g_se,x_16)
    再讲被各类用户使用,数据湖拥有原始的数据和经过脱敏以及处理过的数据,这让不同的用户可以从数据湖活的想要的数据。数据分析师可以借助BI工具对简单处理的数据做快速的分析。数据科学家可以顺利的拿到原始数据,去做更高层级的加工分析,不会因为想要的数据被清洗掉了而无能为力。数据湖将被更多类型的用户使用,而不是仅仅服务于一两个web页面。

    总结一下,数据湖是原始数据以及处理过数据的有机集合体,且更强调原汁原味的数据,可以满足不同用户群体的自助使用需求。
上一篇:Excel生成随机数


下一篇:Lake Shore 8600振动样品磁强计更多信息