您为什么需要数据探查
数据探查能解决什么
您是否也有这样的困扰?
面对表格中一堆凌乱的数据,除了每一列的标题和类型之外,其它一无所知。。。
- 数据是否完整?是否有空白或空值?
- 数据是否唯一?有多少个不同的值?数据是否重复?
- 数据是否存在异常格式?数据格式的分布是什么?这些是您期望的格式吗?
- 数据存在哪些值范围,它们是预期值吗?给定数据的最大值,最小值和平均值是多少?这些是您期望的范围吗?
- 针对这票数据,您后续应该做怎样的处理,才能让他们发挥最大的价值?
都2020年了,难道还要被这些问题困扰吗?
当然不!
为解决这些问题,Dataworks数据分析系统提供了数据探查这个情报管家,目的就是帮用户一眼看穿当前数据的质量、结构、分布、统计信息。
同时,也帮助用户判断这票数据是否值得去做数据清洗,以及应该做一次性的可视化展示,还是值得做成报表以长期可视化展示。
所以,2020年,我们一定要充分用好这个小管家!
数据探查对大数据生态的价值
数据分析是一款数据快速洞察分析,数据编辑及数据可视化的平台,是Dataworks开发生态从数据集成 -> 数据开发 -> 数据服务 -> 数据分析->数据可视化这整个链路的重要组成部分。
数据探查又是数据分析平台完成数据预览、探查、加工、分析、可视化、分享等一整套数据处理生态链路不可或缺的一部分。
综上,若您能接触到数据,有了解自己数据情况的意愿,希望自己的数据发挥更大价值,那您就需要数据探查!
数据分析的数据探查是怎样的
功能简介
数据探查一般有以下3种方法,column profiling、cross-column profiling、cross-table profiling,我们采用了第一种方法,对每列数据进行类型和值分布的探查。
它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!
并且,整个数据探查过程在前端实现,具备Excel数据源的天然优点,不受odps任务慢的影响、自动支持各种数据引擎,给您更流畅的体验!
详细介绍
针对概览模式
目前,我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况。
- 针对字符串类型(string)和日期型(date):以富文本展示top2的值及其占比,同时给出其它值的占比;若值的种类超过50%,我们会展示唯一值总数。
- 针对数字型(integer/float):以分箱柱状图的形式,给出其数据范围分布情况。
- 针对布尔型(boolean):以饼图的形式展示其占比。
- 针对混合型(探查到含有2种或以上类型):以饼图的形式展示各值类型占比。提醒用户当前列存在脏数据,若是脏数据被订正之后,我们就会按照上述3种情况来展示值分布。
- 针对空值(null),我们会标红预警。
针对详细模式
详细模式是为用户提供的深度探查功能,可以查看数据的统计信息等。我们以弹窗的形式,智能展示每列数据的字段名、字段类型等探查结果。
- 针对字符串类型(string)和日期型(date):展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。
- 针对数字型(integer/float):展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、统计信息、以及直方图。
- 针对布尔型(boolean),其中字符型中的true/false、数字型中的0/1会被识别为布尔型:展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、以及饼图分布。
- 针对混合型:展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5,以及各数据类型占比的饼图。
打开方式
数据探查概览模式有2种打开方式:
(1)从DataStudio跳转过来直接展示探查结果;
(2)自助点击「数据探查」按钮展开探查结果。
注:数据探查不会影响excel中数据,探查完数据,点「关闭」按钮收起,即可继续使用excel ToolBar。
详细模式打开方式是从概览模式右上角【详细模式】进入。
关键点演示
(1)从DataStudio跳转过来打开;
(2)菜单栏点击数据探查按钮打开;
(3)智能图表推荐、编辑刷新;
(4)数据筛选、直方图动态分桶、多级下钻;
后续Action
- 优化数据统计分析能力,提供更加全面的数据统计信息,帮助您得到您最想要的信息。
- 针对您的反馈,进一步完善我们的数据探查。
尾声
知识点
数据探查是数据质量和数据决策非常重要的一个环节,也是决定最后数据正确性非常关键的一步!
精确的数据探查,可以帮助您更好地了解源数据的局限性、更好地进行数据清洗、更好地掌控开发时间表!
想要快速掌握您的数据情报,就来数据分析和我们一起探查吧!
希望您会喜欢我们的数据探查!如有意见建议,欢迎留言,也欢迎找我们分享或吐槽。感谢!