数据可视化的开源方案: Superset vs Redash vs Metabase (一)(转)

2021-10-27 21:27:34

人是视觉动物，要用数据把一个故事讲活，图表是必不可少的。如果你经常看到做数据分析同事，在SQL客户端里执行完查询，把结果复制/粘贴到Excel里再做成图表，那说明你的公司缺少一个可靠的数据可视化平台。数据可视化是Business Intelligence(简称BI)中的核心功能，有许多成熟的商用解决方案，如老牌的Tableau, Qilk，新生代的Looker，国内的FineBI等等。不过对于许多小公司来说，这些服务的License费用是一笔不小的开销，且有一种“杀鸡用牛刀”的感觉。那在开源软件如此发达的今天，在数据可视化方面，有什么靠谱的方案可以选择呢？今天给大家介绍三个比较知名的项目，分别是Superset, Redash和Metabase。前两个我都在产生环境中实际使用过，在本文中会重点介绍。Metabase我只是试玩了一下，但我觉得这是一个非常有想法的项目，所以也会和大家聊聊我对它的看法。

选择一个称手的工具，功能上能满足我的需求肯定是首要的。就先从功能需求讲起，我们的数据仓库用的是Amazon Redshift（如果你没听过Redshift，就把它看作是为大数据优化过的PostgreSQL），所以大部分的实际用例都是要将一个SQL查询的结果可视化。我们所需的图表类型也就是常用的那几种，包括折线图，柱形图，饼图等。有了图表之后，接下去就是把相关的图表排版，生成报表页面（Dashboard）。从数据安全性角度，我不希望每个员工都能*访问所有的Dashboard，所以每个Dashboard需要设置不同的访问级别。另外，我会看重它是否有REST API，能否通过API来创建与管理报表，这部分我们放在以后的文章中再讲。

除了满足功能性需求，易用性与文档在评判一个工具时也是非常重要的。谁不想要一个简单好用，文档清晰的产品呢？

下面我们就从功能性、易用性与文档等方面，来看看这三个开源项目的实际表现吧

Superset

Superset最初是由Airbnb的数据团队开源的，目前已进入Apache Incubator，算是明星级的开源项目。老实讲，我也是被Airbnb与Apache两块金字招牌吸引才入了坑。目前公司绝大部分报表都在Superset上，大大小小有50个Dashboard，包含了近900个图表。在使用Superset之前我们用的是Looker(很不错的商用BI工具，可惜太贵)，一年半前把Looker上所有的Dashboard迁移到Superset上，整个过程也很顺利。用了一年多，虽然在不少小地方有些不满意，但总体来说Superset很好地满足了公司现阶段在数据可视化与业务报表方面的需求。

当你把一个数据库连接到Superset上以后，你定义你要用的每一张表。Superset里表的定义不但包括字段，还需要定义指标（Metric）。指标是对字段的某种统计结果，比如字段上值的求和、平均值、最大值、最小值等。是不是有点糊涂了？但请回想一下，BI工具通常是用来做商业分析的。假想一个电商数据库，虽然在数据表我们存储每笔订单的交易额，但在商业分析时上我们不关心单笔交易，我们关心的可能是一个时间段内的总交额，或是平均交易额。当你画交易月报表时，你不会把每笔交易画在图上，而是把每天的总交易额用一个柱形在图上表示。这就是为什么Superset要引入“指标”这个概念。

对于数据分析人员来说，由于在Superset上他们不是直接写SQL，而是通过选择指标（Metric）, 分组条件（Group）和过滤条件（Filter）来画图表，所以在构建复杂查询时可能会有些不适应。另一个难题是Superset里的表不支持join，如果一个图表里的数据要从多个数据表里取，那只能通过建视图来实现。Superset在0.11版本之后加入SQL Lab功能，支持从SQL查询结果直接生成图表。可惜，由于这个功能与Superset的核心设计格格不入，所以实现得比较差，没什么实用价值。

客观地讲，Superset里引入自己的表与指标的概念，在逻辑上是合理的，在统一各种异型的数据源时也是必要的。但实际操作中仍会让人觉得有些麻烦，不够直接了当。

Superset在可视化方面做得很出色，不但是开源领域中的佼佼者，也把很多商用BI工具甩在身后。在0.20版本中支持的图表类型已经达到了36种，而且在选择图表类型时，你可以看到每一种图表的缩略图，下面这张截图大家可以感受一下

数据可视化的开源方案: Superset vs Redash vs Metabase (一)(转)

原文：https://www.cnblogs.com/lshan/p/14440186.html

码农公寓

相关文章