导入数据源
与各类数据源建立连接关系,是使用tableau探索分析数据的第一步,本节内容包括:
- 数据源类型
- 连接数据源
数据源类型
打开tableau,可以在左侧窗口看到连接选项,目前tableau可以连接70多种数据源类型,这些数据源大体可以分为两类,分别是本地数据源和服务器数据源。
“数据源”:数据的来源,包括文件、数据库、服务器等。
tableau支持的本地数据源包括Excel、txt、csv、json等各类常见的源数据格式,还支持多种空间文件, 为使用地图分析提供了条件。
tableau支持的服务器数据源包括各类数据库(如Mysql、Oracle、MongoDB)、在线数据服务(如google analtics)等,可以根据使用需要,与目标服务器数据源建立连接关系,实时或提取数据进行分析。
连接数据源
tableau自带的超市示例的字段比较多,刚开始学习tableau的时候,会有一种眼花缭乱、不知从何下手的感觉。因此,在此专门构造了一个数据集demo,以便于更直观的学习数据连接操作。该数据集demo为EXCEL工作簿,包含有“书籍”和“作者”两张数据表单,其中“书籍”数据表包括书名、作者、作者ID、出版社4个字段,“作者”数据表包括作者、作者ID、国籍3个字段。
通过EXCEL导入数据集
操作步骤:
- 打开tableau,在左侧连接窗口点击“Excel”;
- 在文件对话框找到准备导入的数据集。
根据操作步骤,找到并打开需要导入的excel工作薄后,即可进入数据源管理页面。该页面分为四个功能区,分别是画布区、数据区、数据源区、工作表区,可以对导入的数据源进行各种管理操作,如连接多个数据源、确定数据源之间的连接方式、修改字段名、隐藏字段、调整字段属性等。
- 数据源区:导入的数据源连接,可以是一个数据源,也可以是多个数据源。
- 工作表区:对应每一个数据源的工作表,每个工作表都是一个数据表单。
- 画布区:对某个工作表或多个工作表彼此间关系进行联接等操作的区域,比如选择数据提取方式(实时、提取)、确定多个工作表的连接方式(如内连接、外连接)等。
- 数据网格区:对各个工作表的数据表单进行展现、操作的区域,可以查看及重命名字段名称、更换字段类型(如字符串、数字、日期)、创建计算等。
通过MySQL导入数据集
为测试tableau与MySQL的连接及数据导入,首先在本地MySQL数据库建立名为book的数据库demo,里面有一个“书籍2”数据表,该表包含书名、作者、作者ID、出版社4个字段。
操作步骤:
- 打开tableau,在左侧连接窗口点击“MySQL”;
- 在弹出的对话框填写MySQL服务器的地址、端口、用户名和密码,均正确无误后即可进入数据源页面。
完成对MySQL数据库数据的导入后,即进入数据源管理页面,该页面与Excel方式导入的数据源管理页面完全一致,只是在数据源区的连接位置显示了“MySQL”,表明该数据源的类型。
通过剪贴板导入数据集
在tableau中导入数据还有更简单的方式,即通过复制粘贴操作直接一步导入数据集。
导入步骤:
- 在数据源选择好目标数据,并进行复制操作(Ctrl+C );
- 打开tableau,在连接窗口进行粘贴操作(Ctrl+V );
- 数据导入成功,tableau跳转到数据源页面。
通过粘贴复制数据的数据源管理页面与其他方式导入的数据源管理页面完全一致,只是在数据源区的连接位置显示了“文本文件”,表明该数据源的类型。需要注意的是,通过复制粘贴数据进入到数据源页面后,在数据源区可能出现“使用数据解释器”的选择项,如此次操作就出现了该选择项,需要检查是否对其进行勾选。
数据解释器:tableau通过数据解释器自动对数据源的附加表、子表、分层页眉、无关的页眉和页脚,或者空白行和列进行检测,移除无关信息并优化准备用于分析的数据源。通常,在设置数据源之后,如果 tableau 检测到数据源存在如上问题,则会提示使用数据解释器。
个人理解,数据解释器就是tableau认为我们数据源中的数据存在这样或那样的问题,不适合开展数据分析,或者会影响分析的结果。为避免这些问题的出现,tableau就根据预设的一套规则,对导入的数据源进行优化。但优化的结果可能符合预期,也可能不符合预期,需要我们对其进行检测后,再确定是否要勾选启用数据解释器。
此次复制粘贴数据后出现数据解释器,表明tableau认为导入的数据可能存在问题,因此需要勾选“数据解释器” 看它自动优化的结果是否符合预期。 通过勾选,可以看到tableau将数据集中的三个字段标题复制到了数据表中,这样的处理结果不符合预期,因此针对该数据集,可以使用数据解释器,即取消勾选项。