本节书摘来自华章社区《Tableau数据可视化实战》一书中的第1章,第1.2节连接文本文件,作者(美)Ashutosh Nandeshwar,更多章节内容可以访问云栖社区“华章社区”公众号查看
1.2 连接文本文件
第一次打开Tableau,可以看到有多种可供分析的数据源。Tableau提供两种样本数据源,Sample-Coffee Chain(Access)和Sample-Superstore Sales(Excel),如图1.1所示。
准备工作
从http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic/txt链接中下载titanic.txt,并保存到本地硬盘中。该样例文件里列举了乘坐泰坦尼克遇难的所有乘客(及其所有细节)的信息。
【下载示例代码】
可以在http://www.packpub.com网站中,你可以通过账户下载你所购买的Packet书的所有书中示例代码。如果你是从其他地方购得本书,可以访问http://www.packpub.com/support网站并注册,随后可直接获得相关内容的邮件。
实现步骤
下载样例文件后,在Tableau中执行如下步骤即可得到所需数据:
Step01 点击Connect to data(连接数据)链接,展开这个区域,如图1.2所示。
Step03 在供选择文件的对话框里找到并选择文本文件titanic.txt。
Step04 当Tableau加载数据时,需预先填一些选项。例如,字段分隔符、定界符以及标题行。本例中,字段分隔符是一个逗号并且第一行必有字段名称。然后,在图1.3所示的对话框里点击OK按钮(确认)。
Step05 Tableau提供了三个选项可以与文本文件数据进行交互,如图1.4所示。通过Connect live(实时连接)选项,我们可以使用文本文件本身的链接,并通过Import all data(导入所有数据)或者Import some data(导入部分数据)选项来导入Tableau原本格式的数据来加速分析。这个例子中,我们只使用Connect live(实时连接)选项来加载titanic.txt文件所有的1 313行数据。
如你所见,Tableau需要决定导入的文本文件字段的数据类型,然后分别落在Dimensions(维度)选项区域和Measures(度量)选项区域下。Tableau通过Microsoft Jet Database Engine driver(微软推出的Jet数据库引擎驱动程序)决定多种字段的数据类型。然而,由于驱动的局限性,一些本属于度量的字段误放在了维度下,反之亦然。如果字段在Measures(度量)选项区域下显示,但是包含0和1(“否”和“是”)的二进制逻辑判断,将该字段转换到Dimensions(维度)下是明智之举。为了实现这个操作,仅需要将字段拖到维度选项或者在字段上右击后选择Convert to Dimension(转换为维度)。
实现原理
我们使用文本文件作为数据源,通过Tableau的数据源选项连接到该文本文件。尽管Tableau在大多数情况下都可以准确地决定数据类型,但用户有时候也需要根据实际数据类型的需要来改变数据类型。在这个例子中,用户将包含二进制(0或1)的字段从Measures(度量)下的字段转化为Dimensions(维度)下的字段。
了解更多
由于微软的Jet数据库引擎所带来的局限性,通过访问在线知识库,Tableau将探讨如何解决关于数据类型错误的问题。用户可以在http://kb.Tableausoftware.com/articles/knowledgebase/jetincorrect-data-type-issues网站中了解更多信息。