使用 Tableau Prep 整理数据的最佳做法

生成、捕获和存储数据时,数据可能会采用各种令人眼花缭乱的结构,但对于分析而言,并非所有数据格式都是有效的。

数据准备是清理混乱数据、重构不规范数据及合并多个数据集以供分析的过程。它涉及转换行和列等数据结构,以及清理数据类型和值等内容。数据准备过程的速度和效率直接影响发现见解所花费的时间。了解要分析的数据范围、看到对数据的更改,可以加快整个流程。

全面考虑数据

开始之前,请务必思考人们会如何使用您准备的数据。了解这一上下文可帮助您确定要使用的数据集、放入数据准备工具的数据量以及最终构造和组织数据的方式。开始之前,您需要回答一些基本问题:

01

哪些人会进行分析?

思考最终数据集的最终用户。例如,您是将要全面访问和彻底理解数据以便进行深入分析的唯一用户吗?还是数据集会由担任另一角色的人使用,例如需要根据已选择和指定的指标了解特定活动执行效果的营销经理?如果答案是后者,那么您可能要缩减数据集内容,只留下相关度量值。

也可能某个数据表中有产品代码,而营销经理却需要知道产品名称。在这种情况下,需要联接数据表和事实表,以获取相关信息。在准备数据阶段,考虑受众非常重要,这与创建仪表板时类似。

02

需要提出或回答什么类型的问题?

在数据准备过程中,务必了解人们将如何使用最终数据集 - 是用于复杂分析还是用于快速总结。这个细节会显著影响数据准备过程,决定数据准备的工作量和详细程度。

通常可以根据自己对战略业务优先级的了解,预测人们会提出的最常见的数据问题,但很可能会出现意料之外的问题。准备数据集时,需在服务于即时问题和允许进一步探索之间保持平衡。例如,某人可以看到过去六个月的销售趋势,但若要深入挖掘某一周的销售激增情况,则需要进行更深入的分析并查看每天的具体数据。

03

数据存储在哪里?

考虑这个问题时,需留意一些基本的注意事项。例如,您是否具备适当的权限来访问给定数据源?数据源是否组织得井然有序?换句话说,当您将它放入 Tableau 时,您是否可以执行所需的分析?甚至在开始准备过程之前,就需要解决这些问题。

若要深入了解如何在 Tableau Desktop 中组织数据以供分析,请访问在线帮助页面

获得必要数据的访问权限后,您需要确定其存储位置。问问自己:是将数据存储在单个表中还是存储在单个数据库的多个表中?您可能需要合并多个数据库才能找到问题的根源,而如果您需要功能更强大的视图,还可能需要引入外部数据源。例如,要分析您所在地区的学生考试成绩并了解社会经济状况所发挥的作用,就要整合人口普查数据。通常需要拉取外部数据源,才能了解完整的情况。

了解数据的基本结构

现在您已了解数据的用途、使用者以及存储位置,但您还需了解数据的构造方式。如果您事先不知道承重墙的位置,那您永远无法进行房屋改造。同样,如果您不了解字段间的依赖或关联情况、数据的输入方式(即手动或自动)或详细级别,就没法开始数据准备。了解数据结构后,您可以先制定蓝图,然后再进入数据准备过程。

01

清楚眼前的内容

在将数据放入数据准备工具之前,请务必了解您将要处理的内容;您需知道眼前是整个数据集还是只有一个子集。在开始清理之前,您可能还需要进行一些数据探索。

02

调整样本大小

连接到大型数据集时,可能需要将其限制为数据样本,以提高数据准备过程的速度并优化性能。有时,您可能希望查看完整的数据集。使用 Tableau Prep,可以实现以上两种操作。如果样本无法帮助您解决数据准备任务,可尝试以下操作:

  • 增加数据的样本大小。返回输入步骤并调整样本的行数。您可以增加行数或包含所有数据,但请注意,这可能会导致性能下降。另一点需要注意的是,如果使用固定行数,将按基础数据库用作最快返回请求行的标准返回内容(比如,返回结果不一定是数据库中的前 1,000 行)。
  • 使用随机抽样。默认情况下,Tableau Prep 将根据数据集中的字段总数和这些字段的数据类型来计算返回的最佳行数。随机采样在数据库级别进行,并会返回请求的行数。数据库会查看每一行并返回样本。此选项并非适用于所有数据源,还可能会影响性能。
  • 添加输入步骤筛选器。通过在输入步骤添加筛选器,可确保拉入数据集的数据与分析相关。这可为您提供更具代表性的样本,同时还有助于提升性能。
03

探索您的数据

首先,可查看给定字段中值的特定数量。在下面的示例中,快速浏览列标题顶部可看到数据集中所显示州的数量。还要了解不同值之间的关系,以便发现数据异常值或问题。在 Tableau Prep 中,您可以使用突出显示来探索字段之间的关系。点击配置窗格中的值可缩小数据网格视图,显示指示字段中包含这些值的记录。Tableau Prep 会突出显示各个字段的值,并将相关值标注为蓝色。

蓝色显示所选值与其他字段中的值之间的关系分布情况。

04

删除不必要的数据

若要优化数据准备过程的整体性能,请仅在 Tableau Prep 中放入分析所需的字段。

假设您要准备的数据集需代表贵公司的销售和产品数据。您知道您稍后将在 Tableau 中使用此数据集,以分析该年度的销售业绩。在这种情况下,您可能不需要在数据集中包含每个产品的发货日期详细信息,因为它与销售情况或客户购买该产品的原因并无太大关系。此数据仅指示产品何时离开仓库,因此您可以将其从数据源中删除。在准备阶段的任何时间点,如果您认为不再需要某字段,只需在流程中将其删除即可。

提示:在准备过程中,您还可以开始拆分字段,将其拆分为多个列。您可能不需要刚才拆分的原始列,因此可以将其删除。

筛选数据还可节省数据准备过程的时间,并能确保执行正确的分析。例如,如果您知道只需查看最近两年的销售数据,则可使用范围或相对日期筛选器对日期字段进行筛选,仅显示该时间范围的数据。此外,还可能存不相关或不正确的数据,这些数据也需要删除。只需在数据窗格中点击值并将其排除即可。此操作可在流程中的任何时刻完成。

05

审阅和清理

在 Tableau 中,分析会受到数据类型的影响,因此在进行深入分析前请务必正确标识每个字段。虽然可以在 Tableau 中编辑别名、更改数据类型、拆分字段和编写计算,但在前期执行这些操作会更加容易,尤其是在为其他人创建数据集时。

了解每个字段的数据质量至关重要。例如,从调查中收集的电话号码可能有多种格式,如果此类数据来自全球不同人群,则情况更是如此。为了一致性而手动检查数千甚至数百万唯一值,通常非常乏味且容易出错。对于创建更整洁的数据集而言,识别模式并批量更新数据有着重大意义。使用 Tableau Prep 的内置功能(如可用于删除标点符号、数字、字母或修饰空格的快速清理步骤),您可以进行这些更改,从而节省时间和精力。

例如,如果州字段出现“加利福尼亚州”和“CA”,而其余值均为完整的州名称,那么您可直接更改值,这样,“加利福尼亚州”的记录便会包括“CA”的实例。

您可能还会注意到数据大部分都是正确的,但偶尔也会有例外。Tableau Prep 非常智能。它利用算法来完成一些繁重的工作,从而帮助建立标准的数据值。也许您有一列数据,客户在其中输入了他们来自的城市的名称。快速滚动浏览该列后,您发现阿尔布开克市的名称存在几处拼写错误。Tableau Prep 的内置功能会根据常用字符或发音进行分组和替换,而无需您手动更新每一处错误。这些选项使用算法来简化清理过程,因此您不必自己手动操作。或者,如果您预计缺少某一个值,则可手动添加该值,然后在流程中运行整个数据集时将其合并到数据集中。如果您知道需清理或筛选某个字段,但需要用户界面中未显示的功能,可使用计算

06

了解数据的最终输出

开始准备数据时,确定最终数据集的构造是一个棘手的问题。您可能需要将多个数据源合并在一起,或将数据从列转换为行,以便 Tableau 可以对它进行适当计算。

克服这项挑战的一种方法是,设想 Tableau Desktop 中数据窗格的外观应该是什么样子。是否存在多个具有相同值的列?是应让特定产品自成一列,并在下方列出销售交易数据,还是应该将每个产品放在单个字段中,并将销售数据放在单独的列中?后者很可能是更好的选择,这时就应该使用数据透视表

如果您需要合并两个表,则要对数据建立联接或并集。联接允许您向数据源添加更多字段,从而扩展可分析的字段数量。虽然可以在数据准备流程中的任何时候添加联接,但是越早应用,就能越早了解数据集并发现需要立即关注的方面。

同样,通过并集也可将两个数据集附加在一起。例如,您有一个 Excel 文件,其中每张工作表显示了不同年份的交易信息。不使用联合,而使用并集,可保留相同的结构,只是会增加行数。

对两个表建立联接或并集时,需考虑详细级别。要将它们适当合并在一起,可能需要更改详细级别。如果出现问题,请尝试聚合它们。

跟踪各个步骤

如果您需要重新访问准备过程中的某个步骤并进行更改,那么在整个准备过程中保持有条不紊至关重要。虽然您无需遵循一系列特定说明来清理数据(而应采用适合自己的方式来准备数据),但是如果知道自己对哪些内容进行了更改,就能更轻松地编辑和更新数据准备过程。

01
按照您的思路进行准备

从重整结构到重设格式再到清理,数据准备包含多个不同的组成部分,您不应局限于特定的顺序。借助 Tableau Prep,您可以按照自己的思路对数据进行更改和更新。有人可能会先透视数据,还有人可能会先清理拼写错误或缺失的数据。

02

把每一步分隔开

为一组特定操作创建新的步骤,使流程保持清晰简洁。将各个步骤想象成文件柜中的文件夹 - 按主题整理文件,从而更轻松地找到所需内容。同样,流程中的步骤应将执行某一特定任务的更改工作分为一组。例如,清理客户名称可能涉及拆分字段、重新映射一些值,以及在其他字段上应用筛选器以便为数据源输出获得正确的客户细分。将这些操作划分在同一步骤中后,您可以添加描述性名称,帮助您以后理解该流程。这不仅对您有所帮助,而且如果您与其他分析师共享该流程,它还可以让这些分析师找到并引用相同操作,方便他们轻松进行任何编辑。

跟踪任何给定步骤中发生的情况非常简单。如果您后悔执行了某项操作,可在更改窗格中快速删除或编辑该操作。

自始至终进行抽样检查

在清理和更改数据时,了解对数据产生的影响非常重要。您绝不希望在耗费大量时间精力执行此过程后,却发现只是联接了两个错误的字段。这会让您回到了解数据的阶段。如果您非常了解数据状况,抽样检查就更容易识别何时出现了错误。

01

使用可视化反馈

如果在开始分析之前可以了解数据相关性(如联接后数据集中的行数,或拼写问题等错误),那么数据准备就会容易得多。像 Tableau Desktop 一样,Tableau Prep 的构建也秉承着我们的使命:帮助人们查看并理解数据。



数据网格

在 Tableau Prep 中使用数据网格是了解数据的最佳方式。您可查看更改后的数据情况,一眼就能看出当前的异常情况。

数据网格
迷你地图

有时候,您认为自己的数据非常整洁且毫无问题,但使用迷你地图后,您会发现存在异常值或缺少某些记录。使用迷你地图可发现这些错误并进行必要的更改。

迷你地图
了解联接

人们很容易意外地将错误字段联接在一起,尤其是在联接多个字段时。Tableau Prep 使用可视化反馈向您展示联接结果,帮助您发现是否存在异常值、是否会返回过多数据以及数据是否正确。

了解联接
02

不断反复探究

数据准备是一个持续的过程。纠正所有拼写错误或联接后,此过程并未结束。数据集更新时,您的问题可能会发生变化,或者您可能会发现需要再添加一个字段。使用 Tableau Prep 的“在 Tableau Desktop 中打开样本”功能,可以轻松无缝地测试数据在分析过程中的呈现情况。

运行流程并开始分析

清理、重构并筛选数据后,即可分析数据并从中获取见解。与许多数据准备工具不同,Tableau Prep 可集成到您的整个商业智能平台。将数据提取发布到 Tableau Server 或 Tableau Cloud,以便其他人开始分析。将其放入 Tableau Desktop,即可开始提出并探索更深层次的问题。您刚刚完成了数据分析过程中最费力的部分。现在,可尽情收获您的劳动成果 - 见解!

试用 Tableau Prep