第 1 章 分析师起步:Tableau的第一堂课

第 1 章 分析师起步:Tableau的第一堂课

本章适合Tableau的初学者阅读,首先介绍如何使用Tableau Desktop连接数据源,进行基本的时间序列分析、地理分析、产品分析和客户分析,并创建仪表板和故事;然后讲解连接数据的基本概念和操作,并介绍趋势图、热图、条形图等多种常用图表的生成方法,进而解读数据、指导业务;最后给出分析以及解读数据的思路和过程,有Tableau使用经验的读者也可从中获得启发。

本章篇幅较长,读完本章,相当于完成Tableau的入门课程,就可以在工作中开始使用Tableau Desktop来分析数据了。

学习难度:初级

涉及的业务分析场景:销售分析,产品分析,客户分析,时间序列分析

涉及的图表类型:折线图,轨迹图,条形图,热图,面积图,交叉表,散点图

知识点:Tableau Desktop软件界面组织和术语,数据之间的关联、筛选器应用、时间序列预测、双轴组合分析、多指标分析、参考线、动画轨迹、仪表板等互动性操作

1.1 先了解一下Tableau公司

这一天,大明和大麦在会议室聊天等着其他同事。

大明 最近生意不错吧?有啥有意思的故事没?

大麦 生意不错,有意思的事也不少,最近跑一家院线公司,办公室楼下就是电影院,顺便看个电影倒是非常方便。

大明 有这样的肥差?我很久没去电影院看电影了。

大麦 说起来,Tableau公司跟电影其实非常有渊源的……

正说着,大胡和几位同事进来,听到大麦说这个。

大胡 Tableau不是做数据分析的吗?怎么还和电影有渊源?

大麦 说来话长,当年皮克斯团队的创始人之一,斯坦福大学的Pat Hanrahan教授在皮克斯工作的时候,主要负责电脑视觉渲染的开发。而Pat教授后来也是Tableau公司的创始人之一。

   Pat教授在电影视觉特效方面工作卓越,曾经3次获得奥斯卡奖,第一次是1993年,第二次是2004年,第三次是2014年。这个在Pat教授的维基百科词条中有所说明。Pat教授主持开发的Render Man是用于制作电脑特效渲染的软件,电影《玩具总动员》就是使用这个软件制作的。

大胡 难怪,Tableau展现的图表都很漂亮,原来有大师在背后。当初他怎么从电影转行做软件了呢?

大麦 这是另外一个故事了。Tableau本身源于斯坦福大学的一个项目Polaris,这个项目主要研究如何可视化地处理数据,让人们更容易看懂。Pat Hanrahan教授是三名联合创始人之一,而他的一名博士生Chris Stolte精通数据库,因此,二人在斯坦福大学共同创建了Tableau应用程序,Christian Chabot随后也加入了他们的队伍。Tableau在2003年的一次技术转让中从斯坦福大学脱离,成为他们三人创立的Tableau软件公司的项目。

   2013年,Tableau公司在纽交所上市,股票代码DATA,尤其是近几年,发展非常迅速。到2018年,已经连续6年在Gartner(高德纳)的魔力四象限中位居领导者地位。

大胡 魔力四象限?

大明 Gartner是全球最具权威的IT研究与顾问咨询公司之一,其研究范围覆盖全部IT产业,就IT的研究、发展、评估、应用和市场等领域,为客户提供客观、公正的论证报告及市场调研报告。魔力四象限是一种研究方法论和形象化工具,用来监测和评估专业科技市场中公司的发展及定位,魔力象限使用二维模型去阐释公司间的实力及差异。魔力象限基于公司发展前景的完备性和执行能力,将构成竞争的公司分成4个不同的部分:利基型企业、有远见者、挑战者和行业领袖。在商务智能这个圈子里面,魔力四象限是整个市场的权威指南,Tableau公司从2013年起占据象限的领导者地位。大家可以看一下这个图。

说着,大麦在投影上打出了一幅图。

{%}

Tableau在Gartner魔力四象限

大麦 大家可以看到,Tableau在2018年处于领导者象限,而轨迹线则表明过去8年Tableau在这个象限图中的历史轨迹。

大胡 哦,领导者象限的厂商很少啊,我看一些大公司都在远见者象限?

大麦 没错,在这个仪表板中如果选定某个老牌大厂,也可以看见他们的历史轨迹。S记和I记公司,图中显示这两家公司自2016年开始从领导者象限跌落至远见者象限。

大胡 这个表现形式下,变化轨迹看得很清楚。这也是Tableau做的吗?

大麦 当然,Tableau员工基本不用PPT,看数据必须用Tableau。事实上,Gartner也是Tableau公司的客户,他们也用Tableau来分析BI市场。

   真正的市场转折发生在2016年,在2016年以前领导者象限中厂商众多,产品混杂。从2016年开始,Gartner改变了市场评估的角度,不再评价传统商务智能产品,而转向评估新一代自助型商务智能产品。为什么做这种转变呢?原因就是整个市场在发生变化,老的评估方法已经不能反映当前新的形势。大家看一下,这是Gartner商务智能魔力象限报告的开篇一段话,就明白了。

   “整个市场从IT为中心的企业报表应用,转向了以业务为中心的自助分析”。2016年是个转折点,绝大多数的企业采购都转向了现代的、以业务用户为中心的新一代软件平台。

大胡 有点意思。自助型数据分析软件,是不是没有IT技术基础的人也都能用?

大麦 没错,今天咱们就来体验一下Tableau软件。大家都安装试用版了吗?

大胡 安装了,在Tableau公司网站下载的。安装之后,有14天试用期。这个试用版本没有功能限制吧?

{%}

Tableau Desktop下载链接

https://www.tableau.com/zh-cn/products/desktop/download

大麦 放心,没有任何功能限制。今天咱们就一起来体验一下Tableau,我请大明准备了一份你们自己的销售数据,就用你们的数据来了解Tableau的用法。

1.2 动手连接数据吧

大麦 在开始了解数据之前,大家先来了解一下Tableau软件的基本界面。启动之后,我们首先进入初始界面。这个界面除了Windows程序必有的标题栏和菜单栏之外,整个界面从左到右分为3个大区域。中间部分的上半区域是曾经打开过的历史文件,将鼠标移动到历史文件的缩略图上,此时左上角出现一个图钉,单击它,可以将这个文件保留在这个界面上,也可以点击右上角叉子图标,将这个文件从历史记录中移除。中间部分的下半区域则是系统安装时自带的演示工作簿,可以作为学习资料来使用。

{%}

Tableau启动界面

小白 我的界面怎么是英文的,而你的界面却是中文的?

大麦 Tableau软件是国际化版本,并不区分中文版和英文版,安装的时候界面语言会默认跟随操作系统的语言。你的操作系统是英文的?

小白 对,我的Windows是英文版的,能把Tableau界面改成中文的吗?

大麦 可以。在“帮助”菜单下面有一项“选择语言”,可以看到Tableau软件支持8种语言,选择“中文(简体)”,然后重新启动Tableau Desktop,就可以切换到中文界面了。

{%}

切换Tableau中文界面

小白 成了,现在是中文的了。

大麦 除了界面语言设置之外,建议大家将工作簿区域设置为“中文(中国)”,方法是打开“文件”菜单,选择“工作簿区域设置”,然后选择“中文(中国)”,如果这个“中文(中国)”没出现,请大家点击下面的“更多”按钮,从列表中选择“中文(中国)”。设置之后,一些数据格式会自动跟随区域设置予以显示。1

1软件语言设置和工作簿区域设置是必需步骤,本书后续均以此设置为基础。尤其当操作系统控制面板中的区域设置不是中国,操作系统界面也不是中文时,缺失此配置步骤可能导致读者看到的软件界面与本书中描述的有所差异。

小白 好的,也设置好了。

大麦 我们再看看屏幕最右侧,是一些资源列表,这些资源是联网加载的。上面是基本的学习资料,链接到Tableau官方网站上的学习频道,有一系列免费培训视频,你需要花一分钟的时间注册一个Tableau网站的账户,然后就可以在线播放这些视频。视频内容中涉及的数据集、工作簿以及讲解文字稿都是可以下载的,确保每个用户都能够方便快捷地开始学习和使用Tableau软件。中间部分是博客和重要资源链接,是动态推送的,不同时期打开Tableau软件,推送的内容是不一样的,这也是为了让用户能够获取到最新的学习资料而设计的。最下面的部分是“每周可视化精选”,也是推送内容,是来自public.tableau.com网站(即Tableau Public网站)的内容。

小白 我点开了“每周可视化精选”这个链接,是个世界杯历届参赛队成绩表的图,好炫酷!

大麦 在Tableau Public网站上,有很多非常优秀的可视化作品,你完全可以把这个网站当作一个参考案例库来使用,其中包括各行各业的可视化分析作品。如果想浏览大师杰作,可以直接点击右上角的“库”链接。

小白 哇哦~真的好多。可是这些都是谁做的呢?

大麦 Tableau在全世界有非常多的粉丝,Tableau Public网站提供了一个分享的平台,目前有十几万数据爱好者和数据工作者注册了账户,他们使用各种公开的行业数据,发布可视化作品。现在这个平台上已经有超过100万个可视化作品,所以是一个非常庞大的资源库。我强烈建议你们每个人注册一个这个网站的账户,把自己学习过程中的可视化作品发布上来,跟其他人分享和交流。

小白 好,回头我也注册一个。

大麦 我们再回到软件界面上来。界面最左边是Tableau能够连接的数据源列表。大致上,Tableau能支持的数据源包括两类。

   第一类是桌面数据源,包括Excel文件、文本文件、JSON文件、Access数据库,以及PDF文件、空间文件和统计文件。前几种不多做解释,但后几种需要做一些解释说明。先说PDF文件,比如我们需要分析一些同行上市公司的绩效数据,在网上经常能够下载到PDF格式的上市公司年报,年报中有一些表格,Tableau能够识别PDF文件中的表格定义,将表格清单列出来供分析使用,但扫描的PDF文件是无法被识别的,因为扫描文件中的表格是图片格式,Tableau是分析内容,不做OCR的工作。

   统计文件又包括支持SAS的统计文件格式、SPSS的统计文件和R语言数据集。如果大家用过这些数据挖掘工具,就会知道对数据进行浏览和探索是数据挖掘建模过程中一个很重要的环节,那么Tableau在这个环节可以大大提高效率,从而为后续的模型训练选择主要维度和指标。目前,你们可能还没涉及这些软件,但在未来的工作中可能用得到,希望在用到的时候能够想起Tableau可以分析这些数据集。

   另一类是空间文件。有时候,我们在分析数据的时候需要使用地图。通常情况下,Tableau的地图是联网加载的,但有时候我们也需要使用离线地图。因此,空间文件提供了一种离线使用地图的方法,Tableau可以使用Shapefile、MapInfo表、KML文件和GeoJSON文件,这些文件本质上就是一些离线地图文件,Tableau连接到这些文件之后就可以呈现地图,把实际的业务数据与地图数据相混合,实现离线地图上的数据展现。

小白 听起来这个很有用!不过现在电脑都可以联网,所以应该用在线地图就可以了?

大麦 是的,如果能够联网,当然还是建议你们用在线地图,用起来更简单、直接。

Tableau软件除了连接文件数据源之外,还支持其他常见的数据源类型。

  • 关系数据库:包括SQL Server、Oracle、DB2、Sybase和Teradata等。
  • 多维数据库:包括Essbase、Microsoft Analysis Service和SAP BW。
  • 云数据源:包括Google和Amazon的各类云数据库平台。
  • 大数据平台:包括Cloudera、Hontonworks和MapR。
  • 其他现代数据平台:包括Greenplum和IBM Netezza等。

   每种数据源的连接方法在Tableau软件的在线帮助文档中都有示例文档,可以参考。

小白 如果我要连的数据源不在Tableau支持的列表中呢?

大麦 此时需要通过通用ODBC接口去连接,一般情况下,数据库厂商都提供ODBC接口。

小白 OK。那如果我需要从网上抓一些数据来分析,Tableau能连接网站抓取数据吗?

大麦 这是一个好问题。Tableau提供了一个特殊的数据源接口,叫作Web数据连接器,你可以自己写一个取数程序,然后通过Web数据连接器跟Tableau相连,让Tableau分析网上来的数据。

小白 不错嘛!连接好数据源之后,在Tableau中进行分析的方法都是一样的吧?

大麦 是的。现在就连接一下大明提供的销售数据集。首先,在数据源列表中点击左上角的“Microsoft Excel”,在对话框中找到这个文件,然后打开,进入到数据连接界面。

{%}

连接Excel文件

提示:1. 工作表清单;2. 表格区;3. 数据预览区

   这个界面主要分为3个部分:左侧是数据源中的表清单;右上区域是表格区,可以将用来分析的表格从左侧的表清单中拖放到这个区域中;右下区域是数据预览区。

小白 左边有个“新建并集”,它是什么意思?

大麦 并集是对于Excel和文件来说的,多个结构相同的文件可以合并成一个文件,比如你每月的销售数据是一个独立的Excel文件,可以使用并集把多个月的多个文件合并成一个数据集。如果你每月的销售数据是在同一个Excel文件的多个Sheet中,也可以使用并集进行合并。以后有机会,我们还可以专门来研究一下相关内容,今天先不看复杂场景。

   然后我们把想要分析的数据集拖放到右上的表格区,比如要分析订单数据,就把订单表拖放到表格区,此时右下角会出现数据预览。数据预览表格能够帮助我们理解数据内容,表头上方是Tableau自动识别的数据类型,“Abc”代表文本字段,日历图标代表日期或者时间字段,“#”代表数字字段。如果自动识别出来的数据类型不对,可以用鼠标单击数据类型的图标进行更改,双击表头的字段名称可以修改字段名。如果你连的是数据库,那么很可能你的字段名称是字母或者代码,就需要逐个修改成业务分析时所使用的业务名称。注意,你在这里修改的数据类型和字段名称,都不会对原始的数据表或者数据库有任何影响。

   当然,如果需要集中修改这些字段名,还可以把数据预览窗格切换到元数据管理窗格进行集中修改,直接点击数据预览图标旁边的“管理元数据”图标即可。

{%}

数据源和元数据窗格

提示:1. 预览数据源窗格;2. 管理元数据窗格

   不过我们现在使用的这个数据集不需要修改数据类型和字段名称,所以回到数据预览窗口。我们经常需要对多个表进行关联分析,就好比使用Excel的时候经常会使用VLOOKUP函数一样,大家经常用VLOOKUP吗?

小白 当然,经常用,天天用。

大麦 比如,在“退货”表中记录了被退货的订单信息,我们将鼠标放到工作表中的“退货”表上,这时“退货”表旁边会出现了“查看数据”按钮,点击这个按钮,就可以查看这个表格中的数据。

{%}

数据连接界面和“查看数据”按钮

提示:点击“查看数据”按钮,可以预览数据。

   我们了解到,在“退货”表中只有订单ID和退回标志。如果要分析退货的数据,就把“退货”表也拖放到右上的表格区,Tableau会自动在两个表之间建立连接关系,点击两个表之间的连接图标,可以查看连接条件和连接类型。

{%}

表与表之间的关联

小白 如果两个表里面的连接字段名称不一样,能自动识别吗?

大麦 目前,Tableau是按照同名字段来识别连接条件的。如果两个表的关联字段名称不一样,是不能自动识别自动关联的,但是这种情况下我们可以手工制定关联字段。特别需要注意的是,有时候两个表的关联字段不止一个,会出现好几个字段进行关联的情况;另外,Tableau除了相等关系的关联之外,也支持不等关系的关联,例如大于、小于或者不等于。但99.9%的情况下,我们需要的都只是相等关联,所以不展开讲不等关联的情况。

小白 上面那个内部、左侧、右侧、完全外部是什么意思呢?

大麦 这个关联类型是非常重要的概念。我们的两个表相当于两个集合,比如集合A和集合B,内部关联相当于AB的交集,完全外部相当于AB的并集,左侧相当于以集合A为准,右侧相当于以集合B为准。

小白还是一脸茫然的样子,大麦只好进一步解释。

大麦 我们举个例子吧。在Excel里面做两个表出来看,销量数据表包括产品和销量两个字段,产品中包含有产品1、产品2和产品3;库存数据表包括产品和库存两个字段,产品中包含有产品1、产品3和产品5。我们看一下几个数据表的内容。

{%}

销量数据表

{%}

库存数据表

   双击桌面上的Tableau Desktop图标,新开一个软件界面。打开这个Excel文件,把销量表和库存表都拖放到表格区,打开表格关联窗口,默认是内部关联。我们观察一下数据预览窗格中的数据,发现窗口中显示的数据只包括了产品1和产品3,这正是两个表的交集部分。

{%}

内部关联示例

   如果改成左侧关联,则关联后的数据包括了产品1、产品2和产品3,是销量表中的内容。

{%}

左侧关联示例

小白 如果是右关联,就是产品1、产品3和产品5喽!

大麦 是的,我们来看一下。

{%}

右侧关联示例

大麦 那么,如果是完全外部连接呢?

小白 那就包含产品1、产品2、产品3和产品5。

大麦 对。完全外部连接等同于取得两个表的并集。

{%}

完全外部连接示例

   这个概念理解清楚之后,我们再回过头来看“订单”表和“退货”表的关联。在内部关联的条件下,我们得到的数据集的结果是只包括了被退掉的订单,还是全部订单呢?

小白 被退货的订单。

大麦 没错,如果想分析全部订单,应该使用哪种连接?

小白 左侧连接。

大麦 是的。我们今天就用这个左侧连接。

大胡 大家要把这个概念理解清楚,我们做分析的时候经常要进行数据连接,不理解概念,分析结果错了都找不到原因。另外,这就是数据库里的关联操作,有Inner Join、Left Join、Right Join、Outer Join几个类型。虽然Tableau中这里不需要写SQL语句,但原理是一样的。

大麦 谢谢胡经理的补充。我们不在数据源连接画面上过多停留,连上数据之后,我们尽快进入分析状态开始数据分析,有一些数据上的处理,我们可以一边分析一边再处理。

   我们点击界面左下角的“工作表1”,需要先了解这个分析界面的结构和每部分的名称,在日后的工作中会经常用到它。

{%}

Tableau分析界面

   整个界面中最大的一片空白叫作画布,数据展现的图表将在这个区域显示,这个区域中有浅灰色的文字提示,大家可以设置字段,观察一下把字段拖放到这些地方会发生什么。画布周围有5个地方,分别叫作行、列、页面、筛选器和标记,它们叫作功能区,其中“标记”功能区有一个下拉框,下拉框下面默认情况下还有5个按钮,分为是颜色、大小、文本、详细信息和工具提示。注意,这里的按钮有时候是6个,这与下拉框里面选择的标记类型相关。按钮下面的空白区域是非常特别的一个地方,叫作LOD(Level Of Detail)区域,也叫作详细级别区域,后面我们会经常用到这个区域。这5个功能区就是我们控制数据输出、展现奥秘的所在了。如果把“类别”维度拖放至“功能区”,或者把“销售额”和“度量值”拖放到“筛选器”功能区,又或者把“订单日期”拖放到“颜色”上,你就知道我是在做什么操作了。

小白 那么,左边的“维度”和“度量”是什么?

大麦 正要说这个。度量就是要分析的对象。过去大家做报表的时候,经常说要分析哪些指标,指标也就是这里的度量。度量是数字类型的。我们在分析过程中会对度量值进行各种计算,比如求和、求平均、求最大值、求最小值和求中值等。通俗地说,维度就是分析指标的角度。我们平时经常说从地区角度来观察销售额,那么这句话里面的“地区角度”在数据分析中的行话就是维度。在分析过程中,“维度”和“度量”值会一起使用,我们经常通过将一个度量值与各种维度进行组合的方式,来对数据进行观察和分析,从而发现问题或者寻找解决方案。

小白 这些维度和度量是Tableau自动识别的吗?

大麦 是的,Tableau会根据数据类型自动识别数据中的字段是维度还是度量。通常情况下,Tableau会将数字型的字段识别为度量,而把文本类型和日期类型的字段识别成维度。

小白 可是,好像维度中也有一个字段是数字类型的啊?

大麦 你观察得很细致,在我们的数据中,的确有一个数字类型的字段被识别为维度,是行ID,在业务上通常叫作流水号。我刚才说的识别规则只是通常情况,而Tableau具备智能化的特征,比如这个流水号,显然它不是要分析的度量对象,所以Tableau也把它识别为维度。

小白 会不会识别错呢?

大麦 也有可能识别错。通常的错误是把数字型的字段识别为度量,而它其实是维度。举例来说,如果有一个字段是产品代码,恰好这个产品代码是数字格式的,那么Tableau很可能会把它误解为度量,归到“度量”里面。

小白 那如果发生这种情况,怎么把它改回“维度”呢?

大麦 把度量改成维度,或者把维度改为度量,都非常简单:用鼠标选中这个字段,拖放到“度量”窗格或者“维度”窗格中就可以了。比如现在这个数据,我们把“行ID”拖放到“度量”窗格,那么它就变成度量。当然,这不符合业务实际,我们再把它拖回去。正好我问大家一个问题,有没有某些情况下,一个字段既是维度又是度量呢?或者说,一个字段既可能当作度量用于汇总分析,又可能当作维度用于分析其他数据呢?

小白 这个……想不出来。

大麦 举例来说,如果你要分析一份客户数据,里面有客户的各种信息,其中包括客户的年龄,有时候我们要求某类客户的平均年龄,这时候这个年龄就是度量;而另外一些时候,我们需要分析不同年龄客户的销售额,这时候这个年龄就又成了维度。

小白 的确会有这种情况,可是怎样让这个字段既出现在“度量”里,又出现在“维度”里面呢?

大麦 方法也很简单,我们在这个字段上单击鼠标右键,然后在出现的快捷菜单上选择“复制”命令,这时候就会出现一个复制出来的字段,我们把这个复制出来的字段拖放到另外的“维度”或者“度量”窗格中就可以了,这样同一个字段既可以用作度量,又可以用作维度。

小白 神奇!有机会试试。

大麦 我们继续看一下分析界面的其他部分,在“维度”和“度量”窗格上面,是“数据连接”窗格,其中显示了当前连接到的数据源。其实如果同时连到多个数据源,这里会出现多个连接名称。刚才说的“维度”窗格、“度量”窗格和“数据连接”窗格,都属于“数据”窗格的几个分项。随着使用的深入,在“度量”窗格下面还可能会出现“参数”窗格和“集”窗格,这些等我们用到的时候再解释。在“数据”窗格旁边,还有一个“分析”窗格。用鼠标点击一下“分析”窗格,会切换为“分析”窗格画面,我们观察一下。

{%}

分析功能窗格

提示:点击“分析”窗格,打开分析工具列表。

   “分析”窗格中有一系列数据分析过程中可能用到的工具,包括参考线、趋势分析、预测分析和集群分析等,这里我们也不展开,等用到的时候再解释。“分析”界面的其他部分中,最上面是所有Windows程序具有的标题栏、菜单栏和工具栏,最下面有状态栏。这些地方的功能比较繁杂,我们也边用边解释。现在切回“数据”窗格,开始进行数据分析。

   我们现在的数据中有时间信息,包括订单日期和发货日期;有地理信息,包括国家、省和城市;有产品信息,包括产品类别、子类别和产品名称;还有客户信息,包括客户名称和客户类别。这份数据中包括的度量值有销售额、利润、数量和折扣。现在问题来了,我们拿到一份数据,知道大概包括哪些信息,可是我们究竟该如何开始分析呢?有没有一个什么样的方法或者最佳实践,可以帮助我们使用Tableau软件快速理解这份数据呢?或者快速从中发现一些问题?

大家都没说话,大明和大胡显然是心里有数,不过也是看着其他几个人等他们来回答。

大麦 有吗?

小丁 我们……通常拿到数据的时候也会拿到一些表样,就是一些图表,要求用数据把图表做出来,我们会先研究图表里面使用了什么数据、什么指标、什么维度,然后再看是怎么计算的,接着再观察数据,看怎么把图表做出来。

大胡 所以你们现在是报表设计师,而不是数据分析师。

大麦 是的,数据分析师的思路不是这样的。数据分析师不急于做图表,他工作的目标也不是做图表,而是理解数据、分析数据、发现问题、找到原因和给出方案。所以,我们今天要以数据分析师的思维来开始数据的探索和分析。

1.3 发现销售规律:时间序列分析

大麦 使用Tableau的最佳实践,就是对数据保持一份好奇心,向数据提问。比如最开始想知道销售额的趋势,在发现问题时,我们会继续追问原因,再根据原因探求解决方法。我们提一个问题吧,小白,咱们刚才已经了解到了数据中有哪些内容,你想知道什么?

小白 我想知道销售额总量。

大麦 好,销售额总量。Tableau软件的操作要跟着你的问题走,跟着你的思维走,你想知道销售额总量,那么就双击“销售额”,Tableau会根据你的操作来自动展现适合的图表。现在画布上出现了一个柱子,将鼠标移到柱子上面会在提示里显示具体数字。此外,还可以在工具栏上点击“显示标签”图标把这个数字显示出来。那么,从这个柱子上能发现什么问题呢?

{%}

销售额总计分析

提示:1. 在左侧“度量”列表中,双击“销售额”;2. 在“标记”栏中,点击“标签”功能,并勾选“显示标记”标签,或者直接单击工具栏上的“显示标签”图标(T字母按钮)。

小白 光是一个数字说明不了问题啊,我们再看一下这个销售额在时间上的趋势吧。

大麦 时间趋势,很好。我们说操作要跟着问题走、跟着思维走,要看时间趋势,用鼠标双击订单日期,看画面上出现了什么。

{%}

销售额年趋势分析

小白 趋势图,好像2014年至2016年销售额持续增长,但2017年下降了。

大麦 很好,你的思路是非常对的。要对你看到的数据进行解读,一边想问题一边操作,看到图表进行解读,寻找问题。但是2017年下降了这个结论似乎不对,大明咱们的数据到什么时候?

大明 到2017年5月底。

大麦 嗯,2017年数据还不是全年的,所以2017年销售额下降是一个错误判断。我们刚才看数据的时候,订单日期字段里记录的是“年”还是“天”?

小白 是“天”。

大麦 但是在你操作“日期”维度的时候,Tableau会进行智能处理,尤其对于“时间”维度,会自动先聚合到“年”级别。在数据分析的过程中,有一个规则叫作从宏观到微观,逐层展开。对于日期来讲,它的展开过程是年、季度、月和日,所以Tableau首先呈现的数据是聚合到年的数据。而由于你操作了“时间”维,Tableau会根据你的操作自动推荐最适合的图表类型/在时间序列分析中,最佳的表现形式当然是趋势图,也就是曲线图。

小白 那么,怎么在时间上展开呢?

大麦 我们看到“列”功能区上的“年(订单日期)”前面有个小加号,这是下钻标识,点击它就可以展开下钻。我们展开到“年”→“季度”层次,观察数据,有什么发现吗?

{%}

销售额季度趋势分析

小白 每年的第一季度至第四季度的销售额都在持续增长,但跨年时第一季度的销售额会比上一年第四季度大幅回落。

大麦 非常好,你总结的这句话就是典型的分析员思维。什么图表不重要,重要的是你刚刚总结出来的这句话!建议大家养成良好习惯,把自己的分析和发现写到图表的注释或者说明里。

   我们可以在“工作表”菜单中打开“显示说明”,写下你的总结,这样其他人看这份数据的时候就知道要点是什么了。

{%}

显示说明

   在我们有所发现时,也许还需要作进一步的分析,所以这时最好保留当前的工作表,给它重新命名,然后在工作表1标签页上单击鼠标右键,在弹出的快捷菜单里面选择第二个“复制”,把工作表复制一下,这是一个良好的分析习惯。

小白 我点了菜单里的“复制”,为什么没出现新的工作表呢?

大麦 那是因为你点击了上面的“复制”,它是复制到剪贴板,下面的“复制”才是直接创建一个新副本。

{%}

复制Tableau工作表

   继续分析,在“季度”层面上,我们看不到每个月的销售分析情况,因此再点击“季度”左边的加号,展开到“月份”。每个季度有3个月,现在的图表被切成了3个月一段,看起来非常散乱,这时可以用鼠标把“季度”胶囊拖放到功能区和画布之外的地方,从视图中移除季度。对了,所有被拖放到“功能区”的“维度”和“度量”,都会变成一个胶囊图标,我们把它们统称为胶囊。现在画面上有年和月的数据,请小白再观察一下吧,对这个图做个分析总结?

小白 这个……看不太出来有什么分析结论,每个月的销售额都是波动的,2017年5月份销售额奇高。

大麦 嗯,其实在年和月的数据展现出来的时候,我们可以研究销售的季节性波动规律。既然每个月的销售额都是波动的,那么每年的波动是否呈现一致的规律呢?这就是我们经常说的模式(pattern),它对业务的指导作用是很大的,可以帮助业务决策应该把营销的重点放在哪个月。可是现在这个图,的确不太方便观察模式的规律。Tableau是可视化分析软件,帮助人们查看和理解数据,是希望提供非常直观的数据表现形式,让我们一下子就能注意到数据中的规律或者问题。看来可能需要换一种查看方式了。我们把“年(订单日期)”胶囊从“列”功能区拖放到“标记”功能区的“颜色”按钮上。

大麦一边操作一边讲解,问小白:“现在再观察一下,有什么发现?”

小白 每年的7月份是一个特别低迷的月份。

大麦 是的,结论非常清晰。我们也把这个总结写到说明里,7月份销售低迷,在业务上建议加强促销。顺便把这个复制得到的工作表改名为“月份分析”。

{%}

月份分析:堆叠折线图

   我们发现了销售在月份上的波动规律,受此启发,再问一个问题,销售在一个星期内是否有一些规律可循呢?比如说,周末跟工作日相比,销售量低还是高?或者在一个星期内,是否有特别的销售高峰或者低谷?

   我们现在就来分析一下工作日的销售情况。把“订单日期”拖放到“列”上,另拖一份到“行”上。右键单击“列”上的“年(订单日期)”胶囊,在快捷菜单种选择“工作日”,在“行”功能区的“年(订单日期)”胶囊快捷菜单上选择“月”。

   然后把“销售额”度量值拖放到表格中,我们平时最常见的报表出现了。请根据这个表来告诉我周末比平时的销售量高还是低,有没有哪一天销售额异常波动?

{%}

销售额工作日分析:表格

大麦给大家留时间观察数据,几个人看了两分钟。

小白 周末似乎比平时好一点吧……不过也不是很确认,太费劲了。

大胡 呵呵,是很费劲,可是大家平时不都是做这种表吗?不都是给业务部门提供这种数据吗?显然想从中发现问题还是不容易。

大麦 嗯,这种表格很显然不适合发现问题,所以肯定也不是Tableau推荐的展现方式。Tableau是可视化分析工具,目标是用可视化方法,通过视觉特性对数据进行表达,从而让人一眼就能发现问题。确切地说,是在0.25秒之内发现数据异常,这个以后有机会再跟大家分享。如果参考先前的时间序列分析,可能会想到有“时间”维度,应该用曲线图。现在把“月份”胶囊拖放到“标记”功能区的“颜色”按钮上,把LOD区域的“销售额”胶囊拖放到“行”功能区,得到这样一个图。星期三销量很低,用这个图就看得容易多了。

{%}

销售额工作日分析:堆叠折线图

   的确星期三的问题很明显。不过大家有没有觉得这个画面看着很乱?不如把图形换成区域图再看看。只要我们在“标记”功能区的下拉框中选中“区域”就可以了。

于是屏幕上出现了这样的画面。

{%}

销售额工作日分析:堆叠面积图

大麦 这个图是区域图,因为它像是沉积的河道界面,所以也叫河道图。从这个图上是不是更容易看出星期三的销售额很低?并且,由于堆积起来就是每天的销售额总计,很容易看出来周五到周日3天是销售量最高的几天,其次是周一周二和周四,周三最差。然后再从月份上看,从下向上看,8月、11月和10月这3个月的销售量较高,而2月、4月和1月的销售量较低。你看这个图上是不是信息量很大,很容易理解?关键问题是,能够一下子让人们注意到星期三的问题。

   我们还可以继续探究更合适的表现方式,让数据中的规律和问题能够更醒目地凸显出来。现在对这个表格做一下转换,把“销售额”从“行”功能区拖放到“标记”功能区的“颜色”上,然后把“月份”胶囊从LOD区域拖回到“行”功能区。这样就可以用颜色深浅来表示数据大小,颜色深的数值大,颜色浅的数值小。现在再来看一下,周末与平时比,销售额是更高还是更低?另外,有没有哪天销售量异常?

{%}

销售额工作日分析:热图

小白 周三销售额最低,周四也比较差,其他几天应该差不太多。

大麦 是的,我们用颜色表示数值大小显然比直接去读数字更有效。用可视化的方式,我们可以看见数据,英文里面叫作SEE,有理解看懂的意思;而如果直接看表格中的数字,我们是读数据,英文里是READ,这个词并不代表看懂。我们应更专注的问题是,周三和周四是销售比较低迷的两天,而周六和周日是销售额比较高的两天,这对于日常的工作安排有什么影响呢?

大胡 这对我们的业务非常有用。我们很多的线上销售代表和店面的人员值班都应该跟随这个销售规律,如果周末销售清淡,就可以安排更多人在周末休息,而从现在看到的图表来看,显然我们的值班应该重点安排在周末两天,而在周三和周四两天则可以安排更多人轮休。我们现在的销售人员安排是没有这个重点的,也就是说,人员安排并没有根据每天的销售额波动来进行合理安排。而这正是数据分析支持日常业务的一个很好的例子。

大麦 实际中,如果主要做线上销售,通常还会分析时段,根据每天不同时段的业务量来排班。

大胡 我们现在还没有时段的数据,但未来也可能要进行时段的分析。另外,我想问大家一下,如果根据这个热图进行工作安排,有没有什么不合理的问题?

小丁 我觉得虽然从总体情况来看周末是销售高峰,周三和周四是销售低谷,但是具体到某个门店,可能还是与总体情况存在差异的,因此排班应该根据具体单店的情况来定。

大胡 就是这个问题,过去我们一直想做强大的总部,由总部统一制定业务规则,而一线只是执行,但在具体执行的过程中发现了一些问题,总部的策略与一线具体业务的实际情况有时候会有很大的差异。所以我们也在调整,要让一线拥有更高的主动性和决定权,根据具体情况灵活安排工作和开展业务。毕竟我们要的是业务发展,要赋权给一线,而不是把一线绑住。

听大胡这样说,大家都受到一些启发,考虑这个强大总部和灵活一线的问题。作为管理层,大胡看问题的确还是更深、更远一些。

大麦 下面我们就在这个图的基础上深入看一下一线的具体业务情况,不过遗憾的是数据中并没有店面的ID,那么我们用地区模拟代替一下店面,然后看一下这个规律是否每年都有所区别。我们在“地区”维度上右击鼠标,在快捷菜单里选择“显示筛选器”,在“订单日期”上做同样的操作,此时就在这个视图上面增加了两个筛选器。

{%}

筛选器:地区/年

   这两个筛选器的样式默认都是多选的,我们可以把筛选器改为单选,便于逐年、逐地区观察数据。其方法是在筛选器的快捷菜单上选择“单值(列表)”。

{%}

改变筛选器样式

   修改过筛选器样式之后,我们得到这样一个分析工作表。通过对不同年度、不同地区的数据进行分析,我们发现基本上每周的销售规律都是非常接近的。我们把这个规律也写到说明中。

{%}

销售额工作日分析总结

小白 刚才我也在一直跟着操作分析,有两个问题,第一个问题是订单日期切换为月份的时候,我注意到快捷菜单里面有上下两部分,都是年、季度、月、日,这两部分有什么区别呢?第二个问题是我这里的视图上每周的第一天是星期日而不是星期一,这个怎样设置星期一是每周第一天呢?

{%}

快捷菜单分为上下两部分

大麦 我们先说第一个问题。在快捷菜单中的确是有两部分看似内容相同的,但大家请注意一下菜单项后面的提示就明白了,比如上面的月,是5月;而下面的那个月份,是2017年5月,是年月格式。同样地,上面的季度是年季格式,下面的日是年月日格式。在分析的时候,如果你选择的是上面的月,那么只有1月到12月,默认情况下不考虑年份,也就是说1月显示的是所有年份的1月数据汇总,2月显示的是所有年份2月的数据汇总,因此视图中最终只会有12个数据点。而使用年月进行分析的时候,实际上每个月都会有一个数据点,分析3年的数据将会有36个数据点,4年数据有48个数据点。

大麦 除了这一点区别之外,菜单中上半部分的日期默认是离散类型的,而下半部分的日期默认是连续型的。

小白 什么是连续离散?

大麦 连续,顾名思义就是连续变化的数据,在两个数据之间可能存在无限多个数据,比如身高、体重、销售额和利润等,比较特殊的是日期时间,它也是连续的,有固定的顺序,任意两个日期时间值之间都可能存在无穷多的数据点。而离散数据,是可以枚举出来的有限的数据,比如产品类型、国家、顾客数据中的性别和民族等。

小白 那么,在Tableau中怎么区别数据是连续还是离散的呢?

大麦 当我们把数据拖放到“功能区”的时候,如果胶囊颜色是蓝色,那么它是离散的;如果胶囊颜色是绿色,那么它是连续的。就比如我们刚才操作“日期”维度的时候,如果将日期切换为月,那么它默认是离散的;如果把它切换为年月,那么它默认是连续的。

小白 也就是说,对于日期来说,有时候它是离散的,有时候它是连续的?

大麦 对,这根据我们的分析需要而定。离散的数据是可以进行重新排序的,比如离散的月,可以按照销售额高低对1月、2月……12月进行重新排序。但如果是连续的年月,那么这些年月的顺序是固定的,类似2014年1月、2014年2月、2014年3月这样顺序排下来,是不能够按照销售额进行重新排序的。

小白 我试了一下,果然是这样。那么,有没有某种情况下,我需要更改离散或者连续类型呢?

大麦 当然是有这种情况的,Tableau提供了非常方便的功能来切换离散和连续数据类型。在胶囊的快捷菜单中,我们可以看到“连续”和“离散”两项可以来回切换,非常方便。

{%}

日期的连续与离散转换

   特别需要注意的是,对于Tableau来说,连续数据和离散数据展现的方法是不一样的。一般情况下,连续数据在行或者列上,会展现一个数轴;离散数据则展现为一个一个系列标签。对于日期来说,有一个很重要的细节需要提示一下,如果我们使用的数据中包括2017年1月、2017年2月和2017年4月的数据,但中间缺失了2017年3月份的数据,此时如果用连续的年月格式来呈现数据,就会发现数据中间有一个缺口。因为“日期”轴上是2017年1月、2017年2月、2017年3月和2017年4月,也就是说,虽然2017年3月份没有数据,但在轴上仍然保留了它的位置。但如果把连续年月手动切换为离散,就会发现这个缺口消失了,数据轴上的标签排列是2017年2月、2017年4月,所以在这种情况下,如果数据有小部分缺失,就不容易被发现。

小白 那是不是可以这样理解,维度是离散的,度量是连续的?

大麦 不能这样理解,数据是离散还是连续的,与它是维度还是度量没有任何关系。虽然你刚才说的情况大部分情况下成立,但我们刚才也谈到,日期是一个维度,但它有时候也是连续的。并且,数据是离散的还是连续的,我们还可以手工切换。特别是,度量值在分析的时候,可以切换为离散类型。因为虽然理论上连续值的取值范围不可枚举,但是事实上任意一个数据集都是有限个数,不管这个数据集是100行还是1亿行,仍然是有限数量的。因此,度量可以手工切换为离散值。手工切换连续和离散,对我们的分析经常有一些特殊的用处,在日后工作中大家会慢慢接触到。

   刚才用热图进行了时间序列分析,得到了一些结论,我们发现时间序列分析不仅仅可以用曲线图来进行,用热图也是非常好的方法。我们也根据数据对实际业务提出了一些对应的建议,这些都是非常好的开始。数据分析师的日常工作,就是要分析数据,获得见解,给出建议。刚才我们分析了过去几年的数据,那么能不能对未来的销售趋势进行预测呢?其实当然是可以的,我们一起来看一下。

大麦仍旧是一边解说,一边操作。

大麦 新建一个工作表,把“订单日期”拖放到“列”功能区,然后将它切换为连续的年月格式,再把“销售额”拖放到“行”功能区,得到过去销售额的曲线。现在把“数据”窗格切换为“分析”窗格,把左侧的“预测”拖放到画布区域,这时候画布区域出现一个小窗口,是预测的悬浮窗,我们把“预测”拖放到这个小悬浮窗上,曲线图上就出现了未来几个月的预测值,并用不同的颜色标示出来。

{%}

销售预测

小白 用起来很简单啊!不过,有没有一些参数可以设置呢?比如预测未来多长时间之类的?

大麦 当然是有设置的,在画布空白区域单击鼠标右键,此时弹出的快捷菜单中有一项“预测”,子菜单中有“预测选项”,这里可以进行设置。

{%}

“预测选项”菜单

   在“预测选项”中,我们看到有若干选项可以设置,比如预测长度可以决定预测未来多长时间的数据,但如果设置得数值很大,有可能会预测失败,也就是预测不出来。此外,还可以设置聚合方式,通常情况下Tableau自动决定的数据聚合方式就是最佳聚合方式,所以不建议修改这里。但下一项“忽略最后几月”是可以选择的,我们可以将其设置为0,也就是不忽略数据。

预测选项配置

小白 为什么要忽略最后几个数据呢?

大麦 因为在实际工作中,有可能最近一个月的数据是不完整的,把它纳入预测建模范围并不是很科学;而有时候最近几个月的数据都是待确认状态,所以待确认的数据也可以在预测模型中被忽略处理。

大麦 下面的一个选项是预测模型,我们可以选择“自动”或者“完全自定义”。在“完全自定义”中,可以手工指定趋势性因素的“累加”或“累乘”选项,或者季节性因素的“累加”或“累乘”选项。

小白 那究竟Tableau的预测是使用什么算法呢?

大麦 确切地说,Tableau内置的时间序列预测使用的是指数平滑算法。自动使用8种方法进行预测,并且自动输出结果最优的那一个。具体的算法在产品的帮助手册里有详细说明,甚至还提供了一个链接,其中详细讲解8种方法的数学原理和公式。

小白 好吧,算法公式估计看也看不明白了,有空再研究,呵呵。

大麦 最下面的一个选项是“显示预测区间”,可选“95%”或者“99%”。实际上,预测所得到的结果是一个数值范围,而不是确切的数字,所以我们可以看到,在预测曲线上用淡蓝色的线条标示了一个数据范围。如果设定“显示预测区间”为“95%”,我们可以理解为在95%的概率之下,未来的数值会落在这个区间之内。

小白 嗯,看来做参考还是很有用的。能进行分类预测吗?比如对不同的产品线分别进行预测?

大麦 可以,比如我们把“类别”维度拖放到“行”功能区,这时候Tableau就会对每个产品类别的数据分别进行预测,得到类似如下的结果。

{%}

不同产品类别的销售预测

1.4 洞察亏损地区:地理维度分析

大麦 时间序列分析暂时先看到这里。实际上,对于时间序列分析,还有很多更加深入的内容,以后在工作中可以继续深入研究。下面分析“地理”维度。在我们的数据中,与地理有关的字段包括国家、地区、省1和城市,首先双击“省”及“订单日期”两个维度,然后依次双击“销售额”和“利润”两个度量值,可以得到各省级市场历年的销售额和利润。接下来,我们把“行”功能区上面的“度量名称”胶囊拖放到“列”功能区,就得到了这样一个表格。

1本书中提及的省、省份,均指省级行政区,包括省、直辖市、自治区以及特别行政区。

{%}

各省历年销售利润表

大麦 现在基于这个表格,如果我想知道各省在哪些年份是亏损状态,大家能快速回答出来吗?我来计时。

   30秒过去了,我相信大家已经找到一些,但比较困难。

小白 这种样式的表格我们已经司空见惯了,的确很难快速地回答业务问题,有没有什么办法能提升观察效率呢?

大麦 当然有。我们把“利润”度量拖放到“标记”功能区的“颜色”按钮上,然后从“标记”功能区的下拉框中把标记类型改为“方形”,就得到了一个用表格底色渲染利润的表格,这种表格叫作“突出显示表”。大家看一下,跟刚才有什么不同?

{%}

突出显示表

小白 颜色变成了橙色和蓝色,从图例上看应该是颜色深浅表示数值高低,我没理解错的话,橙色表示利润为负,也就是亏损的?

大麦 对。用颜色来渲染某个度量值时,如果这个度量值都是正数,就用单色系深浅表示数值高低;如果这个度量值的范围有正有负,那么Tableau会自动以0为分界用双色系渲染数据,默认是橙蓝色系。现在,应该很清楚哪些省是亏损了吧?现在我想换一个色系给大家演示一下,先点击“标记”功能区的“颜色”按钮,然后点击“编辑颜色”,弹出的对话框后在下拉框里面选择“红色-绿色发散”,点击“确定”看一下,能不能像刚才一样回答出哪些省处于亏损状态?

{%}

将默认色系换成红绿色系

小丁 我看不出来,我是红绿色盲。

大麦 谢谢小丁。现在大家明白为什么Tableau的色系默认用橙蓝色系了吧?

小白 哇,这也考虑太细致了吧!

大麦 我们把色系改回到默认的橙蓝色系。进一步回答一些问题,哪些省是销售额大、利润高的优质市场呢?哪些是亏损很严重的市场?那些好的市场是平稳的,还是逐步成长的?亏损的市场有没有改善的迹象?这个表格里的数据实际上是可以回答这个问题的,给大家1分钟的时间来观察和解读数据。

小白 1分钟时间到了,我认真地试了一下,完全没有头绪啊!虽然这份数据理论上是可以回答这些业务问题的,但是实践上看又很难回答。难道Tableau里面还有什么秘诀能让这些数字说话?

大麦 可以用轨迹分析,现在就用它来分析一下每个省的市场成长情况吧。首先新建一个工作表,因为是分析所有省的市场,所以不对省做过滤。然后把“销售额”拖放至“行”功能区,把“利润”拖放到“列”功能区,接着把“省”拖放到“标记”功能区的“标签”按钮上,把“利润”拖放到“颜色”按钮上,把“订单日期”维度拖放到“筛选器”功能区,最后选择2014、2015和2016这3个年度。因为2017年的数据不全,所以这个分析我们先排除2017年。然后我们得到这样的结果。

{%}

用动画轨迹展现省级市场成长状况

   在这个图上可以看到广东、山东和黑龙江是3个最好的市场,他们的销售额和利润都很高,而整体各省的市场评价则呈现明显的倒“V”形,其中一端是销售额和利润双高的市场,另一端则是高销售高亏损的市场。现在的问题是:几个最佳市场历年都是最好的,还是成长起来的?或是扭亏为盈的?因此,还要引入“时间”维度进行分析。过去我们的时间序列分析大部分是用折线图,刚才大家还一起尝试了热图,现在尝试一下基于页面功能的时间轨迹分析。

   我们把“订单日期”从“维度”窗格拖放到“页面”功能区,它默认变成了“年(订单日期)”胶囊,同时画面右边出现了轨迹播放控件,上面显示了2016年。下面还有个滑杆可以滑动调整年份,再往下是播放控制按钮,也就是倒放、停止和播放,而“播放”按钮右边是播放速度的三档选项。最重要的是下面的“显示历史记录”复选框,选中这个复选框,点击这个显示历史记录旁边的小下拉箭头,会弹出播放配置界面,我们自上而下设置为“已选定”“全部”“两者”,而标记和轨迹的设置则不做更改。

{%}

省级市场成长轨迹

   然后我们点击“播放”按钮,数据画面开始动态播放,播放到2016年时停止。我们按住键盘的Ctrl键,用鼠标选中“山东”和“辽宁”这两个省,画面上出现了两条轨迹线,轨迹线表明选中省历史年份的市场情况,我们可以很清楚地看出山东是成长型市场,销售额和利润在逐渐上升,而辽宁则是衰落型市场,近几年来销售额越来越高,亏损也越来越大,丝毫没有扭亏的迹象。

{%}

显示历史轨迹

小白 哇!这太酷了吧!

大麦 如果只想看最近一年的变化轨迹,也可以把全部数据标记的最近一个轨迹显示出来,我们改变一下历史记录选项,把“标记”历史记录设置为“全部”,把“长度”设置为“最后”“1”,把“格式”淡化调整一下,就可以得到这样一个图。

{%}

省级市场近一年的变化轨迹

小白 这个我得好好学学,这玩意简直太好玩了!

1.5 探究产品亏损的原因:产品维度分析

大麦 分析完时间维度和地理维度,我们继续来分析产品维度。对于产品维度来说,其中一个分析难点在于产品的数量很多,但好在一般情况下产品都是有一定的分类结构的,比如在我们的数据中,就包括类别、子类别和产品。我们希望像时间维度那样,先从宏观入手,逐层深入到细节,这个从宏观到微观的分析过程就称为下钻,下钻过程中数据逐层展开,越来越细。我们需要告诉Tableau下钻的方法,也就是下钻路径。在我们的数据中,这个产品的下钻路径是“类别”→“子类别”→“产品名称”。

小白 在时间维度分析的时候,“年”胶囊的左边有一个小加号,你说的下钻路径就是让维度胶囊左边出现这个小加号?

大麦 是的。构建这个钻取路径的方法非常简单,直接用鼠标按住子类别,将它拖放到“类别”维度上,这时就会弹出“创建分层结构”对话框,我们将这个分层结构命名为产品结构。然后再将“产品名称”维度拖放到分层结构中的子类别下面,这样就完成了用于钻取分析的分层结构,也叫下钻路径。现在把“类别”维度拖放到“列”功能区,把“销售额”拖放到“行”功能区,可以看到“类别”胶囊的左边有个加号,点击这个加号,“子类别”胶囊就自动出现在“类别”胶囊的右侧,并且“子类别”胶囊左边也有加号,点击它,“产品名称维度”胶囊就会出现,而整个视图中就会显示每个产品的销售额。

{%}

产品类别销售额分析

小白 可是我这里为什么是“类别”展开之后就是“产品名称”,而“产品名称”展开之后是子类别呢?

大麦 那是因为在层次结构中,你的产品名称放到了子类别上层。在层次结构中,维度的上下位置决定了钻取的路径顺序。

小白 哦,现在对了。

大麦 在数据分析的过程中,选择合适的分析粒度很重要,颗粒度太粗,会掩盖问题,颗粒度太细,又会迷失在细节中,难以发现问题。正如我们在做时间序列分析的时候,大多选择年月的颗粒度,而很少选择天的颗粒度。同样,在产品分析中,产品类别只有3大类,子类别有17类,产品名称则接近上千个,所以我们的分析粒度选择为子类别。

小白 “力度”?是分析力量强弱的意思吗?

大麦 不是表示强弱的那个“力度”,而是“颗粒度”,颗粒度越粗,表示分析得越宏观,颗粒度越细,表示分析得越微观、越具体。也有一些高级的分析方法是用很细的颗粒度来分析宏观的趋势或者构成,我们在日后的工作中遇到时再细说。

小白 能同时分析“销售额”和“利润”这两个指标吗?其实我们过去的报表中经常有多指标综合分析的。

大麦 正要说这个问题。销售额分析是单指标分析,如果要结合另外一个指标来分析,就会有多种分析方法。比如在“产品”子类别分析中,我们希望找到哪些是经营异常的子类别,类似于销售额很高却亏损的子类别,或者销售额和利润都很高的“产品”子类别。先说第一种方法,把“利润”度量拖放到“行”功能区,我们就得到上下两个条形图,像这样。

{%}

产品类别销售额和利润分析

   通过这种方法,我们可以了解到有两个产品子类别处于亏损状态,而其中的美术类别亏损比较少,不太容易被发现,而且从视觉角度来看,人的大脑会把条形图的每根柱子当作一个视觉对象来观察,这样图上要观察的对象就有点多了,而且不方便回答我们刚才提到的问题。所以用这个图做分析不是很理想。我们用工具栏上的“回退”按钮撤销刚才的操作,重新把“利润”度量拖放到画布的左边,鼠标提示这将生成一个并列条形图。

{%}

产品类别销售额和利润分析:并列图

   可以看出,虽然把上下两个图合并到了一个图上,但是柱子数量并没有减少,所以图表的复杂性并没有降低很多,我们还需要进一步尝试更好的表现方法。再次撤销刚才的操作,重新把“利润”度量拖放到画布的右侧,这时鼠标提示将生成一个双轴图,也就是把利润用另一根数轴来表示。

{%}

产品类别销售额和利润分析:双轴图

小白 可是现在变成很多点了,也不直观。

大麦 是的,这时我们需要更改图表的样式,Tableau中如果在“行”或“列”功能区有多个度量,那么可以为每个度量独立设置展现的图表样式。我们注意到“标记”功能区现在变成了3个部分——全部、销售额和利润,展开每个部分都可以独立设置图表样式,也都有颜色、大小、标签、详细信息、工具提示的设置。比如在这个图中,先选中“行”功能区的“销售额”胶囊,“标记”功能区会自动展开到销售额设置,在下拉框中选择“条形图”,画布上就呈现了条形图和散点图的组合。

{%}

产品类别销售额和利润分析:条形图/散点双轴

小白 但是有的子类别看起来利润比销售额还高?

大麦 这是左右两根坐标轴的刻度不一致造成的,会造成误解,所以还要做同步轴处理。在右边的“利润”数轴上单击鼠标右键,在弹出的快捷菜单中选择“同步轴”即可。

{%}

双轴同步菜单

小白 不过条形图和散点图的组合看起来仍然不是很直观,如果多个度量可以独立设置图表样式的话,是不是可以将利润设置成线图?用线柱组合看起来会更好一些。

大麦 可以,选中“利润”胶囊,此时“标记”功能区会自动展开“利润”设置,在下拉框中选择“线”即可。

{%}

产品类别销售额和利润分析:条形图/线图组合

小白 这个图比较常用,不过看起来有点小啊,画面也没充满……

大麦 可以使用工具栏上的画面比例下拉框来放大画面,其中可以选择标准、适合宽度、适合高度或者整个视图,这里我们选择“整个视图”。

{%}

设置视图大小

小白 这个组合图里面美术的亏损仍然不是很明显。

大麦 是的,所以我们可以继续探索更好的展现方法,充分利用可视化技术让数据更直观。比如把利润也改成“条形图”,然后调整一下大小,这样就产生一个柱中柱的双轴图表。

{%}

产品类别销售额和利润分析:柱中柱图

   柱中柱图适合用来做计划和实际的对比,但是用在这个分析中,对于亏损产品子类别的表现还不够明显,需要继续探索其他方式。我们新建一个工作表,把“类别”和“子类别”两个维度放到“列”功能区,把“销售额”放到“行”功能区,然后直接把“利润”度量拖放到“标记”功能区的“颜色”按钮上,这样就在不增加图表复杂性的基础上利用颜色呈现了第二个数据,并且如同我们之前用过的,对于有正有负的度量值,Tableau自动以0为分界用橙蓝双色系来展现。在这个图上,我们一下子就可以发现桌子和美术两个子类别是亏损的。

{%}

长度和颜色可视化运用

小白 果然很直观,也很漂亮!

大麦 我们发现两个亏损的产品子类别是桌子和美术,也发现书架和椅子是销售额和利润双高的产品子类别。为什么桌子和美术会亏损,我们有没有其他数据来支持进一步的分析呢?

大胡 有啊!数据里有折扣,可以分析一下是否与折扣相关。

小白 可是如何在现有的图上再增加“折扣”度量来分析呢?

小毛 双图、并列图、线柱组合、柱中柱……是不是还都可以用?

大麦 当然都可以使用,大家可以自己尝试一下,所用的方法跟我们刚才分析利润时一样。但是折扣的单位是百分比,与利润、销售额的单位差异巨大,我感觉组合图的效果会差一些。可以考虑一下现有的条形图还有什么视觉属性可以用来表现数据?

小白 比如宽窄?

大麦 没错,宽窄非常适合表现折扣,我们在这个图的基础上把“折扣”拖放到“标记”功能区的“大小”按钮上,此时画面上条形图的宽窄的确发生了变化,但要注意默认显示的聚合方法是“总计(折扣)”,这是不对的,我们对折扣的分析应该是分析平均值,所以将聚合方法改为平均值。

{%}

产品类别销售额、利润及折扣状况分析

小白 哦,果然我们发现了桌子和美术两个子类别的折扣最高!这个图用条形图的长度、宽度和颜色表示了3个指标,神奇啊!不过那个折扣的聚合方法默认就是汇总,每次都要改吗?

大麦 不用每次都改,对于“折扣”这种度量值,或者某些百分比类型的度量,我们可以将聚合方法的默认值直接设置为平均值,其方法是在“折扣”度量值上右击鼠标,在弹出的快捷菜单中选择“默认属性→聚合→平均值”就可以了。这样在各种分析中,Tableau就会自动使用平均值计算了。

{%}

多指标分析结论

   我们现在得到了一个很重要的发现,桌子和美术产品的高折扣造成了这两个子类别的亏损。但是如果继续追问,是不是每个地区都是这样的情形呢?我们先为当前这个工作表添加说明,重命名工作表。然后将这个工作表复制一个副本,再引入一个新维度——地区。把“地区”维度拖放到“行”功能区观察一下,这时画布上每个地区都生成一个条形图,这种图叫作Small Multiple,我们就叫它矩阵图吧,它实际是由一系列结构相同的图表构成的。矩阵图的信息量较大,是零售分析中常用的一种图表。

{%}

地区产品类别分析

小白 但是这个图看起来很热闹,按照你原先的说法,每个柱子是一个视觉对象,这个图上要看的东西就太多了,一眼看不过来。

大麦 我们可以简化这个图,把位于“行”功能区的“地区”胶囊拖放到“标记”功能区“平均值(折扣)”胶囊的下方,这个空白区域叫作详细级别区域或者LOD区域,它会影响视图中呈现数据的颗粒度。这时候画布上的条形图变成了堆叠图,我们可以一眼看出两个异常点,一是美术产品在华北地区竟然略有盈利,二是复印机产品在西南地区亏损。所以,合适的图表能够帮助我们发现更多数据中的问题。

{%}

地区产品类别分析:堆叠条形图

小白 这种图没怎么见过,竟然还有这种操作!

大麦 实际上条形图还有很多其他的变形类型,我们以后在工作中需要的时候再慢慢研究。以上分析的核心意思是,选择哪种图表的目的是让图表更方便地帮助我们查看和理解数据。千万注意,做各种绚丽的图表本身并不是目的!

1.6 初步客户画像:客户维度分析

大麦 分析完时间、地理、产品维度,我们再来分析一下客户维度。一个商业分析的基本思路是先沿着单一维度进行深入分析,最后再进行多维度的综合分析。所以,做完客户维度分析之后,就做跨维度的综合分析了。

小白 可是客户维度只有客户分类和客户名称两个字段,信息是不是有点少?

大麦 信息少没关系,仍然有不少可分析的内容。不过在商业实践中,客户维度是一个很复杂的维度,包含各种信息,比如性别、民族、学历、婚姻、职业、会员级别等,可分析的内容会更加丰富。我们今天先对客户总体情况做个客户分群吧。

大胡 补充一下,实际上我们积累的客户资料也是很丰富的,今天我们所使用的这份数据是销售数据,而客户数据在系统的另外一个表里面,确切地说,在另外一组表里面。而且今后对客户的分析会是数据分析工作的一个重点。

大麦 OK,我们今天先对现有的数据进行分析。刚才说对客户进行分群是希望把客户划分成几类。当然,如果按照地区或者客户类别进行分类,就没啥分析价值了,因为这些都是确定的。因此,我们可以根据客户的消费贡献来对客户进行分群,选取两个度量值对客户进行分类——销售额和利润。有了前面的分析基础,我们新建一个工作表,首先把“销售额”拖放到“行”功能区,把“利润”拖放到“列”功能区,然后把“客户名称”维度拖放到“标记”功能区的“标签”按钮上,最后在“标记”功能区的下拉框中选择“圆”标记类型,此时画面上就会出现这样一个散点图。

{%}

按销售额和利润进行客户分群:散点图

   显然右上角区域的客户是利润和销售额双高的客户,是我们的重要客户,而左下角是利润和销售额双低的客户。因为这个图并没有给我们一个明确分类的概念,所以我们对这个图进行进一步的处理。首先把“利润”度量拖放到“标记”功能区的“颜色”按钮上,然后把“折扣”拖放到“大小”按钮上。由于我们先前设置过折扣的默认聚合计算方法,可以看出这次折扣胶囊自动显示为“平均值(折扣)”。然后我们再加两条参考线对所有客户进行划分,把画面左侧的“数据”窗格切换为“分析”窗格,用鼠标按住“平均线”将其向画布中间拖放,这时候画布上出现一个悬浮窗口,把平均线拖放到“表-销售额”交叉区域,意思是对整个表的销售额添加一条平均线。接着我们从“分析”窗格中把“常量线”拖放到悬浮窗口的“表-利润”交叉区域,意思是对整个表的利润值添加一条常量线。最后,在弹出的对话框中输入常量值,我们输入0,然后回车。这时画面上就出现了十字交叉的两条线——销售额的平均线和利润的0值常量线。

{%}

在散点图上添加常量线和平均线,把客户分成4组

   这个图将画面分成了4个象限,也就是把客户分成了4个不同的类别,右上角是我们最有价值的客户,左上角是有盈利但销售额较低的客户群,下面两个象限是经营亏损的客户,我们再对工作簿的外观做一些修饰,比如添加边界,这样分析图就完成了。

小白 不赚钱的客户喜欢买高折扣的产品,圆球大小表示折扣高低,显然亏损客户的标记要更大一些!

大麦 是的,这就是我们做客户分析、客户分群的目的所在,通过数据了解我们的客户。

1.7 呈现你的观点和结论:仪表板和故事

大麦 我们刚刚对数据进行了一些基本的分析,包括时间维度、地理维度、产品维度和客户维度。由于大家都是第一次使用Tableau软件,我们用了最基本的分析方法,几乎所有的分析都是用鼠标完成的。同时,我们也发现了一些问题,比如销售的季节性波动规律,亏损的省和城市,亏损的产品以及原因等。现在需要做一些综合分析,也就是把刚才分析的内容综合起来,看有没有一些新的发现,这时需要使用仪表板。在“仪表板”菜单中选择“新建仪表板”,创建一个新的仪表板,我们发现整个界面发生了变化,左边是仪表板窗格,最上面有一个“设备预览”按钮,它用来创建适配不同设备类型的仪表板,我们暂且不用管它。下面是仪表板的大小设置,默认为台式机浏览器(1000×800)大小,我们可以通过下拉框将仪表板设置为固定大小、自动或者范围,这里我们选择“自动”,让仪表板画面自动占满整个屏幕空间。

{%}

设置仪表板大小

   下面是工作表列表,我们可以将工作表拖放到右侧空白的画布上去,默认情况下这些工作表会自动对齐,在合适的位置上松开鼠标,可以控制工作表在仪表板上的位置,我们把省级市场、产品分析的多指标分析图、客户分群散点图依次摆放到右侧画布上,结果像这样。

{%}

地区、产品及客户综合分析仪表板

   在画布右侧有很多图例,因为我们先前的分析保持了很好的一致性,比如用颜色表示利润,用大小表示折扣高低,所以删除那些大小图例和颜色图例,保留“日期”筛选器。点击“日期”筛选器,我们发现只有省级市场的数据在发生变化。

小白 能让这个筛选器作用于其他几个视图吗?

大麦 当然可以。方法很简单,在“时间”筛选器的旁边有个小的三角符号,用鼠标点击它,会出现一个快捷菜单,选择“应用于工作表”。

{%}

修改筛选器的作用范围

   默认情况下,这个筛选器是仅应用于此工作表的,选择“选定工作表”,在弹出的对话框里面选中仪表板上的所有3个工作表。单击“确定”按钮之后,再调整“年份”筛选器,此时仪表板上的所有工作表就都跟着变化了。

{%}

将筛选器作用于工作表

小白 很方便!

大麦 这就是仪表板的互动性设置,如果我们有更多的筛选器,也可以通过同样的方法让本来只属于某个特定工作表的筛选器作用于其他工作表。仪表板的另一个互动特性是图表的联动,当我们选中“省级市场”表格的某一行时,其他两个图表的数据会被过滤为当前所选定省的数据;当选择“省级市场”表格中的某个单元格时,其他两个图的数据就会被过滤为该省、该年度的数据。

小白 可以实现吗?

大麦 当然可以。把鼠标悬停到“省级市场”工作表上的时候,右上角的小工具栏中间有个小漏斗的图标,点击这个小漏斗,可以让这个工作表中的图表用作筛选器,来过滤仪表板上其他工作表的数据。

{%}

工作表用作过滤器

   现在再点击某个省,其他图表就自动跟着过滤了,数据非常清楚。

小白 那么产品分析也可以用作筛选器吗?点击某个子类别的柱子的时候,其他图过滤显示这个子类别的数据?

大麦 可以的。事实上,仪表板上的任何一个工作表对象都可以用作筛选器,其方法都是一样的。现在就把“产品多维度分析”这个工作表也用作筛选器。

小白 酷!

大麦 我们制作仪表板的目的是要做综合分析,所以需要使用图标筛选、公共过滤器等互动元素,增加仪表板的互动性。现在把仪表板重命名为综合分析,然后基于这个仪表板来分析一下数据。比如我们选择2017年,点击亏损省四川,大部分产品子类别都是亏损的,而且绝大部分客户也都是亏损的。不得不说,这是一个非常有意思的现象。

小白 果然啊,其他亏损省呢?

大麦 再选择另一个亏损省湖北,甚至我们可以按住键盘上的Ctrl键来进行多选,我们发现了什么?

{%}

对亏损省选择联动分析

小白 这些亏损省的情况非常类似,所有产品子类别都亏损,所有客户都亏损!

大麦 是的,基于这个数据,可以给我们的业务哪些建议呢?

大胡 这些省的亏损状况非常严峻,实际上我们先前也知道这个情况,只是没有今天看到的数据这么直观,这么令人印象深刻且感到惊讶。将这些省扭亏为赢是一个非常艰巨的任务,同时,我们需要向公司高层进一步咨询,这些省的亏损是战略策略有意为之,还是的确经营不利。如果是经营不利,那么这些市场会对利润造成拖累,继续经营还不如砍掉。

大麦 您说的非常有道理,有时候盈亏并不是唯一的经营考量,我也接触过一些企业,为迅速占领某地区的市场而采取激进促销,不惜亏损。如果从另外一个方面考虑,假如我们需要迅速提升公司的销售额和利润,又该从哪些市场入手呢?

大胡 这就要反过来看了,要想做得更好,当然要选择经营状况最好的省加大投入。对于现有的这份数据,仪表板上清晰地显示出广东和山东是最好的市场。我们可以看一下这两个省的数据吗?

大麦 可以,我们选中广东和山东,能够发现这两个省的产品经营和客户经营方面都非常好。这验证了我们的想法,如果要开拓市场,做大规模,重点应该对经营状况良好的几个省加大投入。

{%}

对盈利省选择联动分析

大胡 最后我们再对这个仪表板的格式做修整美化,就完成了一个像模像样的联动分析报告了。其实这个仪表板非常有用,能够帮助我们找到问题,协助我们确定业务发展的重点方向。如果把这个仪表板呈现给决策层,相信会对公司的业务决策产生很大的作用。

大麦 那么过去呈现给决策层的数据是怎样的方式呢?

大胡 PPT。不过PPT的数据没有互动性,很难阐述数据中的问题。

大麦 嗯,其实在Tableau中提供了一种方法,可以像PPT一样进行全屏展示,并且有更好的互动性和展示效果,这就是故事。我们在“故事”菜单中选择“新建故事”项,就会出现“故事编辑”界面。在这个界面中,左边窗格从上到下依次是新建故事按钮、工作表和仪表板列表、添加文本对象、标题显示设置和大小设置,而画面右半部分就是故事主体部分。和仪表板类似,我们先把故事大小改为“自动大小”,让故事占满整个屏幕空间,再把当前这个故事点的标题命名为“概览”,然后将左侧的添加文本图放到画布中间,输入我们分析的目的、数据、方法、核心结论、分析人员等信息,就像这样。

{%}

故事概要

   点击左侧窗格最上面的“空白”按钮,新建一个故事点,然后把“综合分析仪表板”拖放到画布中间,选中那几个亏损的省,编辑故事点标题为“亏损省份问题大”,再点击故事点上的“更新”按钮,这个按钮比较小,使用的时候要特别注意。

{%}

亏损地区概述

   接着用类似的方法新建一个故事点,再把“综合分析仪表板”拖放到画布中间,选中广东和山东,编辑故事点标题为“盈利省份潜力大”,然后更新故事点。

{%}

盈利地区概述

大胡 为什么每次都要点击那个“更新”按钮呢?

大麦 这是“故事”应用中一个非常重要的功能特性。每个故事点在更新之后,都能为故事点中的工作表或者仪表板生成一个快照,也就是说,故事点1中的仪表板可以是一组选择筛选器、参数、选择条件;而故事点2中同样的仪表板则可以是另一组选择筛选器、参数和选择条件。实际上,我们很多业务分析的故事都是基于同一个仪表板的不同选择条件组合得到的不同数据的观察结论。所以点击“更新”按钮是很重要的。

然后,我们再新建一个故事点,命名为“结论和建议”,在中间加入文字说明,就像这样。

{%}

故事总结

小白 哇!这个岂不是就可以替代PPT了?

大麦 是的,Tableau的员工很少使用PPT,我们有很多的客户在使用过一段时间Tableau软件之后,也用Tableau彻底代替了PPT进行会议演示。

大胡 我们在经营分析会上使用的PPT基本都是各种静态化的数据分析图表,显然内容缺乏互动性,不能深入分析,往往发现问题时,难以在会上进行进一步分析,只能安排另一次会议,极端情况下第二次会议还是分析不透,就再安排个会议。这样做决策效率低,时效性差,决策支持的效果也差。如果用Tableau的故事,就彻底避免这个问题了。

大麦 其实,我们做数据分析和呈现的核心目的是深入分析数据,从而支持决策,所以替换PPT本身并不是目的。我们刚才的分析过程也一直在强调,作为数据分析员,工作目的不是制做报表和图表,而是深入理解数据,为业务服务。

大胡 谢谢大麦。我希望部门里几位同事能够听进去,比学习产品用法更重要的是要转换思路。我们过去一直做报表、做图表,却很少做数据分析,更不用说通过数据分析对业务决策提供建议和支持了。如今是大数据时代,数据是公司最重要的资产,数据分析师也将在公司运营中发挥越来越重要的作用。除了让工作更有价值,我们也要让自己的职业生涯更有前景,大家了解报表设计师和数据分析师的差别吗?现在是“表哥”“表姐”,但是以后我们要成为数据分析师。有些业务用户已经开始把我们昵称为“茶树菇”(查数姑)了!数据分析师的职业路径就比较简单了,是数据分析师到数据科学家。

小白 扎心了,老铁!

大胡 别扎心,实话总是不好听。小白是实习生,大明对Tableau有一定的使用经验,咱们内部先安排一下,大明重点带一下小白,开始用Tableau分流我们现有的一些数据分析需求,把适合的需求转化为用Tableau来支持,重点是强化分析本身,开始试着通过数据给业务提建议。其他几位同事也要一方面完成手头的任务,另一方面开始学习Tableau,未来我们都要转型为数据分析师。

小白 哈,大明哥当我的馒头,太好了。

大明 馒头?

小白 哦,Mentor!

大胡 咱们自己也要多组织一些内部的学习活动,共同提高Tableau的使用技能。有问题的话攒一攒,请Tableau的大麦来帮大家解决一下,大麦可以提供支持吗?

大麦 愿意效劳!

目录

  • 前言
  • 第 0 章 没有Tableau的日子
  • 第 1 章 分析师起步:Tableau的第一堂课
  • 第 2 章 破解难题:Tableau连接复杂Excel 数据
  • 第 3 章 通过数据洞察业务:Tableau计算基础
  • 第 4 章 初识表计算
  • 第 5 章 增收不增利,成长有隐忧:Tableau 计算进阶
  • 第 6 章 欢迎进入Tableau计算深水区:LOD 表达式概述
  • 第 7 章 老客户贡献分析:集的应用
  • 第 8 章 客户80/20定律:快速嵌套表计算
  • 第 9 章 关注重点产品:排序
  • 第 10 章 数据桶与指标分段:数据分组
  • 第 11 章 销售要重新划地盘儿啦:手工分组
  • 第 12 章 灵活的KPI分析:数据混合与嵌套表计算
  • 第 13 章 提升分析性能:数据提取
  • 第 14 章 把数据分析和网络百科相连:动态仪表板
  • 第 15 章 一切都可以图形化:自定义地图应用详解
  • 第 16 章 更多的灵活与互动性:参数概述
  • 第 17 章 分析常常就是筛选过程:筛选器概述
  • 第 18 章 让数据更生动:自定义形状
  • 第 19 章 流向分析:桑基十八式
  • 第 20 章 数据准备也能可视化:Tableau Prep
  • 第 21 章 职业困惑:数据分析师有没有前途