前言

前  言

不久前有一段卡通视频非常流行,它从不同的视角展示了一架飞机。从防御装备的视角来看,整架飞机都采用了重型装甲。从武器装备的视角来看,飞机到处都配有火炮和火箭弹。从轰炸的视角来看,飞机携带了各种各样的炸弹。从飞行员的视角来看,该飞机造型优美且机动性良好。从工程师的视角来看,飞机上配置了各种各样的部件、按钮和小装置。

上述各个视角之间存在的问题在于,它们完全不同而且彼此不相称。到了最后,飞机其实是各个视角相互妥协的产物。在最终的实际产品中,每一个视角的优化都不能以牺牲其他视角为代价。

数据的情况与之非常类似:不同的人群对于数据有着不同的看法。有些群体需要处理海量数据;有些群体希望能够以近乎瞬时的速度在线访问详细数据;有些群体希望拥有严格控制完整性的数据;而有些群体则只关心自己的“个人”数据,希望能够使用计算机轻松快捷地创建和处理自己的数据版本。

每个群体都有自己的视角,都在自己的世界里有合乎情理的观点。不过数据无法同时满足所有的视角和所有需要。

数据很复杂,本身涉及很多方面,也有很多种用途。

本书旨在围绕数据展开研究,探索较为宽泛的数据架构问题。本书试图展现组织或企业中所有的数据用途和视角。此外,本书试图以一种合理、公平的方式来平衡所有对数据的需求和看待数据的视角。

本书首先介绍了企业中看待数据的最主流视角。为此,首先要明白企业数据存在广泛的多样性。要想有效地使用数据,组织就必须根据不同的情况来处理数据。

有些书是讲“如何做”的书,例如手册;有些书是讲故事的书,例如小说和非小说文学;还有些书是纯粹逃避现实的娱乐性书籍。与它们不同,本书是一本描述性的书,是一本讲“是什么”的书,是一本关于大而复杂的架构的书。形形色色的数据就像马赛克一样,而各个组织的数据都是不同的。本书首先从一个比较高的架构层次讲述数据,然后深入到清晰、易于理解的细节,确保你明白本书所要讲述的内容。

现在,关于数据有很多令人混淆的说法(只要有电脑就会存在这样的情况),而其中大部分是由技术供应商引起的。技术供应商并不会提出荒唐和毫无依据的说法,但是他们很容易渲染和夸大自己的案例。最糟糕的是,技术供应商还可能会有“近视”的毛病,并深受其害。在对数据的认识方面,技术供应商很容易管中窥豹。他们很可能向人们呈现这样一种对世界的看法:自己的技术在现在或者未来是唯一的;而这并不是现实。这种由技术供应商引起的严重“近视”会造成很大的混乱。

有关大数据的说法很容易让人们在理解大数据的现实性和可能性时迷失方向。本书着眼于大数据是如何适用于决策领域的。本书从如下几个重要的视角进行思考:当前企业是如何进行决策的,企业应该如何进行决策,以及在大数据条件下如何进行决策。

本书主要涵盖了以下几个主题。

 企业数据

企业数据是指整个企业的信息全景。在企业中有很多种不同类型的数据。本书展示了一种数据视角,并且在很高的层次上阐述了如何在企业决策过程中使用(或者不使用)数据。

 大数据

讲述了大数据是什么,以及它能够如何增强企业的决策。大数据有几种不同的定义。本书采用了一种非常务实的大数据观点,然后讨论了它的一些突出特点。大数据最明显却并未被技术供应商所提起的一个特征是重复型大数据和非重复型大数据之间的差异性。重复型大数据和非重复型大数据之间深刻的差别也称作“分界线”。本书之所以值得购买,正是因为通过阅读本书你可以很容易地理解这条“分界线”,而且本书对企业决策能力也有所启示。

 数据仓库

数据仓库面向企业数据完整性方面的需求。总有一天,企业会开始领悟到这样的事实:拥有数据和拥有可信的数据并不是一回事。他们醒悟之后意识到了“数据完整性”的意义。这个时候,企业级数据仓库(enterprise data warehouse,EDW)诞生了。有了EDW,企业可以利用其中的基础数据制定重要、可信的决策。在EDW出现之前,企业已经有了大量的数据,但这些并不是可信的数据。

 Data Vault

Data Vault面向管理随时间推移而发生数据变更的需求。数据仓库会随着时间推移而不断演化,这最终形成了一种名为Data Vault的学科和结构。不论过去还是现在,都有多种原因采用Data Vault作为具有完整性需求的系统的主干。

 业务系统

业务系统面向企业日常业务运作方面的需求。由于管理超大规模数据量和数据完整性方面的需求,需要一些能够运行和增强组织日常业务的系统(今后也一直需要)。

 架构

架构是指如何以一种整体而内聚的方式将不同类型的数据和不同类型的数据需求组织到一起。认识企业中各种数据视角的不同需求是一回事,而设想如何以一种整体而内聚的方式将不同类型的数据组织到一起则是另外一回事。

通过阅读本书,你会了解如何将企业中所有形式的数据组合到一起。本书旨在提供一个关于企业全部数据的高层次、全方位的视图,并且介绍如何使不同的数据形式以建设性的方式相互协作。

本书面向管理人员、架构师、业务人员和技术人员。所有参与企业决策的人都会从本书中受益。对本书特别感兴趣的人群是数据科学家。对于一名数据科学家来说,本书就像一本地图册,标绘出了世界上不同的大洲和海洋。数据科学家再也不需要去摸索着认识一个被认为是“平的”的世界,也不需要通过反复的艰苦探索来完成对岛屿和大陆形状的认知。

很多年前,当我还是耶鲁大学一年级的学生时,Ernest Lockridge博士是我的英语老师。他讲授的是英语作文课,也是我唯一上过的英语作文课。那时候我和Ernest Lockridge博士都不知道这今后会对我有什么样的影响。后来我撰写了53本书,我由衷感谢他对我的指导和启示。如果我没有记错(毕竟过了这么多年),Ernest Lockridge博士是第一位称呼我为“Inmon先生”的人。这一直印在我的脑海里,直到今天,久久不能忘怀。

我终生感谢Ernest Lockridge博士。

WHI/DL

2014年3月25日

目录

  • 译者序
  • 前言
  • 第 1 章 企业数据
  • 第2章 大数据 
  • 第3章 数据仓库
  • 第4章 Data Vault
  • 第5章 作业环境
  • 第6章 数据架构 
  • 第7章 重复型分析
  • 第8章 非重复型分析
  • 第9章 作业分析1 
  • 第10章 作业分析2
  • 第11章 个人分析
  • 第12章 复合式的数据架构
  • 词汇表