译者序

译者序

不同于其他讲述数据科学的书,本书从非数据科学人员,也就是管理者、投资者甚至工程师等人员的角度,阐述了数据科学这一新兴行业(或学科)的基本原理和基础理念,而这正是本书的惊艳之处。

作为一名数据科学工作者,身处数据科学快速发展的浪潮之中,我近年来参与了多家企业的数据项目。这些企业中虽然很少有像阿里、百度、电信那样的超大规模公司,却不乏经营了十几年或信息化多年的老牌企业,而这些企业希望利用积累多年的经营数据来实现精细化经营。此外,也有很多不同行业的创业公司希望将大数据分析和挖掘作为契机来“撬开”市场。他们(包括我自己)最常遇到的问题,就是难以正确地评估数据的成本和价值以及恰如其分地把握数据项目的路径和节奏。当“商业智能”“大数据”“数据挖掘”“数据分析”“智慧城市”“智能运营”“增长黑客”“机器学习”“深度学习”“人工智能”等热门词语轮番被媒体和业界追捧的时候,技术人员关心如何快速地“掌握”算法包从而提高薪酬,经营者关注如何搭上热点的快车,却很少有人冷静地分析这些热点背后的实质——数据科学。2018 年,我翻译本书之际,正值信息技术产业遭遇寒流,很多创业公司(特别是一些“数据”“智能”公司)停滞甚至关闭,大量创投遇冷,而本书所述的数据科学的原理和理念或许可以帮助我们理解、反思这些现象。

试举两个例子。一家号称经营“能源智能运维”的企业积累了很多设备数据,希望以此构建故障的预测算法,进而实现提前备件和维护的能力。但是,我们在评估这些数据时,却发现其中并没有关于“故障”的清晰、准确的记录。于是,我们告知企业的管理者他们缺乏有效标注数据(相关概念可以参见本书第 3 章),希望他们能够改善数据积累流程,也就是智能运维的数据收集机制。但是该企业坚持认为数据已经足够多(实际上,数万台设备的秒级数据,量的确很大),没有接受我们的建议。目前这家企业已经转型做施工了。

另一个案例和一家上市公司与政府合作的 PPP 新项目有关。上市公司打出大数据驱动的旗号,并声称他们将“整合行业资源,利用数据为行业‘赋能’”,一时间备受瞩目。然而该项目有一个最大的问题:没有数据。在项目筹建初期,决策层为了能“漂亮”地亮相,将本应用于工程和数据团队的预算用在了装修和高价购买数据上。因此,系统虽然“上线”了,但是其中的数据是“死”的。正是由于上市公司没能正确地评估数据的价值,积极寻求数据路径(相关内容参见本书第 1、2、13 章及附录),一年之后,该项目依然没有稳定的数据源。所幸,经过一番人事更迭,两三年后该项目重回起点,踏踏实实地从头开始运营,目前已经颇具名气。

本书第 3~12 章虽然讲了若干基本的数据科学方法,但是视角颇为独特。本书按照方法的基本原理而非功能(例如回归分析、分类分析、聚类分析、关联分析等经典归类法)来归类。以我的理解,这是根据数据所蕴含的信息量进行的分类。书中不仅很少有公式,甚至一行代码也没有出现,跟任何编程语言都无关。这绝非刻意迎合非技术背景的读者,而是因为阐述数据科学的原理和理念本就不需要任何代码,少量的公式只是为了帮助读者了解确实存在一些确定的方法来量化地表示那些看似模糊的概念(如信息量)。

书中第 13 章所述案例恰当地指出了数据团队和经营管理者之间沟通的障碍所在。作者显然也受过不少“委屈”,书中描述的一些情景似曾相识,让我在翻译过程中哑然失笑。但是,这些障碍不能只归咎于管理人员。第 7、8、11 章中介绍的一些评估方法,让我能更多地从经营者和管理人员的视角看待数据问题,因此本书除了面向非数据科学背景的读者,也绝对适合数据人员。它有助于降低数据团队内部沟通以及团队与外部沟通的成本,从而提升数据团队的价值。

数据科学本身并不是一个非常新的行业或学科。早在 20 世纪,一些美国电影中就出现过依据数据进行决策的桥段。只不过它在众多耀眼的近义词的喧嚣中显得很普通。本书讲述了数据科学的原理和方法,并特别强调了 CRISP-DM(跨行业数据挖掘标准流程),该流程可以帮助数据项目建立合理的路径和里程碑,有效控制数据项目的风险。同时本书向我们传达了数个有关数据科学的理念,例如:“数据和数据分析能力应被视为企业的资产而非成本”。

本书的另一位译者,管晨女士,是我曾经的学生,也是我现在从事数据驱动运营的同事,我们共同翻译了本书的每一章。此外,我还要特别感谢王大鹏和张国文在本书翻译过程中提供的重要意见和建议。两位都曾上过我的课,现在大鹏是我的同事,也是数据挖掘方面的专家,而国文也活跃在咨询行业的多个数字化转型项目中。

图灵公司的图书充满了科技气息,是我的最爱,我非常荣幸有机会参与到图灵公司的图书出版中。最后,特别感谢图灵公司的编辑朱巍、岳新欣和祁玥以及幕后很多我还不知晓姓名的编辑老师们,他们的辛勤工作和严格要求保障了本书的翻译质量。

郭鹏程

2019 年 9 月

于山东济南

目录