译者序

译者序

伴随着互联网的高速发展和以云计算为代表的技术创新,过去难以收集和存储的大量数据得以集中管理和使用,大数据时代已经来临。然而,如何发掘大数据这座金矿,使之在商业领域体现其最终价值,这属于数据科学(Data Science)的范畴,也是数据科学家(Data Scientist)的工作职责所在。

要想成为一名合格的数据科学家,不仅需要拥有深厚的统计学等理论基础,更需要有较强的业务能力、对数据的敏感性以及处理实际商业数据的经验。对于这一点我深有体会。在日本留学期间我有幸进入乐天技术研究所(Rakuten Institute of Technology),这也是我第一次接触到生产环境下的数据。然而在面对公司实际问题时,我拿着海量的各种日志数据却经常有种不知从何下手的感觉。

这是因为现实中我们需要面对的不再是抽象的理论,而是真实的生产环境下的问题,并且生产环境下的数据噪声远比实验室中使用的数据要高。面对这些问题,作者在本书中给出了很好的答案,在理论与实际之间搭建了一座桥梁。本书没有教条似的说教,而是使用某个游戏公司实际工作中所遇到的问题作为案例,让读者在解决具体问题的过程中理解数据分析的整个流程。特别是当涉及逻辑回归、聚类、主成分分析等理论性较强的内容时,本书没有使用大篇幅的理论解释和数学推导,而是在实践过程中对各类机器学习算法进行详尽而又通俗易懂的介绍。更难能可贵的是,为了使得本书的内容更贴近生产实践,书中使用的各种案例的数据均为未经清洗的原始日志数据,这使得读者可以接触到实际生产环境下的数据,从而避免了纸上谈兵。

本书适合各大公司的数据分析师、算法工程师、数据挖掘工程师以及今后立志从事数据分析和数据挖掘工作的高校学生阅读。

在翻译本书的过程中,非常感谢图灵公司的各位编辑所给予的帮助。同时也感谢我的妻子李春姬在怀孕期间对我工作的默默支持,感谢我的儿子明诚一直很乖地陪伴。希望本书能够对读者在实际数据分析工作中有所帮助。

 

肖峰

2016 年 12 月于北京

目录

  • 版权声明
  • 译者序
  • 前言
  • 第 1 章 数据科学家的工作
  • 第 2 章 商业数据分析流程
  • [ 分析基础 ] 篇
  • 第 3 章 案例❶—柱状图 为什么销售额会减少
  • 第 4 章 案例❷—交叉列表统计 什么样的顾客会选择离开
  • 第 5 章 案例❸—A/B测试 哪种广告的效果更好
  • 第 6 章 案例❹—多元回归分析 如何通过各种广告的组合获得更多的用户
  • [ 分析应用 ] 篇
  • 第 7 章 案例❺—逻辑回归分析 根据过去的行为能否预测当下
  • 第 8 章 案例❻—聚类 应该选择什么样的目标用户群
  • 第 9 章 案例❼—决策树分析 具有哪些行为的用户会是长期用户
  • 第 10 章 案例❽—机器学习 如何让组队游戏充满乐趣
  • 著作权声明