“3 天了,我还在做数据预处理。”

“第 1 步就卡住了,数据预处理也太难了吧!”

“妈呀,弄了我几个月的问题,原因竟然是我预处理数据的时候方法不好。”

“脑子空空如也,此时此刻,为啥没有人告诉我,原来我可以死在数据预处理上。”

……

网上随手搜一下,就会发现对数据预处理的抱怨比比皆是。围绕数据预处理的关键词有两个——“重要”“难”。很多数据分析相关的图书和文章这样介绍预处理:

  • 预处理的工作量占数据分析任务的 80%
  • 预处理是数据分析中必不可少的工程

预处理之所以重要,是因为它会对后续的数据分析质量、模型预测精度产生极大影响。我们在实际项目中拿到的数据往往是杂乱无章的(数据缺失、数据不一致、数据重复等),要想应用恰当的分析方法得到理想结果,就必须通过一些方法提高数据质量,而这就是预处理的工作。

预处理如此重要,市面上相关图书却少之又少,原因在于预处理是一项难以总结的技术,其知识不够体系。这就导致我们只能得到一些碎片式的信息,无法系统了解。专业资料之匮乏,可能也是这本《数据预处理从入门到实战:基于SQL、R、Python》| 1 本书掌握大数据、人工智能时代需要的数据预处理技术,KDD CUP 2015亚军得主多行业实战经验总结,原版一上市就迅速进入日亚计算机类图书销量排行榜 No1,并在 3 个月内重印 4 次的原因之一。

如果你对数据预处理感兴趣,或者正在受其困扰,不妨读一读这本书。

本书结构

(覆盖各种类型的数据预处理任务,系统而全面)

(覆盖各种类型的数据预处理任务,系统而全面。)

本书特色

1. 54 道例题,涵盖常见数据预处理技术

采用问题驱动式结构,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。

(本书例题示例)

(本书例题示例)

2. 3 种语言实现对比,把握每种语言的特长

分别用 SQL、R、Python 对比解决相同的案例问题,可以了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。

enter image description here enter image description here enter image description here

3. 同时给出一般代码与理想代码,优化处理的关键一目了然

对于每道例题,都同时给出用 SQL、R、Python 这 3 种语言所写的一般代码与理想代码,并对代码中的关键点进行说明。读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。

enter image description here

4. 通过 3 个综合的实战案例,带领读者体验真实的预处理过程

案例之一

(案例之一)

(针对案例首先给出预处理步骤,再分步骤详细讲解。)

(针对案例首先给出预处理步骤,再分步骤详细讲解。)

读者对象

适合新手数据科学家和对数据分析、数据挖掘感兴趣的读者阅读。

初学者可以先浏览目录,选择感兴趣的章节仔细阅读,以在自己的业务中灵活应用;有一定经验的读者通过阅读本书,可以查漏补缺,进一步提高预处理效率。

任何工作都有辉煌的瞬间,例如足球运动员进球的瞬间,厨师大火收汁后菜肴出锅的瞬间,专家顾问做报告的瞬间。而对于数据科学家,最辉煌的大概就是有了奇妙的发现或创建出高精度模型的那个瞬间。辉煌的瞬间是否会到来,与前一阶段准备工作的好坏密切相关。不同于那一刻辉煌的瞬间,准备的过程往往平淡无奇且漫长,但成败也正是在这一阶段决定的。如果你的目标是成为一流的数据科学家,那就跟随这本书,把平淡无奇的预处理做到极致吧!