干净的数据:数据清洗入门与实践
6推荐 收藏
18.4K阅读

干净的数据:数据清洗入门与实践

Megan Squire (作者) 任政委 (译者)
掌握高效数据清洗方法,为数据挖掘提供便利,让用户更好地体验大数据价值!

本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。

本书适合任何水平的数据科学家以及对数据清理感兴趣的读者阅读。

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布等。

电子书
¥24.99
格式
mobi   pdf

纸质书
¥38.71 ¥49.00

出版信息

  • 书  名干净的数据:数据清洗入门与实践
  • 执行编辑关于本书的内容有任何问题,请联系 傅志红
  • 出版日期2016-05-09
  • 书  号978-7-115-42047-3
  • 定  价49.00 元
  • 页  数200
  • 印刷方式黑白
  • 开  本16开
  • 出版状态暂时缺货
  • 原书名Clean Data
  • 原书号978-1785284014

本书特色

数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。

本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。

如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!

- 理解数据清洗在整个数据科学过程中的作用
- 掌握数据清洗的基础知识,包括文件清洗、数据类型、字符编码等
- 发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能
- 学会常见数据格式的相互转换,如JSON、CSV和一些特殊用途的格式
- 采用三种策略来解析和清洗HTML文件中的数据
- 揭开PDF文档的秘密,提取需要的数据
- 借助一系列解决方案来清洗存放在关系型数据库里的坏数据
- 创建自己的干净数据集,为其打包、添加授权许可并与他人共享
- 使用书中的工具以及Twitter和Stack Overflow数据,完成两个真实的项目

目录

版权声明 阅读
前言 阅读
第 1 章 为什么需要清洗数据 阅读
第 2 章 基础知识——格式、类型与编码
第 3 章 数据清洗的老黄牛——电子表格和文本编辑器
第 4 章 讲通用语言——数据转换
第 5 章 收集并清洗来自网络的数据
第 6 章 清洗PDF文件中的数据
第 7 章 RDBMS清洗技术
第 8 章 数据分享的最佳实践
第 9 章 Stack Overflow项目
第 10 章 Twitter项目

作者介绍

Megan Squire 依隆大学计算科学专业教授,主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者,致力于收集与分析数据,以便研究免费软件、自由软件和开源软件的开发。

<译者简介>
任政委 辽宁滨城大连现役程序员一枚,长期从事一线软件开发工作,近年来为成为一名“思路清晰”“视角独特”“不搞办公室政治”“输出有生命力代码”“凭借技术知识普惠初中级IT从业者”的终身制全栈式程序员而不懈努力。曾经翻译《Oracle PL/SQL攻略》一书,并希望这本《干净的数据》能够为奋战在IT前线上的各界小伙伴们带来日常工作之外的另类体验。微信号:KNIGHTRCOM
  • 老实讲 这本书内容坑爹的很 ……信息量太小了
    梅葆瑞  发表于 2016-05-14 21:47:50
    推荐
    • 不是吧,信息量是信息论的内容么

      赵明威  发表于 2016-05-25 20:03:36
    • 我的意思就是…………这本书讲得有用的东西太少了……

      梅葆瑞  发表于 2016-05-26 10:13:14
    • 同意,看目录就能猜到会讲些什么。

      vpoint  发表于 2016-05-30 13:36:31
    • 就是入门啊兄弟

      bliu23  发表于 2016-09-30 07:45:53
    • 然而结合下页数和价格……

      梅葆瑞  发表于 2016-10-09 08:47:26
  • 这本书主要指导我们如何清洗,整理现有的数据
    MathIF  发表于 2015-07-20 19:21:29
    推荐
  • 果然信息量太少,实在后悔没看评论就买了。不建议买。
    德国饺子  发表于 2016-10-29 17:51:43
    推荐