第一部分 探索

第一部分 探索

本书第一部分的目的是让你尽快掌握数据探索的基本工具。数据探索是一门艺术,它可以审视数据,快速生成假设并进行检验,接着重复、重复、再重复。数据探索的目的是生成多个有分析价值的线索,以供后续进行更深入的研究。

你将在本部分中学习一些非常有用的工具,它们的效果立竿见影。

  • 可视化是开始 R 编程的一个非常好的起点,因为其回报非常明确:你可以做出样式优雅且信息丰富的图形来帮助自己理解数据。在第 1 章中,你将深入钻研数据可视化,学习 ggplot2 图形的基本结构以及将数据转换为图形的强大技术。
  • 只进行可视化通常是不够的,因此你将在第 3 章中学习一些非常重要的操作,其中包括选取重要变量、筛选关键观测、创建新变量,以及计算摘要统计量。
  • 最后,在第 5 章中,你将利用数据可视化技术和数据转换技术,结合你的好奇心和怀疑精神,对数据提出有趣的问题并试图找到答案。

建模是数据探索过程中非常重要的环节,但你现在还没有掌握有效学习和应用模型的技能。一旦你掌握了更多的数据处理工具和编程工具,我们将在第四部分继续讨论建模技术。

在讲授数据探索工具的 3 章间,我们穿插了介绍 R 工作流的 3 章内容。在第 2 章、第 4 章和第 6 章中,你将学习编写和组织 R 代码的最佳实践。从长远来看,这会为你的成功打下坚实的基础,因为这几章介绍的工具可以让你井井有条地处理实际项目。

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 前言
  • 第一部分 探索
  • 第 1 章 使用 ggplot2 进行数据可视化
  • 第 2 章 工作流:基础
  • 第 3 章 使用 dplyr 进行数据转换
  • 第 4 章 工作流:脚本
  • 第 5 章 探索性数据分析
  • 第 6 章 工作流:项目
  • 第二部分 数据处理
  • 第 7 章 使用 tibble 实现简单数据框
  • 第 8 章 使用 readr 进行数据导入
  • 第 9 章 使用 dplyr 处理关系数据
  • 第 10 章 使用 stringr 处理字符串
  • 第 11 章 使用 forcats 处理因子
  • 第 12 章 使用 lubridate 处理日期和时间
  • 第三部分 编程
  • 第 13 章 使用 magrittr 进行管道操作
  • 第 14 章 函数
  • 第 15 章 向量
  • 第 16 章 使用 purrr 实现迭代
  • 第四部分 模型
  • 第 17 章 使用 modelr 实现基础模型
  • 第 18 章 模型构建
  • 第 19 章 使用 purrr 和 broom 处理多个模型
  • 第五部分 沟通
  • 第 20 章 R Markdown
  • 第 21 章 使用 ggplot2 进行图形化沟通
  • 第 22 章 R Markdown 输出类型
  • 第 23 章 R Markdown 工作流
  • 作者简介
  • 封面简介