本书结构

本书面向的是熟悉软件开发的读者,以及关注统计、机器学习技术的朋友,希望能够帮助他们快速学习R 语言。因此,书中讲解了我认为最重要的R 函数与相关包,使各位能够在短时间内了解并使用。我尽量使书中代码可以独立运行,并且添加了许多代码的运行结果截图,以帮助各位轻松理解所学内容,而不必每次都要亲自运行。

本书不讲解编程基础,也不介绍相关理论,所以不会详细叙述变量、变量作用域、循环语句含义等编程语言中的基本概念。相关内容的讲解虽然涉及统计学、机器学习等基本概念,但不会对理论部分进行深入介绍。其实,一本书不可能涵盖所有内容,书中列出了相关参考资料,各位可以进一步学习。此外,由于本书旨在使各位掌握R 语言的使用方法,所以不会涉及R 语言的内部结构和使用R 语言创建库等内容。

●第1 章介绍R 的安装、启动、开发环境等。

●第2 章与第3 章讲解数据存储中使用的多种数据类型、条件语句、循环语句等基本编程知识,以帮助各位了解使用R 进行编程的基本方法。

数据分析中,先要读入数据,然后计算总值或平均值,再创建模型进行评估。整个过程看似简单,实则不然。创建模型前需要耗费相当长的时间对数据进行预处理,因为数据分析中得到的数据资料往往都是未经整理的原始数据。比如,即使是同样的体检数据(如175 cm),也会随着输入者的不同而有1.75 m、175 cm、175.0 cm、175 等形式。使用这些数据前,需要对其进行统一处理,以便后续使用。

我们有时需要从数据已有属性推导新属性,比如通过身高、体重数据计算BMI 指数,并将其作为新属性存储到数据。

像这样,数据经过一系列处理后,才能分组计算数据的总值、平均值等基本统计量,才能帮助我们更好地了解数据特征。比如,按照班级、科目分别计算学生的平均成绩。

●第4 章与第5 章介绍R 中的基本函数与应用包,它们贯穿数据分析全过程。随着函数的增多,学习开始变得有难度,需要耗费大量时间,但这也恰恰表明其重要性。第4 章与第5 章讲解的数据主要为数值或表格形式,而第6 章讲解数据可视化。对数据倾向性进行判断或比较时,采用柱形图、折线图、密度图等形式,这比采用数值或表格形式更易于理解。

●第7~10 章主要讲解统计分析、线性回归、分类算法(Classification Algorithm)应用方法等内容,它们对整理好的数据进行分析建模。主要内容包括数据平均值是否不同、比值间是否有差别、向数据应用Y=aX+b 等简单关系式计算a 与b 的值、使用机器学习算法预测数据分类。

●第11 章讲解建模示例,对“泰坦尼克”号生还者数据应用分类算法,创建预测乘客生还可能性的模型。这一章的示例代码包含本书全部内容,有一定难度,但是一个完整的系统。各位以后创建机器学习模型时,可以参考第11 章的示例代码,相信会得到很好的启发。

目录

  • 推荐语
  • 前言
  • 本书结构
  • 第1章 搭建R编程环境
  • 第2章 数据类型
  • 第3章 R语言编程
  • 第4章 数据操作Ⅰ:基于向量的处理与外部数据处理
  • 第5章 数据操作Ⅱ:数据处理及加工
  • 第6章 绘图
  • 第7章 统计分析 
  • 第8章 线性回归
  • 第9章 分类算法Ⅰ:数据探索、预处理、模型评估方法
  • 第10章 分类算法Ⅱ:机器学习算法
  • 第11章 利用泰坦尼克数据练习机器学习