推荐语

大数据应用、大数据分析都是现在十分热门的话题,这些内容涉及各个领域,甚至在广告文案中也可以看到。但对于如何应用大数据,人们的概念依然相当模糊。在许多人眼里,只要引入大数据技术,一切问题就能迎刃而解。然而,如果你是一名软件工程师,就必须对数据分析、假设、模型设置、检验、应用等所有过程具备正确理解,并能够灵活运用。

大数据应用与分析中,最重要的是如何看待大数据、如何树立假设检验,以及如何应用模型。要想拥有这样的能力,除了掌握基本的编程语言之外,还要通过对多种数据的分析实战不断积累经验,加深对相应知识的理解、认识,最终才能找到答案。R 不仅是一种编程语言,还提供了数据分析环境,为我们学习数据分析提供了强大的支持与工具。

目前,韩国国内已经有许多关于R 的翻译图书,也有很多学习课程。但是,本书特色在于作者是谷歌的软件工程师,书中内容是作者多年学习与应用R 的经验总结。本书从软件工程师角度讲解R 语言基本语法、函数等内容,如同作者本人坐在身旁专门为你讲解一样。书中还有“提示”格式的内容,用于介绍实际编程中需要了解的知识。

本书后半部分介绍了应用于实际业务的统计分析、数据挖掘以及与机器学习相关的分析模型与算法,重点讲解基本的模型与算法,并配以精选示例,使各位能够看到实际运行的结果。其他图书讲解分析模型与算法时,往往容易陷入理论的泥潭,但本书站在软件工程师角度进行讲解,简单明了,具有很强的实用性。

与其他外版翻译书和参考书不同,本书不仅对R 语言进行了介绍,还讲解了分析模型与算法的理论知识,并结合精心挑选的示例,使读者深入理解基本知识的同时,学习并掌握具体的应用方法与技巧。如果你是软件工程师——即使不从事大数据相关工作——我强烈建议阅读本书,相信会有很多收获。

——谷歌韩国技术部经理 朴勇灿

KDnuggets(http://www.kdnuggets.com)是数据挖掘专业的知名网站,每年都会进行题为“在过去的12 个月中,哪些数据分析、数据挖掘、数据科学软件与工具的实际应用最广泛?”的问卷调查。结果表明,多年来,有一种软件与RapidMiner 一直占据着榜单首位,这款软件就是本书讲解的主题——R 语言。实际项目中广泛应用R 语言的原因在于,其使用方便、功能丰富、支持多种环境、容易扩展,并且是免费的。

本书内容丰富多样,还给出了多种示例,涵盖从R 的基本知识到使用R 进行数据处理与挖掘的各种方法,相信能够为各位提供大量帮助。如果你是刚刚入门统计与数据挖掘的学生,本书将帮助你将所学知识快速应用于实战,更好地完成研究课题;如果你是一名数据分析从业者,那本书将是一本不可多得的参考书,能够帮助你深化理解与认识,进一步提高数据分析水平。

——谷歌韩国软件工程师 姜在浩

目录

  • 推荐语
  • 前言
  • 本书结构
  • 第1章 搭建R编程环境
  • 第2章 数据类型
  • 第3章 R语言编程
  • 第4章 数据操作Ⅰ:基于向量的处理与外部数据处理
  • 第5章 数据操作Ⅱ:数据处理及加工
  • 第6章 绘图
  • 第7章 统计分析 
  • 第8章 线性回归
  • 第9章 分类算法Ⅰ:数据探索、预处理、模型评估方法
  • 第10章 分类算法Ⅱ:机器学习算法
  • 第11章 利用泰坦尼克数据练习机器学习