前言

数据分析的起点——R 编程!

Web、移动应用、社交网络、检索、大数据是贯穿当今时代的关键词,将其串联在一起的另一个关键词就是基于数据分析与数据的决策。将分析与决策应用于网页的典型案例是美国总统奥巴马募集6000 万美元选举资金的事情A,工作人员制作了两种设计风格的网页,并分析(称为A/B 测试)使用哪种设计能够吸引更多选民。这种分析(A/B 测试)不仅可以用于App 营销,也可以用于开发App。另一个数据分析的例子是分析社交网络图的结构,或者更改社交网络网站的页面组成以观察用户反应。在网页搜索中也进行过大量实验B。最近,应用大数据进行数据分析备受青睐,分析对象甚至包含大数据系统本身如何快速运行。数据分析的下一步是预测分析(Predictive Analytics),它是决策的根基。

随着分析、预测、决策等话题的火爆,相信R 语言接下来也会受到热捧。为什么这样说呢?首先,R 语言是一种专门语言,重点在于数据分析、统计分析、机器学习、数据可视化。使用R 提供的多种包能够轻松解决分析与预测问题。同时,R 也是一种编程语言,容易扩展,适用于解决多种问题。其次,R 是一种开源软件,任何个人、企业、学校、机关都可以免费使用,无需背负沉重的经济负担。第三,R 背后有强大的社区,社区中开发的多种分析包都是免费提供的。最后,R 拥有丰富的帮助文档,相关图书的出版开始猛增。现在,几乎任何一本统计分析图书都使用R 语言编写示例代码。毕竟,亲自动手编写并运行代码与只使用笔纸学习分析方法有着很大不同。

人们对R 语言学习热情的高涨促使了本书的诞生与出版。本书是我在多年学习笔记的基础上编写而成的,这些笔记是我为了使用R 进行机器学习而整理的,在我的个人博客(http://mkseo.pe.kr/stats)上可以看到。整理并挑选示例时,我参考了多种图书与资料,每当遇到问题,我都会使用谷歌搜索引擎和StackOverflow(http://stackoverflow.com)寻找答案。随着资料的增多,逐渐形成了图书的形态,最后促使本书产生。书中整理了大量R 初学者经常遇到的问题及答案。通过阅读本书,读者可以轻松学习R 语言并掌握应用方法,不必再经历我当时学习的痛苦了。

本书韩文版的顺利出版得益于Gilbut 出版社韩东勋课长和许亨哲组长的帮助,申景根先生帮我确定了全书的行文风格与方向。此外,还要感谢Gilbut 出版社的相关工作人员,他们为本书的出版付出了巨大努力。

感谢我的妻子。对于每个周末都要坐在电脑前的丈夫,她心里不免会有些怨言,但从未流露出来,也从未说出口,只是一直陪在我身边默默等待。谢谢你的鼓励!

最后,感谢购买本书的读者朋友们。写作本书时,我已竭尽所能,倾注大量心血,但由于自身的不足,难免会出现各类问题。如果大家在阅读过程中发现任何问题,请给我发送邮件(minkoo.seo@gmail.com),我将尽自己所能为你解答。谢谢!

徐珉久

2014 年10 月

A 此事相关报道请参考网址http://blog.optimizely.com/2010/11/29/how-obama-raised-60-million-byrunning-a-simple-experiment/
B Overlapping Experiment Infrastructure: More, Better, Faster Experimentation, Proceedings 16th Conferenceon Knowledge Discovery and Data Mining, 2010, ACM. http://research.google.com/pubs/pub36500.html

目录

  • 推荐语
  • 前言
  • 本书结构
  • 第1章 搭建R编程环境
  • 第2章 数据类型
  • 第3章 R语言编程
  • 第4章 数据操作Ⅰ:基于向量的处理与外部数据处理
  • 第5章 数据操作Ⅱ:数据处理及加工
  • 第6章 绘图
  • 第7章 统计分析 
  • 第8章 线性回归
  • 第9章 分类算法Ⅰ:数据探索、预处理、模型评估方法
  • 第10章 分类算法Ⅱ:机器学习算法
  • 第11章 利用泰坦尼克数据练习机器学习