译者序

这是我翻译的第三本书了,前两本分别是《信息检索导论》和《大数据:大规模互联网数据挖掘与分布式处理》。与图灵公司有了这两次合作后,我们一直保持着十分密切的联系。2012年11月,图灵的编辑和我说,这本书的原译者不能继续翻译了,问我能否续译后面的十二章。我翻阅了一下,觉得这本书不错,能帮助不少人,于是很快就接下了这个翻译任务,并在11月底启动了我的第三次图灵翻译之旅。

我翻译的这三本书分别涉及信息检索、数据挖掘和机器学习。虽然这几个领域各不相同,但是它们之间有着十分密切的关联。简单地说,机器学习算法在包含信息检索和数据挖掘在内的多个领域中都有着十分广泛的应用。现代互联网中的搜索引擎、社交网络、推荐引擎、计算广告、电子商务等应用中,都包含大量的机器学习算法。“机器学习”已经成为学术界和工业界炙手可热的术语。了解机器学习算法,是很多研究人员和互联网从业人员的基本要求。

翻译本书期间,业界和研究界也出现了大量热点名词,包括“大数据”(big data)、“深度学习”(deep learning)、“知识图谱”(knowledge graph)等,基于社交网络的研究和应用也层出不穷。可以说,机器学习与这些名词之间都具有十分密切的联系,了解机器学习对于把握业界和研究界的脉搏至关重要。

本书没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码+运行效果”来介绍每一个算法。学习计算机的人都知道,计算机是一门实践学科,没有真正实现运行,很难真正理解算法的精髓。这本书的最大好处就是边学边用,非常适合于急需迈进机器学习领域的人员学习。实际上,即使对于那些对机器学习有所了解的人来说,通过代码实现也能进一步加深对机器学习算法的理解。

本书的代码采用Python语言编写。Python代码简单优雅、易于上手,科学计算软件包众多,已经成为不少大学和研究机构进行计算机教学和科学计算的语言。相信Python编写的机器学习代码也能让读者尽快领略到这门学科的精妙之处。

由于个人精力有限,加上时间紧迫,和前两本书都是独立翻译有所不同,本书邀请了多名颇具实力的译者共同完成。全书共包括15章4个附录,曲亚东翻译第1-3章,李鹏博士翻译第4、10、11、12章及附录A、B,李锐博士翻译第5、8、9、15章及附录C、D,王斌翻译第6、7、13、14章及其他部分并审校全文。

感谢翻译过程中图灵公司谢工、傅志红、李鑫、郭志敏、刘紫凤等人给予的帮助,感谢所有译者的家人朋友一如既往的支持和鼓励,感谢所有帮助和指导过我们的人。

由于译者水平有限,书中难免会有疏漏,还望读者不吝提出意见和建议。同前几本书一样,本书的勘误也会在网上及时公布,地址在:http://ir.ict.ac.cn/~wangbin/mli-book。读者可以通过邮件wbxjj2008@gmail.com或者新浪微博和我联系。

王斌

2013年1月15日凌晨于中关村

目录

  • 版权声明
  • 献词
  • 译者序
  • 前言
  • 致谢
  • 关于本书
  • 关于作者
  • 关于封面
  • 第一部分 分类
  • 第1章 机器学习基础
  • 第2章 k-近邻算法
  • 第3章 决策树
  • 第4章 基于概率论的分类方法:朴素贝叶斯
  • 第5章 Logistic回归
  • 第6章 支持向量机
  • 第7章 利用AdaBoost元算法提高分类性能
  • 第二部分 利用回归预测数值型数据
  • 第8章 预测数值型数据:回归
  • 第9章 树回归
  • 第三部分 无监督学习
  • 第10章 利用K-均值聚类算法对未标注数据分组
  • 第11章 使用Apriori算法进行关联分析
  • 第12章 使用FP-growth算法来高效发现频繁项集
  • 第四部分 其他工具
  • 第13章 利用PCA来简化数据
  • 第14章 利用SVD简化数据
  • 第15章 大数据与MapReduce
  • 附录A Python入门
  • 附录B 线性代数
  • 附录C 概率论复习
  • 附录D 资源