前言

本书源自美国伦斯勒理工学院(RPI)和巴西米纳斯吉拉斯联邦大学(UFMG)数据挖掘课程讲义。自1998 年起,RPI 每年秋季都会开设数据挖掘课程,UFMG 自2002 年起也开设了这门课程。尽管有不少关于数据挖掘及相关话题的好书,但我们感觉大多数书的层次或难度太高。我们的目标是写一本专注于数据挖掘与分析的基本算法的入门书,通过解释所有初次碰到的关键概念,为学习数据挖掘的核心方法打下数学基础,并试图通过直观地阐述各种公式以辅助理解。

本书主要内容包括:探索性数据分析、频繁模式挖掘、聚类和分类。本书既能为以上任务打下良好的基础,又兼顾了前沿话题,例如核方法、高维数据分析、复杂图和网络等。本书融合了相关学科(如机器学习和统计学)中的相关概念,也非常适用于数据分析课程。绝大部分的必备知识都包含在本书之中,尤其是关于线性代数、概率和统计的知识。

本书使用了大量的例子来阐述主要的技术概念,同时每章末尾还附有习题(课上使用过的)。本书中涉及的所有算法作者都实现了一遍。建议读者使用自己喜欢的数据分析和挖掘软件来尝试书中给出的例子,并实现书中所描述的算法;我们推荐使用R 或者Python 的NumPy 包。书中涉及的所有数据集及其他参考材料,如课程项目构思以及课堂讲义等,都可以在以下网址找到:

http://dataminingbook.info/pmwiki.php

理解了数据挖掘和数据分析的基本原理和算法之后,读者将完全有能力开发自己的方法或者使用更高级的技术。

建议阅读路线

本书各章之间的依赖关系如图0-1 所示。下面给出阅读本书或在课程中使用本书的几种典型路线图。对于本科生课程,建议讲授第1»3 章、第8 章、第10 章、第12»15 章、第17»19 章,以及第21»22 章。对于不讲探索性数据分析的本科生课程,建议讲授第1 章、第8»15 章、第17»19 章及第21»22 章。对于研究生课程,可以快速把第一部分过一遍,或将其当作背景知识阅读,然后直接讲授第9»22 章;本书的其他部分,即频繁模式挖掘(第二部分)、聚类(第三部分)和分类(第四部分),可以按任意顺序讲授。对于讲数据分析的课程,必须讲授第1»7 章、第13»14 章、第15 章的第2 节,以及第20 章。最后,对于强调图和核的课程,建议讲授第4»5 章、第7 章(第1»3 节)、第11»12 章、第13 章(第1»2节)、第16»17 章和第20»22 章。

图像说明文字

致谢

本书的初稿已在若干数据挖掘课程中使用过。参与试用的教师和学生提供了很多宝贵的意见和建议,特此致谢:

•Muhammad Abulaish,印度国立伊斯兰大学

•Mohammad Al Hasan,印第安纳大学与普渡大学印第安纳波里斯联合分校

•Marcio Luiz Bunte de Carvalho,巴西米纳斯吉拉斯联邦大学

•LoÏc Cerf,巴西米纳斯吉拉斯联邦大学

•Ayhan Demiriz,土耳其萨卡里亚大学

•Murat Dundar,印第安纳大学与普渡大学印第安纳波里斯联合分校

•Jun Luke Huan,堪萨斯大学

•Ruoming Jin,肯特州立大学

•Latifur Khan,得克萨斯州大学达拉斯分校

•Pauli Miettinen,德国马克斯􀀀普朗克计算机科学研究所

•Suat Ozdemir,土耳其加齐大学

•Naren Ramakrishnan,弗吉尼亚理工学院暨州立大学

•Leonardo Chaves Dutra da Rocha,巴西圣若昂{德尔雷伊联邦大学

•Saeed Salem,北达科塔州立大学

•Ankur Teredesai,华盛顿大学塔科马分校

•Hannu Toivonen,芬兰赫尔辛基大学

•Adriano Alonso Veloso,巴西米纳斯吉拉斯联邦大学

•Jason T.L. Wang,新泽西理工学院

•Jianyong Wang,清华大学

•Jiong Yang,凯斯西储大学

•Jieping Ye,亚利桑那州立大学

我们还要感谢参加了RPI 和UFMG 的数据挖掘课程的学生,以及为各章提供了技术性建议的匿名审稿人。感谢RPI 和UFMG 的计算机科学系以及卡塔尔计算研究所的合作与支持性氛围。此外,还要感谢美国国家科学基金会、巴西国家科学技术发展委员会、巴西高等教育人员促进会、巴西米纳斯吉拉斯州研究支持基金会、巴西国家网络科技研究所,以及巴西科学无国界计划的支持。特别感谢本书编辑、剑桥大学出版社的Lauren Cowles 为本书的出版给予的指导和耐心的帮助。

最后,从个人角度而言,Mohammed J. Zaki 将此书献给他的妻子Amina,以感谢她的爱、耐心与多年来的支持;也献给他的孩子Abrar 和Afsah,以及他的父母。Wagner MeiraJr. 将此书献给他的妻子Patricia、孩子Gabriel 和Marina,以及父母Wagner 和Marlene,感谢他们的爱、鼓励和启发。

目录

  • 前言
  • 第1章 数据挖掘与分析
  • 第一部分 数据分析基础
  • 第2章 数值属性
  • 第3章 类别型属性
  • 第4章 图数据
  • 第5章 核方法
  • 第6章 高维数据
  • 第7章 降维
  • 第二部分 频繁模式挖掘
  • 第8章 项集挖掘
  • 第9章 项集概述
  • 第10章 序列挖掘
  • 第11章 图模式挖掘
  • 第12章 模式与规则评估
  • 第三部分 聚类
  • 第13章 基于代表的聚类
  • 第14章 层次式聚类
  • 第15章 基于密度的聚类
  • 第16章 谱聚类和图聚类
  • 第17章 聚类的验证
  • 第四部分 分类
  • 第18章 基于概率的分类 
  • 第19章 决策树分类器
  • 第20章 线性判别分析
  • 第21章 支持向量机
  • 第22章 分类的评估