第2章 k-近邻算法

本章内容

  • k近邻分类算法
  • 从文本文件中解析和导入数据
  • 使用Matplotlib创建扩散图
  • 归一化数值

众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问题。没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征,使得动作片之间非常类似,而与爱情片存在着明显的差别呢?动作片中也会存在接吻镜头,爱情片中也会存在打斗场景,我们不能单纯依靠是否存在打斗或者亲吻来判断影片的类型。但是爱情片中的亲吻镜头更多,动作片中的打斗场景也更频繁,基于此类场景在某部电影中出现的次数可以用来进行电影分类。本章第一节基于电影中出现的亲吻、打斗出现的次数,使用k近邻算法构造程序,自动划分电影的题材类型。我们首先使用电影分类讲解k近邻算法的基本概念,然后学习如何在其他系统上使用k近邻算法。

本章介绍第一个机器学习算法:k近邻算法,它非常有效而且易于掌握。首先,我们将探讨k近邻算法的基本理论,以及如何使用距离测量的方法分类物品;接着,我们将使用Python从文本文件中导入并解析数据;然后,本书讨论了当存在许多数据来源时,如何避免计算距离时可能碰到的一些常见错误;最后,利用实际的例子讲解如何使用k近邻算法改进约会网站和手写数字识别系统。

目录