第5章 协方差矩阵、多元正态分布与椭圆

A: 一收到去年入学考试成绩数据,我便马上分析了一下,发现使用的 统计软件有问题啊。

B:怎么了?

A: 这个软件预测在模拟考中考出700 分的人实际考试时得分为650 分。 以防万一又反过来拿650 分作为实际考试成绩试了一下,结果得出 的模拟考分数只有600。按理说应该得到700 分才对吧?

B: 嗯……依然是槽点太多不知道该说什么才好了。你还是重新学习一 下多元正态分布的性质吧(图5.19)。

本章将再次讨论随机变量X,Y,Z之间的关系。第2 章已经对此做了初步介绍,本章的 内容与第2章有以下区别。

第2章:不关心随机变量之间的具体关系,仅讨论是否相关或完全独立

本章:讨论具体的相关程度,即当某一变量改变时,其他变量将发生多大的变化

前者讨论的是整体的相关性,后者则着重分析某方面的相关程度。另一方面,前者的适 用范围更广,可以解决诸如抛硬币的朝向等各类问题,后者却只能处理数字。前者在概率 理论中发挥着极为重要的作用。不过,后者(协方差与相关系数)由于较易理解与运用,因 此在基础的数据分析中得到了广泛应用。这么说或许还不太容易理解,不过不用担心,我 们接下来将具体说明。

本书将以如下方式讲解,帮助读者深刻理解协方差矩阵的性质。

将所有随机变量配对,并分析它们之间的相关性

将分析结果整理成一览表

将该一览表视作矩阵(协方差矩阵)处理

协方差矩阵的内容暂不展开,我们首先讨论多元正态分布的问题。不少入门教材会省 略这方面的内容,不过在概率统计的实际应用中常会采用多元正态分布。为了理解这些应用, 我们需要了解一些基本的概念。上面的一览表将涉及大量复杂的数学公式,本章将通过几何 图像帮助读者理解这些概念。事实上,本章的很多结论都可以通过椭圆或椭圆体的图像来解释。

在充分理解了多元正态分布与椭圆之间的关系后,我们将继续讨论更为一般的分布。 与多元正态分布不同,一般分布通常无法通过椭圆来表现。话虽如此,从某种意义上来讲, 椭圆仍然是一种很好的参照物。在学完本章之后,读者就能以图像方式来理解上述一览表, 它不再仅仅是大量数字的无序罗列,而是椭圆的某种特殊表述。

本章旨在为8.1 节和8.2 节的讲解做一下铺垫,与后两章的相关性较小。如果读者希望 提前阅读其他章节,可以先跳过本章。

目录