第 2 章 数据和抽样分布

第 2 章 数据和抽样分布

不少人误以为大数据时代意味着抽样时代的终结。事实上,抽样能够有效地操作一组数据,并且可以最小化偏差。在大数据时代,涌现出了大量质量不一、相关性各异的数据,这增强了人们对于抽样的需求。甚至在大数据项目中,通常也会使用抽样生成并导出预测模型。抽样还被广泛用于定价、Web 处理等各种检验。

本章的理念可以用图 2-1 的模式表述。图中左侧表示总体,统计学假设总体遵循一个潜在的未知分布。图的右侧表示抽样数据及其经验分布,这是我们唯一可用的。要想根据左侧的图获得右侧的图,我们需要做抽样,图中用箭头表示。传统统计学关注的主要是图的左侧部分,即如何对总体运用一些基于强假设的理论。现代统计学已将关注点转移到图的右侧部分,因而也不再需要做出假设。

图 2-1:总体与样本

一般而言,数据科学家并不需要操心图中左侧(即总体)的理论本质,而是应聚焦于抽样过程和手中的数据。但有一些特定的情况仍需要他们关注。有些数据是由可建模的物理过程生成的。最简单的例子就是遵循二项分布的抛硬币过程。现实生活中的所有二项分布,例如是否购买、是否存在欺诈、是否点击等,都可以有效地建模为一次抛硬币的过程。当然,一般还需要对硬币正面向上的概率做一定的修正。在此类情况下,我们可以通过对总体的理解,从中获得一些额外的洞见。

2.1 随机抽样和样本偏差

样本是大型数据集的一个子集,统计学家通常将大型数据集称为总体。统计学中的总体不同于生物学中所指的总体。在统计学中,总体指的是大量确实存在的数据,但有时也可以是一个理论上的或者构想得到的数据集。

主要术语

样本

  大型数据集的一个子集。

总体

  一个大型数据集,或是一个构想的数据集。

N(或 n

  一般用 N 表示总体的规模,n 表示样本的规模。

随机抽样

  从总体中随机抽取元素到样本中。

分层抽样

  对总体分层,并在每层中做随机抽样。

简单随机抽样

  在不对总体分层的情况下,做随机抽样所得到的样本。

样本偏差

  样本对总体做出了错误的解释。

随机抽样过程中,以均等的机会从总体的所有可用成员中抽取,得到一个样本。随机抽样生成的样本被称为简单随机样本。抽样可以是有放回的,即可以在每次抽取后将所抽取的观测值放回到总体中,并可被随后的抽取重新选中。抽样也可以是无放回的,即一个观测值一旦被抽取,就不会参与随后的抽取。

一般情况下,我们在做估计或是根据样本拟合模型时,数据质量的影响要大于数据规模的影响。在数据科学中,数据质量涉及数据的完整性、格式的一致性、整洁性以及单个数据点的准确性。在统计学中,数据质量还涉及抽样的代表性这一概念。

一个经典的例子是 1936 年美国《文学文摘》杂志发起的一次民意调查,该调查的结果预测艾尔弗 • 兰登将在美国总统选举中战胜富兰克林 • 罗斯福。《文学文摘》在当时是一份市场份额领先的杂志,此次问卷调查的对象是该期刊的所有订阅者,还额外考虑了一些人,规模合计超过 1000 万人,并预测兰登将取得压倒性胜利。一周后,盖洛普民意调查的创始人乔治 • 盖洛普也发起了一次民意调查,调查对象只有约 2000 人,但准确地预测了罗斯福会取得胜利。两次调查的差异在于调查对象的选择。

《文学文摘》侧重于调查对象的数量,忽视了选择方法。他们的调查对象是那些社会经济地位相对较高的人群(即该杂志的订阅者,以及那些在当时有电话和汽车等奢侈品的人,他们是市场营销人员的目标)。这导致了调查结果中存在样本偏差,即样本以某种有意义的非随机方式,不同于其想要代表的大规模总体。非随机性(nonrandom)这一术语非常重要,因为几乎任何样本都无法准确地表示总体,即便是随机抽样也做不到。一旦差异具有意义,就会发生样本偏差。如果其他样本也使用了同样的抽取方式,那么也会存在样本偏差。

 自选择抽样偏差(self-selection sampling bias)

在 Yelp 等社交媒体上,我们能看到一些对餐馆、酒店、咖啡馆等的评论。这些评论容易产生偏差,因为提交评论的人并非随机选取的。他们写评论是基于一定的出发点的,这将导致自选择偏差的产生。有意向撰写评论的人,很可能是那些获得了不好体验的人,也可能是一些与商家有关联的人,或者就是与没有发表评论者不同的一类人。注意,在将一个商家与类似的商家做对比时,尽管自选择样本或许并未可靠地表明事情的真实状态,但它们依然是更为可靠的,因为对比的双方都存在同样的自选择偏差。

2.1.1 偏差

统计偏差是一些系统性的测量误差或抽样误差,它是在测量或抽样过程中产生的。我们应严格区分由随机选取所导致的误差和由偏差所导致的误差。以开枪射击一个目标这一物理过程为例。并非每次射击都能击中绝对意义上的靶心,或者说很少能击中。虽然无偏过程也会产生误差,但所产生的误差是随机的,并且不会强烈地趋向于任意方向,如图 2-2 所示。图 2-3 给出的是一个有偏过程的结果,在 x 轴和 y 轴方向上,不仅存在着随机误差,还存在着偏差。射击点趋向于落在右上象限部分。

{%}

图 2-2:一支瞄准正常的枪射击情况的散点图

{%}

图 2-3:一支瞄准有偏差的枪射击情况的散点图

偏差有多种形式,它也许是可以观察到的,也可能是不可见的。如果结果确实表示存在偏差(例如,通过参考基准或实际值),这通常表明我们指定了不正确的统计学或机器学习模型,或是漏掉了某个重要的变量。

2.1.2 随机选择

为了避免出现导致《文学文摘》预测兰登在选举中战胜罗斯福这样的样本偏差问题,乔治 • 盖洛普(图 2-4)采用了一种更科学的方法来得到可以代表美国选民的样本。如今,实现样本代表性的方法有很多,所有这些方法的核心都是随机抽样

{%}

图 2-4:乔治 • 盖洛普,因《文学文摘》的“大数据”失败而名声大噪

随机抽样并不容易实现,关键在于如何正确地定义可访问的总体。假设我们想要生成客户的一个代表性形象,并且需要执行一次试点客户调查。调查要具有代表性,但是所需的工作强度极大。

首先,我们需要定义客户是谁。我们可以选择购买金额大于零的所有客户记录。那么是否要考虑过去所有的客户?是否要考虑退款情况?是否要考虑内部测试购买情况?是否需要考虑经销商、结算代理人和客户?

下一步,我们要指定抽样过程。抽样可以是“随机选取 100 名客户”。当涉及对某个数据流的抽样时,如实时客户交易、Web 访问者等,时间上的考虑很重要,例如工作日上午十点的 Web 访问者可能不同于周末晚上十点的 Web 访问者。

采用分层抽样时,我们将总体分成多个,并在每一层中做随机抽样。例如,在一次政治民意调查中,可能需要了解美国白人、非裔美国人和拉美裔美国人的选举倾向。如果我们对总体做一次基本的随机抽样,得到的样本中可能非裔和拉美裔美国人人数过少。因此在分层抽样中,需要对不同的层赋予不同的权重,以生成对等的抽样规模。

2.1.3 数据规模与数据质量:何时规模更重要

在大数据时代,令人惊讶的是,有时数据规模越小,结果反而更好。在随机抽样上花费些时间和精力,不仅可以减小偏差,还能让我们更关注于数据探索和数据质量。例如,在缺失的数据和离群值中,可能包含了一些有用的信息。要从上百万条记录中查找缺失值或评估离群值,成本可能会非常高,但是对于具有数千条记录的样本,这些事情则是完全可行的。此外,如果数据量过大,也无法开展数据绘图和人工检测。

那么,在什么情况下需要大量的数据呢?

Google 检索查询请求,就是一个体现大数据价值的经典场景,其中数据不仅规模很大,而且十分稀疏。如果以每个词为列、每个搜索查询为行,这样可以构建一个矩阵。矩阵中每个单元的值为 0 或 1,表示相应的查询中是否包含对应的词汇。我们的目标是对一个查询给出一个最优的搜索目标。但是,英语中有 15 万多个单词,而 Google 每年会处理大约一万亿次查询。这生成了一个规模非常巨大的矩阵,矩阵中大量单元的值为 0。

这是一个真正的大数据问题。只有积累了如此巨大规模的数据后,Google 才能为大部分查询提供有效的搜索结果。积累的数据越多,查询结果越好。对于一些常见的搜索词,并不存在问题,因为对于在某一时刻非常流行的主题,我们可以很快发现有效数据。而如何对多种多样的检索查询返回详细且有用的结果,甚至包括那些出现频数只有百万分之一的查询,这正是现代搜索技术的真正价值所在。

例如,我们要查询短语“里奇 • 里卡多和小红帽”。在互联网出现的早期,查询的返回结果可能是乐队领袖里奇 • 里卡多、他主演的电视剧《我爱露西》,以及儿童剧《小红帽》。但是现代搜索引擎已具有数万亿条查询检索记录,因此检索查询可以精确地返回《我爱露西》中的一集,里卡多在其中用英语和西班牙语为他襁褓中的儿子讲述《小红帽》的故事。

注意,确实相关的记录可能需要达到数千条才是有效的。这里所说的“相关”,指的是记录中出现了查询词或类似内容(连同有关人们最终点击的链接的信息)。但是,为了获得这样的相关记录,可能需要处理数万亿条数据。当然,随机抽样并不会有作用。参见 2.8 节。

2.1.4 样本均值与总体均值

总体中的样本均值一般用符号 \bar x 表示,而总体的均值一般用 μ 表示。为什么要区分这两者?这是因为样本的信息是可以观测到的,而大规模的总体的信息通常获取自规模较小的样本。统计学家喜欢从符号上对两者加以区分。

本节要点

  • 即便是在大数据时代,随机抽样依然是数据科学家的一种重要手段。
  • 由于测量或观测不能代表总体而出现系统性误差时,就会产生偏差。
  • 数据的质量通常比数量更重要,而随机抽样可以降低偏差,提高数据的质量(否则,实现成本可能很高)。

2.1.5 拓展阅读

  • The Sage Handbook of Online Research Methods 一书中,Ronald Fricker 撰写了一章“Sampling Methods for Web and E-mail Surveys”,其中对抽样过程的介绍十分有用。该章综述了对随机抽样方法的一些改进,基于成本或可行性的实际考虑,这些改进经常被使用。
  • 在 Capital Century 网站上可以看到有关《文学文摘》调查失败的介绍。

2.2 选择偏差

尤吉 • 贝拉(Yogi Berra)有一句名言:“如果你不知道自己在寻找什么,那么努力去寻找吧,终会发现它。”

选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作。选择偏差可能是有意而为之,也可能是无意识的。

主要术语

偏差

系统性误差。

数据窥探

为得到感兴趣的结果,在数据中做大量的查找。

大规模搜索效应

由于重复的数据建模,或使用大量的预测变量对数据建模所导致的偏差或非可重现性。

如果我们指定一个假设,并使用设计良好的实验去验证该假设,就能得到具有高置信度的结论。但实际情况往往并非如此。人们通常只是查看可用的数据,并试图识别数据中的模式。但模式是真实的,还是仅仅是数据窥探(即广泛地探查数据,直至发现我们感兴趣的现象)的结果?在统计学家中存在着一个说法:“如果我们拷问数据的时间足够长,那么它迟早会招供。”

通过实验验证一个假设所得到的现象,与通过研判可用数据而发现的现象,这两者之间存在着差别。下面我们通过一个实验给出解释。

假设有人说他能做到抛硬币连续十次正面向上。我们想要挑战他,这就相当于做一次实验。如果他继续抛十次硬币,依然连续正面向上,显然这只能归因于他具有某种特异功能,因为抛硬币连续十次正面向上的概率大约是千分之一。

现在,假设在一个体育场中有两万名观众,我们通过播音员要求全体两万人一起抛十次硬币。如果有人做到了连续十次正面向上,就站出来。我们会看到,整个体育场中很可能有人会做到连续十次正面向上。这一事件的概率非常高,甚至会高于 99%,即 1 减去没有人得到十次正面向上的概率。显然,我们事后从所有人中选取能做到十次正面向上的人,并不意味着他们具有任何特异功能,这更像是运气使然。

反复地查看大规模数据集是数据科学中的一个关键价值主张,所以我们需要关注选择偏差问题。数据科学家特别关注的一种选择偏差形式,就是被约翰 • 埃德(John Elder)称为大规模搜索效应的问题。约翰 • 埃德是美国 Elder 研究机构的创始人,该机构是一家广受关注的数据挖掘咨询公司。如果在大规模数据集上反复运行不同的模型,并提出不同的问题,我们肯定能发现一些有意思的现象。但是我们所发现的结果是否的确具有意义?还是仅是一些离群值?

为了避免这一问题,我们可以使用验证集(holdout set)去验证结果的性能,有时可能需要多个验证集。埃德倡议使用一种被称为目标混洗(target shuffle)的方法。该方法在本质上就是一种置换检验,验证由数据挖掘模型所预测的关联关系的合法性。

在统计学中,除了大规模搜索效应之外,选择偏差的典型形式还包括非随机抽样(参见抽样偏差)、主观随机挑选(cherry-picking)数据、选取突出特定统计效应的时间间隔,以及在结果看上去“具有意义”时停止实验。

2.2.1 趋均值回归

趋均值回归指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值。对极值给予特殊的关注和意义,会导致某种形式的选择偏差。

“当年的新秀会在第二年表现低迷。”这是广大体育迷们耳熟能详的一个现象。从某个赛季开始职业生涯的新运动员中,总会有个人的成绩好于其他所有人。但是在第二年,“当年的新秀”的成绩通常会不如上一年。为什么会这样呢?

几乎所有主要的体育运动,至少是打球或冰球,运动员的整体表现取决于两个关键因素。

  • 技能
  • 运气

趋均值回归是由某种形式的选择偏差所导致的。在选取运动成绩最好的新秀时,技能和好运气可能会同时发挥作用。而在下一个赛季,尽管该运动员的技能依旧,但运气却在很多情况下并非如此。因此他的成绩会下滑,即产生倒退。该现象最早是 1886 年由弗朗西斯 • 加尔顿发现的 1。在撰写论文时,他将此现象与遗传倾向联系在一起。例如,如果父亲个子很高,那么子女的身高趋向低于父亲,如图 2-5 所示。

1Galton, Francis.“Regression towards mediocrity in Hereditary stature.”The Journal of the Anthropological Institute of Great Britain and Ireland, 15:246-273. JSTOR 2841583.

图 2-5:加尔顿的研究提出了趋均值回归现象

 从“回退”意义上看,趋均值回归完全不同于统计建模方法的线性回归。线性回归用于估计预测变量和输出变量间的线性关系。

 

本节要点

  • 指定一个假设,然后遵循随机化和随机抽样的原则收集数据,可以确保不会产生偏差。
  • 所有其他类型的数据分析都有产生偏差的风险,风险来自数据的采集和分析过程,包括在数据挖掘中反复地运行模型、在研究中窥探数据,以及事后选取有意义的事件。

2.2.2 拓展阅读

  • Christopher J. Pannucci 和 Edwin G. Wilkins 在其论文“Identifying and Avoiding Bias in Research”中,对研究中可能会引入的各种偏差(包括选择偏差)进行了综述。该论文发表在 Plastic and Reconstructive Surgery 2010 年 8 月刊上。
  • Michael Harris 的文章“Fooled by Randomness Through Selection Bias”从一个股票交易人士的角度,对股票市场交易中所考虑的选择偏差问题做了综述。

2.3 统计量的抽样分布

统计量的抽样分布指从同一总体中抽取多个样本时,一些样本统计量的分布情况。经典统计学主要关注如何从小样本推导更大总体的情况。

主要术语

样本统计量

  对抽取自大规模总体中的样本做计算,所得到的一些度量值。

数据分布

  单个在数据集中的频数分布。

抽样分布

  一个样本统计量在多个样本或重抽样中的频数分布。

中心极限定理

  当样本的规模增大时,抽样分布呈正态分布的趋势。

标准误差

  多个样本间样本统计量的变异性(标准偏差)。不要与标准偏差混淆,后者指的是个体数据间的变异性。

我们从总体中抽取样本,通常是为了测量某个样本统计量,或是使用统计学或机器学习模型进行建模。鉴于估计量或模型是基于某个样本的,因此其中可能存在误差,也可能会由于抽取样本的不同而有所差异。我们需要了解这种差异究竟如何,即我们的主要关注点在于抽样的变异性。如果有大量的数据,那么我们可以从中抽取更多的样本,进而直接观察样本统计量的分布情况。只要数据易于获取,那么我们一般会使用尽可能多的数据去计算估计量或拟合模型,而非总是使用从总体中抽取更多样本的方法。

 区分单个数据点的分布(即数据分布)和样本统计量的分布(即抽样分布)非常重要。

通常,样本统计量(如均值等)的分布要比数据本身的分布更加规则,分布的形状更趋向于正态分布的钟形曲线。统计所基于的样本规模越大,上面的观点就愈发成立。此外,样本的规模越大,样本统计量的分布就越窄。

下面我们用一个例子来解释这一观点。本例中使用的数据来自向 Lending Club 公司申请贷款者的年收入数据(对于数据的详细描述,参见 6.1.1 节)。我们对数据做三次抽样,得到的三个样本分别为:具有 1000 个值的样本、取 5 个数据均值的 1000 个均值样本,以及取 20 个数据均值的 1000 个均值样本。然后我们绘制每个样本的直方图,如图 2-6 所示。

图 2-6:贷款申请者年收入样本的直方图。从上到下的样本依次为:1000 名贷款申请者样本(上,即 n = 1)、n = 5 的 1000 个均值样本(中),以及 n = 20 的 1000 个均值样本(下)

单个数据值样本的直方图的分布很宽泛,并且向更高值处偏斜,这与对收入数据的预期一致。n = 5 和 n = 20 的均值样本的直方图表现出一种愈加紧凑的趋势,并且形状更趋向于钟形。下面给出生成上面直方图的 R 代码,其中使用了可视化软件包 ggplot2

library(ggplot2)
# 做一次简单随机抽样
samp_data <- data.frame(income=sample(loans_income, 1000),
                        type='data_dist')
# 对5个数据的均值做抽样
samp_mean_05 <- data.frame(
  income = tapply(sample(loans_income, 1000*5),
                  rep(1:1000, rep(5, 1000)), FUN = mean),
  type = 'mean_of_5')
# 对20个数据的均值做抽样
samp_mean_20 <- data.frame(
  income = tapply(sample(loans_income, 1000*20),
                  rep(1:1000, rep(20, 1000)), FUN = mean),
  type = 'mean_of_20')
# 将抽样结果绑定到一个data.frames对象,并转化为因子类型
income <- rbind(samp_data, samp_mean_05, samp_mean_20)
income$type = factor(income$type,
                     levels=c('data_dist', 'mean_of_5', 'mean_of_20'),
                     labels=c('Data', 'Mean of 5', 'Mean of 20'))
# 绘制直方图
ggplot(income, aes(x=income)) +
  geom_histogram(bins=40) +
  facet_grid(type ~ .)

2.3.1 中心极限定理

上例中的现象被称为中心极限定理。该定理指出,即便原始总体不符合正态分布,但是只要样本的规模足够大,并且数据并非在很大程度上偏离正常值,那么从多个样本得到的均值将会呈现出我们所熟知的钟形正态曲线(参见 2.6 节)。在使用抽样分布做推理时,即置信区间和假设检验中,中心极限定理允许我们使用 t 分布这样的近似正态公式。

中心极限定理在传统的统计学教科书中得到了大量的关注,因为它是支持假设检验和置信区间的底层机制,而这些内容本身就占据了教科书的一半篇幅。数据科学家应该了解这一点,但是鉴于在数据科学中,任意场景都能使用自助法(bootstrap)解决问题,很少正式地使用假设检验和置信区间,因此中心极限定理并非处于数据科学实践的中心位置。

2.3.2 标准误差

标准误差是一种单变量度量,它总结了单个统计量抽样分布的变异性。标准误差可以根据样本值的标准偏差 s 和样本规模 n,使用基于统计学的方法进行估计,公式如下。

标准误差 =\frac{s}{\sqrt{n}}

正如我们在图 2-6 中所观察到的,标准误差会随样本规模的增大而减小。有时,我们称标准误差与样本规模间的关系为 n 的平方根规则。如果要使标准误差减小一半,那么样本规模应该增大四倍。

标准误差计算公式的合理性源于中心极限定理(参见 2.3.1 节)。事实上,我们不必依靠中心极限定理来理解标准误差。下面的方法可用于测量标准误差。

(1) 从总体中抽取一些全新的样本;

(2) 对于每个新样本,计算统计量,例如均值;

(3) 对第 2 步计算得到的统计量,计算其标准偏差,以此作为对标准误差的估计。

但是在实践中,通过采集新样本去估计标准误差的方法通常并不可行,从统计意义上看也存在很大的浪费。幸运的是,我们完全不需要抽取全新的样本,而可以使用自助法进行重抽样(参见 2.4 节)。在现代统计学中,自助法已成为估计标准误差的标准方法。自助法几乎适用于所有的统计量,它不依赖于中心极限定理或其他的分布假设。

 标准偏差与标准误差

不要将标准偏差和标准误差混为一谈。标准偏差测量的是单个数据点的变异性,而标准误差测量的是抽样度量的变异性。

 

本节要点

  • 样本统计量的频数分布表明了度量在各个不同抽样间的变化情况。
  • 抽样分布可以使用自助法估计,也可以通过依赖于中心极限定理的公式计算得到。
  • 标准误差是一个关键的度量,它汇总了抽样统计量的变异性。

2.3.3 拓展阅读

David Lane 的统计学在线多媒体资源提供了一个有用的模拟环境。你可以选择抽样统计量、样本规模和迭代次数,并且可以将结果频数分布可视化为直方图。

2.4 自助法

要估计统计量或模型参数的抽样分布,一个简单而有效的方法是,从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型。这一过程被称为自助法。自助法无须假设数据或抽样统计量符合正态分布。

主要术语

自助样本(bootstrap sample)

  从观测数据集中做有放回的抽取而得到的样本。

重抽样

  在观测数据中重复抽取样本的过程,其中包括自助过程和置换(混洗)过程。

从概念上看,我们可以这样理解自助法:将原始样本复制成千上万次,得到一个假想的总体,其中包括了原始样本中的全部信息,只是规模更大。然后我们从这一假想总体中抽取样本,用于估计抽样分布。自助法的理念如图 2-7 所示。

图 2-7:自助法的理念

在实践中,完全不必真正地多次复制样本。只需在每次抽取后,将观测值再放回总体中,即有放回地抽样。这一方式有效地创建了一个无限的总体,其中任意一个元素被抽取的概率在各次抽取中保持不变。使用自助法对规模为 n 的样本做均值重抽样的算法实现如下。

(1) 抽取一个样本值,记录后放回总体。

(2) 重复 n 次。

(3) 记录 n 个重抽样的均值。

(4) 重复步骤 1 ~ 3 多次,例如 r 次。

(5) 使用 r 个结果:

  a. 计算它们的标准偏差(估计抽样均值的标准误差);

  b. 生成直方图或箱线图;

  c. 找出置信区间。

我们称 r 为自助法的迭代次数,r 的值可任意指定。迭代的次数越多,对标准误差或置信区间的估计就越准确。上述过程的结果给出了样本统计量或估计模型参数的一个自助集,可以从该自助集查看统计量或参数的变异性。

R 语言的 boot 软件包将上述步骤组合成一个函数。例如,下面的代码实现将自助法用于借款者的收入数据。

library(boot)
stat_fun <- function(x, idx) median(x[idx])
boot_obj <- boot(loans_income, R = 1000, statistic = stat_fun)

函数 stat_fun 计算索引 idx 所指定样本的中位数,结果如下。

Bootstrap Statistics :
    original   bias    std. error
t1*    62000 -70.5595    209.1515

从结果中可看到,中位数的初始估计是 62 000 美元。自助法分布显示,估计量的偏差约为 -70 美元,标准误差约为 209 美元。

自助法也可用于多变量数据。这时该方法使用数据行作为抽样单元,如图 2-8 所示,进而可在自助数据上运行模型,估计模型参数的稳定性(或变异性),或是改进模型的预测能力。我们也可以使用分类和回归树(也称决策树)在自助数据上运行多个树模型,并平均多个树给出的预测值(或是使用分类,并选取多数人的投票),这通常要比使用单个树的预测性能更好。这一过程被称为 Bagging 方法。Bagging 一词是 bootstrap aggregating(自助法聚合)的缩写,参见 6.3 节。

图 2-8:多变量自助法抽样

自助法反复重抽样的概念十分简单。在经济学家和人口学家朱利安 • 西蒙(Julian Simon)于 1969 年出版的教科书 Basic Research Methods in Social Science2 中,汇总了多个重抽样的例子,其中也包括一些自助法的例子。但是,反复重抽样的计算量很大,在计算能力广泛可用之前,它不是一种可行的方法。该技术在 20 世纪 70 年代末 80 年代初才由斯坦福大学统计学家布拉德利 • 埃弗龙(Bradley Efron)命名。当时他在多份学术期刊文章 3 以及一本著作 4 中使用了“自助法”一词。该技术在那些使用统计学方法的非统计学研究人员中得到了尤为广泛的应用,主要用于在数学上不具备解决方法的一些度量或模型。尽管均值的抽样分布方法在 20 世纪 80 年代就已经确立了,但当时对其他度量的抽样分布方法依然尚未确立。自助法还可用于确定抽样的规模,它通过实验查看不同的 n 值对抽样分布的影响。

2Simon, J. L., & Burstein, P. (1969). Basic Research Methods in Social Science: The Art of Empirical Investigation. Random House.

3Bradley Efron (1979). Bootstrap Methods: Another Look at the Jackknife. The Annals of Statistics. 7(1):1–26.

4Efron, B. (1982). The Jackknife, the Bootstrap, and Other Resampling Plans. Society of Industrial and Applied Mathematics CBMS-NSF Monographs.

自助法被首次提出时,曾受到了大量的怀疑,因为它太神奇了。这些怀疑都源于对自助法目标的误解。

 自助法并不补偿小规模样本。它不创建新的数据,也不会填补已有数据集中的缺口。它只会告知我们,在从原始样本这样的总体中做抽取时,大量额外的样本所具有的行为。

2.4.1 重抽样与自助法

正如上节所介绍的,有时重抽样这个词等同于自助法。在更多情况下,重抽样还包括置换过程(参见 3.3.1 节)。置换过程组合了多个样本,并且抽样可能是无放回的。但是在任何情况下,自助法都是指对观测数据集做有放回的抽样。

本节要点

  • 自助法(即对数据集做有放回的抽样)是一种评估样本统计量变异性的强大工具。
  • 自助法可以类似的方式应用于各种场景中,无须深入探究抽样分布的数学近似。
  • 自助法可以在不使用数学近似的情况下,估计统计量的抽样分布。
  • 用于预测模型时,聚合多个自助样本的预测(即 Bagging 方法),要优于使用单个模型的预测。

2.4.2 拓展阅读

  • Bradley Efron 和 Robert Tibshirani 合著的 An Introduction to the Bootstrap 是首本专门介绍自助法的图书。该书目前依然广为阅读。
  • Peter Hall 发表于 Statistical Science 2003 年 5 月刊(第 18 卷第 2 期)上的论文“A Short Prehistory of the Bootstrap”,从多个角度对自助法进行了综述,其中介绍了朱利安 • 西蒙于 1969 年首次发表的自助法。
  • 在 Gareth James 等人撰写的《统计学习导论:基于 R 应用》一书中,有几节专门介绍自助法,尤其是 Bagging 方法。

2.5 置信区间

要了解一个样本估计量中潜在的误差情况,除了使用前文介绍的频数表、直方图、箱线图和标准误差等方法外,还有一种方法是置信区间

主要术语

置信水平

  以百分比表示的置信区间。该区间是从同一总体中以同一方式构建的,可以包含我们感兴趣的统计量。

区间端点

  置信区间的两端。

不确定性当然不受人待见。人们(尤其是专家)很少说:“我不知道。”分析人员和管理者虽然会承认不确定性的存在,但是很少会过于信任以单一数值呈现的估计量,即点估计。为了解决这一普遍性问题,我们可以使用一个范围而不是单一的值去表示估计量。统计抽样原理是置信区间的实现基础。

置信区间通常以覆盖程度的形式给出,表示为(高)百分比,例如 90% 或 95%。对 90% 置信区间的一种理解方式是,该区间涵盖了样本统计量自助抽样分布中间 90% 的部分(参见 2.4 节)。更通用的理解是,在采用类似抽样过程的情况下,样本统计量的 x% 置信区间,表明该区间平均在 x% 的情况下包含类似的样本估计量。

给定样本规模 n,并指定了一个感兴趣的样本统计量,计算自助法置信区间的算法如下。

(1) 从数据中有放回地抽取规模为 n 的随机样本(重抽样)。

(2) 记录重抽样中感兴趣的统计量。

(3) 多次重复步骤 1 ~ 2,例如 r 次。

(4) 对于 x% 置信区间,从分布的两端分别对 r 个重抽样结果切尾 [(1-[x/100])/2]%。

(5) 切尾点就是 x% 自助法置信区间的区间端点。

图 2-9 显示了对于规模为 20、均值为 57 573 美元的样本,申请贷款者的年收入均值的 90% 置信区间。

图 2-9:申请贷款者年收入均值的自助法置信区间,该区间基于规模为 20 的样本

在生成大多数统计量或模型参数的置信区间时,自助法是一种通用的工具。半个多世纪以来,统计学教材和软件一直都基于缺少计算机的统计分析,它们会使用由一些公式(尤其是 t 分布,参见 2.8 节)生成的置信区间。

 当然,在得到抽样结果后,我们真正感兴趣的是“真实值落在某个特定区间中的概率是多少”。这并非置信区间真正要回答的问题,但最终是大部分人解释答案的方式。

与置信区间相关的概率问题,一开始是这样表述的:“给定抽样方法和总体,某事发生的概率是多少?”换一个角度表述就是:“给定一个抽样结果,那么某事(对总体为真的事情)发生的概率是多少?”这一问题涉及更复杂的计算,并且更难以做出估计。

置信区间所给出的百分比被称为置信水平。置信水平越高,置信区间越宽。此外,样本规模越小,置信区间也会越宽,即不确定性越大。两者都成立。如果要在数据更少的情况下增加置信度,那么我们必须让置信区间足够宽,以确保捕获真实值。

 对于数据科学家而言,置信区间是一种了解样本结果可能的变化情况的工具。数据科学家使用这一信息时,既不是像研究人员那样为了发表学术论文,也不是为了向监管机构提交结果,而是想了解某个估计量的潜在误差情况,并确定是否需要更大的样本。

 

本节要点

  • 置信区间是一种以区间范围表示估计量的常用方法。
  • 数据越多,样本估计量的变异性越小。
  • 所能容忍的置信水平越低,置信区间就越狭小。
  • 自助法是一种构建置信区间的有效方法。

拓展阅读

  • 用于确定置信区间的自助法,可参见 Peter Bruce 撰写的 Introductory Statistics and Analytics: A Resampling Perspective 一书,或是 Robin Lock 及其他四位洛克家族成员合著的 Statistics: Unlocking the Power of Data 一书。
  • 相对于其他学科而言,需要了解测量精确度的工程师会更多地使用置信区间。Tom Ryan 撰写的 Modern Engineering Statistics 一书中介绍了置信区间。该书还介绍了另一种非常有用但很少被人关注的工具:预测区间。预测区间不同于均值等汇总统计量,它给出了围绕单个值的区间情况。

2.6 正态分布

呈钟形的正态分布是传统统计学中的一个标志性概念 5。事实上,由于样本统计量的分布通常呈现出正态分布的形状,这使得正态分布业已成为一种推导样本统计量近似分布的数学公式的强大工具。

5钟形曲线的代表性可能被高估了。美国曼荷莲学院的统计学家乔治 • 科布(George W. Cobb)在 2015 年 11 月的《美国统计学家》社论中指出:“标准的统计学导论课程完全围绕正态分布展开,这超出了正态分布中心地位的实用性。”科布因其统计学导论课程的教学理念而知名。

主要术语

误差

  数据点与预测值或均值间的差异。

标准化

  数据值减去均值,再除以标准偏差。

z 分数

  单个数据点标准化的结果。

标准正态分布

  均值为 0、标准偏差为 1 的正态分布。

QQ 图

  对样本分布与正态分布间接近程度的可视化绘图。

在正态分布(如图 2-10 所示)中,68% 的数据位于均值的一个标准偏差之内,95% 的数据落于两倍的标准偏差之内。

图 2-10:正态分布曲线

 对正态分布的一个常见误解是,该分布之所以被称为“正态分布”,是因为其中大部分数据符合正态分布,即数据值是正态的。然而,数据科学项目中使用的大部分变量(事实上,大多数原始数据)通常并不是正态分布的(参见 2.6 节)。正态分布源于很多统计量在抽样分布中是正态分布的。即便如此,只有在经验概率分布或自助法分布不可用时,才会使用正态性假设作为最后一招。

 

 正态分布也被称为高斯分布,命名源于 18 世纪末 19 世纪初伟大的德国数学家卡尔 • 弗里德里希 • 高斯(Carl Friedrich Gauss)。正态分布还曾使用过“误差分布”这一名称。从统计学角度看,误差表示实际值与样本均值等统计学估计量间的差异。例如,标准偏差(参见 1.4 节)基于真实值与均值间的误差。高斯对正态分布的贡献来自于他对天体测量误差的研究,这一误差已被证明是符合正态分布的。

标准正态分布和QQ图

标准正态分布中,x 轴的单位为距离均值的标准偏差。为了使数据能够与标准正态分布做对比,我们需要将数据值减去均值,然后除以标准偏差。这一过程被称为归一化标准化(参见 6.1.4 节)。注意,这里所说的“标准化”与数据库记录的标准化(即转换为通用格式)无关。我们称转化值为 z 分数,正态分布有时也被称为 z 分布

QQ 图用于可视化地确定样本与正态分布间的近似度。QQ 图对 z 分数从低到高进行排序,并将每个值的 z 分数绘制在 y 轴上。x 轴的单位是该值(rank)的正态分布所对应的分位数。由于数据是归一化的,所以单位的个数对应于数据值与均值间的距离是标准偏差的多少倍。如果数据点大体落在对角线上,那么可以近似地认为样本分布符合正态分布。图 2-11 显示了从正态分布随机生成的具有 100 个值的样本的 QQ 图。正如我们所期待的那样,数据点十分接近对角线。该图可用 R 语言的 qqnorm 函数生成。

norm_samp <- rnorm(100)
qqnorm(norm_samp)
abline(a=0, b=1, col='grey')')

图 2-11:从正态分布随机生成的具有 100 个值的样本的 QQ 图

 将数据转换为 z 分数(即标准化或归一化数据),并不会使数据符合正态分布。它只是将数据转化到与标准正态分布相同的尺度上,通常是为了对比。

 

本节要点

  • 在统计学的发展史中,正态分布有着十分重要的地位,因为它允许从数学上近似不确定性和变异性。
  • 虽然原始数据通常并不符合正态分布,但误差通常是符合正态分布的。对于大规模样本的均值和总数,也是一样的。
  • 要将数据转换为 z 分数,需要减去数据的均值,再除以标准偏差。这样,所生成的数据才可以与正态分布进行对比。

2.7 长尾分布

尽管正态分布在统计学历史中具有非常重要的地位,但是数据通常并不符合正态分布,这与其名称完全不符。

主要术语

  一个频数分布的狭长部分,其中相对极值出现的频数很低。

偏斜

  分布的一个尾部长于另一个尾部。

虽然正态分布非常适用于误差和样本统计量的分布,也非常有用,但是它并未表示出原始数据的分布特性。有时,数据的分布是高度偏斜(即不对称)的,如借款者的收入数据。有时,数据也会是离散的,如二项分布数据。对称分布和不对称分布都可能具有长尾效应。数据分布的尾部,对应于数据中的极值,包括极大值和极小值。在实际工作中,长尾问题(以及如何避免出现长尾问题)备受关注。纳西姆 • 塔勒布(Nassim Taleb)提出了黑天鹅理论,该理论预测异常事件(如股市崩盘)发生的可能性远大于正态分布的预测。

股票收益很好地展示了数据的长尾本质。图 2-12 显示了 Netflix 股票(NFLX)日收益情况的 QQ 图。绘图使用下面的 R 语句生成。

nflx <- sp500_px[,'NFLX']
nflx <- diff(log(nflx[nflx>0]))
qqnorm(nflx)
abline(a=0, b=1, col='grey')

图 2-12:NFLX 股票日收益的 QQ 图

与图 2-11 不同,图 2-12 中数据点的低值远低于对角线,而高值远高于对角线。这意味着,相比于我们期望数据符合正态分布的情况,我们更趋向于观测到一些极值。图 2-12 还显示了另一种常见现象,即数据点的分布接近由落在一倍均值标准偏差范围内的数据所构成的线条。约翰 • 图基将此现象称为数据“在中部是正态的”,但是具有更长的尾部 6

6Tukey, John W. Edited by Jones, L. V. The collected works of John W. Tukey: Philosophy and Principles of Data Analysis 1965–1986, Volume IV. Chapman and Hall/CRC (1987). ISBN: 978-0-534-05101-3.

 大量的统计学文献研究了统计分布如何拟合观测数据的问题。我们应谨慎地使用以数据为中心的方法,它们不仅涉及科学,同样具有艺术性。从表面上看,数据是变化的,但也具有一致性。数据的分布可能具有多种形状和类型。在对给定情况建模时,通常必须借助于一些领域知识和统计学知识,才能确定适合的分布类型。例如,使用每五秒内服务器因特网流量的连续观测数据,有助于确定对“每个时间间隔的事件”建模的最优分布是否符合泊松分布(参见 2.10.1 节)。

 

本节要点

  • 大部分数据是不符合正态分布的。
  • 假设数据符合正态分布,这可导致对极端事件产生错误的估计(即“黑天鹅”现象)。

拓展阅读

  • Nassim Taleb 撰写的《黑天鹅:如何应对不可预知的未来》。
  • K. Krishnamoorthy 撰写的 Handbook of Statistical Distributions With Applications

2.8 学生t分布

t 分布呈正态分布形状,但是钟形稍厚,尾部略长。t 分布广泛用于描述样本统计量的分布。样本均值的分布通常呈 t 分布形状。t 分布是一个分布家族,家族中的每个成员根据样本规模的不同而有所不同。样本的规模越大,t 分布就越趋向于正态分布形状。

主要术语

n

  表示一个样本的规模。

自由度

  自由度是一个参数,允许根据不同的样本规模、统计量和组数对 t 分布进行调整。

t 分布通常被称为学生 t 分布,因为它是 1908 年由格赛特(Gossett)以“学生”(Student)为作者名发表在期刊 Biometrika 上的。当时格赛特的雇主吉尼斯啤酒厂不想让竞争者知道自己使用了统计学方法,因此坚持要求格赛特匿名发表该论文。

格赛特在该论文中想要回答的问题是:“如果从一个大规模总体中抽取一个样本,那么样本均值的抽样分布是什么?”他从重抽样实验着手,在一个包括 3000 名罪犯的身高和左手中指长度的观测数据集中,随机地抽取了 4 个样本。(该研究属于优生学领域,所使用的是犯罪数据,关注的是发现犯罪倾向与罪犯身体或精神属性间的关联关系。)他在 x 轴上绘制了标准化后的结果(即 z 分数),在 y 轴上绘制了频数。由此得到了一个他称为“学生 t”的函数,并将该函数与样本结果拟合,绘制了对比的情况,如图 2-13 所示。

图 2-13:格赛特重抽样实验的结果,以及所拟合的 t 曲线(引用自他于 1908 年发表在 Biometrika 期刊上的文章)

我们可以将一组不同的统计量标准化,然后与 t 分布进行对比,并根据抽样变异性估计置信区间。考虑一个规模为 n 的样本,其中样本均值 \bar x 已经计算出来。如果 s 是样本的标准偏差,那么样本均值周边 90% 的置信区间由下式给出。

\bar x\pm t_{n-1}(0.05)\times\frac{s}{n}

其中,t_{n-1}(0.05) 是自由度(参见 3.7 节)为 (n-1) 情况下的 t 统计量值,它表示在 t 分布的两端分别“截去”了 5%。t 分布能为样本均值的分布、两个样本均值间的差异、回归参数等统计量提供参考。

如果早在 1908 年计算能力就广泛可用,那么毫无疑问,统计量的计算从一开始就会更依赖于计算密集的重抽样方法。由于当时没有计算机,统计学家转而采用数学和函数方法,例如使用 t 分布去近似抽样分布。虽然到了 20 世纪 80 年代,计算能力的发展使得重抽样实验得以实际开展,但是教科书和软件中依然使用 t 分布及类似的分布。

要让 t 分布准确地解释样本统计量的特性,需要样本统计量的分布形状类似于正态分布。t 分布之所以被广泛使用是基于这样一个事实:即便底层的总体数据并不符合正态分布,但样本统计量通常符合正态分布。该现象被称为中心极限定理(参见 2.3.1 节)。

 数据科学家需要了解 t 分布和中心极限定理中的哪些内容?答案是并不需要了解太多。这些分布是用于经典的统计推理中的,在数据科学中并非十分重要。对于数据科学家而言,重在理解并定量分析不确定性和变异性。这时,以实验为依据的自助抽样可以解答大多数与抽样误差相关的问题。但是,数据科学家还是时常会在统计学软件和 R 的统计过程中遇到 t 统计量,比如在 A/B 测试和回归中。因此,了解这些分布的目的对于数据科学家来说也是有所裨益的。

 

本节要点

  • t 分布实际上是一个分布家族。它们与正态分布相似,但是尾部略厚。
  • t 分布被广泛地用作样本均值分布、两个样本均值间的差异、回归参数等的参考基础。

拓展阅读

2.9 二项分布

主要术语

试验

  一次输出离散值的事件,例如,一次硬币抛掷。

成功

  一次试验的输出为我们感兴趣的结果。

  同义词:1(相对于0)

二项

  具有两个输出

  同义词:是 / 否、0/1、二元

二项试验

  有两种输出的试验。

  同义词:伯努利试验

二项分布

  在多次试验中(例如 x 次),成功次数的分布。

  同义词:伯努利分布

“是 / 否”这样的(二项)结果是数据分析的核心,因为它通常是决策或其他过程的结果,例如,买或不买,点击或不点击,存活或死亡等。试验对于理解二项分布至关重要。在一组试验中,每次试验有两种可能的结果,每种结果具有一个明确的概率。

例如,抛硬币 10 次是一个包含 10 次二项试验的实验,每次试验有两种可能的结果,即正面或背面朝上(如图 2-14 所示)。“是 / 否”“0/1”这样的结果称为二元结果,两种结果不一定都有 50% 的概率。事实上,只要两种结果的概率之和为 1 即可。统计学中的惯例做法是,将输出为“1”的试验称为一次成功的结果,而且通常将“1”指派给较罕见的结果。这里使用“成功”一词,并非表示结果是我们需要的或是对我们有利的,而是表示试验的确倾向于给出我们感兴趣的结果。例如,我们可能会对预测贷款拖欠或欺诈性交易感兴趣,这些事件是相对罕见的,因此我们可以将这类事件定义为“1”或“成功”。

{%}

图 2-14:北美野牛镍币的反面

二项分布是在给定每次试验的成功概率 p、实验次数 n 的情况下,成功数 x 的频数分布。根据 xnp 值的不同,二项分布也构成了一个分布家族。二项分布可以回答如下问题。

如果链接点击转换为购买的概率是 0.02,那么观测到 200 次点击但没有购买的概率是多少?

R 语言的 dbinom 函数可用于计算二项概率。

dbinom(x=2, n=5, p=0.1)

该命令返回 0.0729。该值表示每次试验成功的概率 p = 0.1 时,在 n = 5 次试验中观测到 x = 2 的概率。

通常,我们感兴趣的是确定 x 的概率,或者 n 次实验中较罕见事件的成功概率。在这种情况下,应该使用 R 语言的 pbinom 函数。

pbinom(2, 5, 0.1)

该命令返回 0.9914,即在 5 次成功概率是 0.1 的试验中,观测到不多于两次成功的概率。

二项分布的均值是 n×p,也可以将均值视为 n 次试验的期望成功次数,其中每次试验的成功概率是 p

二项分布的方差是 n×p(1-p)。如果试验的次数足够多(尤其是当 p 接近于 0.5 时),二项分布几乎等于正态分布。事实上,计算大规模样本的二项概率对计算能力的要求很高,因此大多数统计程序会使用具有一定均值和方差的正态分布给出近似计算。

本节要点

  • 二项输出在建模中十分重要,因为它们表示了基本的决策情况,例如是否购买、是否点击、存活还是死亡等。
  • 二项试验是一种具有两种可能结果的试验,其中一种结果的概率为 p,另一种结果的概率为 1−p
  • n 很大并且 p 不接近于0(或1)时,二项分布可使用正态分布近似。

拓展阅读

  • 阅读一个名为 quincunx 的在线弹珠模拟程序,它展示了二项分布,网址是 https://www.mathsisfun.com/data/quincunx.html
  • 二项分布是统计学导论中的主要内容。在所有的统计学导论教材中,都会有一到两章的内容介绍二项分布。

2.10 泊松分布及其相关分布

一些过程是根据一个给定的整体速率随机生成事件的。所生成的事件可能是随时间扩展的,例如某个网站的访问者情况、一个收费站的汽车到达情况等;也可能是散布于空间中的,例如每平方米纺织品上的缺陷情况、每百行代码中的拼写错误情况。

主要术语

lambda

  单位时间内或单位空间中的事件发生率。

泊松分布

  单位时间内或单位空间中事件数量的频数分布。

指数分布

  在时间或距离上,从一个事件到下一个事件的频数分布。

韦伯分布

  泛化版本的指数分布。韦伯分布允许事件发生的速率随时间变化。

2.10.1 泊松分布

我们可以根据先验数据估计单位时间内或单位空间中的平均事件数量。但是我们可能也想知道,单位时间或单位空间之间事件的差异情况。泊松分布通过对很多单位抽样,可以告诉我们单位时间内或单位空间中事件的分布情况。例如,对于回答排队问题,泊松分布就非常有用,比如:“如果要确保在 95% 的情况下,可以完全处理任意五秒内到达服务器的网络流量,我们需要多大的容量?”

泊松分布的一个关键参数是 λ(lambda)。它表示在指定时间或空间间隔中,事件发生数量的均值。泊松分布的方差也是 λ

在模拟排队问题中使用泊松分布生成随机数,这是一种常用的方法。R 语言的 rpois 函数实现了此功能。该函数可以只接收两个参数,即随机数的数量和 lambda

rpois(100, lambda = 2)

上面的命令将从 λ = 2 的泊松分布生成 100 个随机数。例如,如果平均每分钟有两次客户服务电话呼入,那么上面的命令可以模拟 100 分钟内电话呼入的情况,并返回每一分钟内的电话呼入次数。

2.10.2 指数分布

指数分布可以建模各次事件之间的时间分布情况,例如,网站访问的时间间隔,汽车抵达收费站的时间间隔。它所使用的参数 λ 与泊松分布一样。在工程领域,指数分布可用于故障时间的建模;在过程管理领域,指数分布可用于对每次服务电话所需的时间进行建模。使用 R 代码实现从指数分布生成随机数时,需指定两个参数,分别是生成随机数的数量 n 和每个时间周期内的事件数量 rate。例如:

rexp(n = 100, rate = .2)

上面的代码使用每个时间周期内事件数量的均值为 2 的指数分布,生成 100 个随机数。它可用于模拟平均每分钟呼入电话 0.2 次的情况下,100 次电话的时间间隔情况(单位为分钟)。

在针对泊松分布或指数分布的模拟研究中,一个关键假设是速率 λ 在所考虑的时间周期内是保持不变的。从总体上看,这一假设很少是合理的。例如,公路或数据网络上的流量会随一天中的不同时段或者一周中的不同日子而变化。但是,我们可以将时间或空间切分为几乎同等的几个部分,这样就可以在其中做分析或模拟。

2.10.3 故障率估计

在许多应用中,事件发生率 λ 是已知的,或者可以从先验数据中估计出来。但是对于极少发生的事件,却未必如此。例如,飞机引擎发生故障就十分罕见,所以对于指定的引擎类型,几乎没有数据可用于估计发生故障的时间间隔。如果完全没有数据,就几乎没有什么基础可供估计事件的发生率。然而,我们可以做一些猜测:假如经过 20 个小时后没有发生事件,那么就可以确定事件的发生率不会是每小时一次。我们可以通过模拟或者直接计算概率,评估不同的假设事件发生率,并估计出一个阈值(发生率不可能比它低)。如果我们有一些数据,但是这些数据不足以对事件发生率做出准确可靠的估计,那么这时可以应用“拟合度检验”(参见 3.9 节)检测各种发生率,以确定它们对观察数据的拟合情况。

2.10.4 韦伯分布

在某些情况下,事件发生率并不能随时间的变化而保持恒定。如果事件的变化周期远大于事件在一般情况下的发生间隔,并没有问题。正如 2.10.2 节中所介绍的,我们只需将分析切分为多个间隔段,保持每段中的事件发生率相对固定即可。但是,如果事件发生率在每个间隔中也会发生变化,那么指数分布或泊松分布就不再有用了。在机械故障问题中,机器发生故障的风险会随时间的增加而增大,这时可能就会出现这种情况。韦伯分布是指数分布的一种延伸,它通过指定形状参数 β,允许事件发生率产生变化。如果 β>1,那么事件发生率会随时间增大;如果 β<1,那么事件发生率会随时间降低。由于我们使用韦伯分布分析的是发生故障的时间,而非事件发生率,因此分布的第二个参数表示的是特征生命,而非每个时间间隔中的事件发生率。该参数也被称为比例参数,用 η 表示。

在使用韦伯分布时,需要估计 βη 这两个参数。我们可以使用软件对数据建模,生成韦伯分布的最优拟合估计。

在使用 R 代码使用韦伯分布生成随机数时,需要指定三个参数,即生成随机数的数量 n、形状参数 shape 和比例参数 scale。例如,下面的代码使用形状参数为 1.5、特征生命为 5000 的韦伯分布,生成 100 个随机数字(即寿命):

rweibull(100,1.5,5000)

本节要点

  • 如果事件发生率为常数,那么可以用泊松分布对单位时间或空间内的事件数量进行建模。
  • 在这种场景下,可以用指数分布对两个事件间的时间间隔或距离建模。
  • 如果事件发生率会随时间变化(例如,设备故障率的增大),可以使用韦伯分布建模。

2.10.5 拓展阅读

  • 在 Tom Ryan 撰写的 Modern Engineering Statistics 一书中,有一章专门介绍了工程应用中使用的概率分布。
  • 阅读论文“Predicting Equipment Failures Using Weibu Analysis and SAS Software”和“Estimation the System Reliability Using Weibull Distribution”。这两篇论文主要从工程的角度介绍了韦伯分布的使用情况。

2.11 小结

在大数据时代,如果需要给出准确的估计量,那么随机抽样原则依然十分重要。与使用便利可用的数据相比,随机抽样可以减小偏差,并生成高质量的数据集。我们应了解各种抽样和数据生成的分布,这样才能对估计量中由随机变异性所导致的潜在误差进行量化。此外,还应了解自助法是对观测数据做有放回的抽样。对于确定样本估计量中可能存在的误差,自助法是一种“万能”的方法,颇具吸引力。

目录