高中数学/概率与统计/抽样方法与对总体的估计

阅读指南

预备知识

考试要求

后续课程联系

基础知识

知识引入

由初中/国中阶段的数学知识可知，考察数据的形式分为普查和抽查。从总体（statistical population）或者叫母体^[1]中调查到或取出的个体都被叫做样本，抽出的样本多少叫做样本容量。由于许多实际问题所涉及的总体容量较大，抽查往往比普查更为可行。这一节，我们先介绍几种不同类型的抽样方法，其次再谈论从样本可得到的统计信息能不能代替所调查总体的特征。

抽样方法的细分

常见抽样方法包括^[2]：
简单随机抽样（simple random sampling）：从一个个体数目为N的总体中，逐次地抽样，每次抽取1个样本，并且每次能被抽取的各个个体被抽到的概率相等。

系统抽样（systematic sampling）或机械抽样：将总体分成均衡的几个部分，然后对其中每一部分分别抽取1个个体，共同组成获得的样本。

分层抽样（stratified sampling）：当总体由差异明显的几部分组成时，按各部分所占比例进行分别抽样，再汇总抽取到的结果。所划分出来的每个部分都叫做一个层。

提示：简单随机抽样并未严格限定在抽取过程中，是否需要放回已抽中过的样本。事实上，在数理统计学中，我们总是假定总体是无限容量的，此时即使是无放回的抽样也不会影响总体的概率分布^[1]。在高中阶段一般都是考虑总体容量为无限的常见情形^[2]。使用重复抽样法（resampling）可以模拟大容量的总体，这也是机器学习中应对样本容量偏小问题的常见解决做法（特别是应用于交叉验证中）。

提示：还有一些其它抽样方法没有被列入高中的数学知识学习范围，例如在市场调研中应用广泛的成簇抽样（cluster sampling）法。

三种抽样方法的比较如下^[2]：

类别	共同点	各自特点	相互联系	适用范围
简单随机抽样	抽样过程中每个个体被抽取的概率相等	从总体中逐个抽取		总体中的个体数较少
系统抽样		将总体均分成几部分，然后分别抽取	在起始部分抽样时采用简单随机抽样	总体的个体数较多
分层抽样		将总体按明显差异分成几层，然后分层抽取	各层抽样时采用简单随机抽样或系统抽样	总体由差异特别明显的几部分组成

样本的数字统计量与矩

先前提及大数定理时也粗略地讲过，当使用次数无限增大时，试验发生的频率能够严格地逼近真实的概率。这是因为当试验次数无限增大时，能尽可能减少抽样造成的随机性误差。除了事件发生的概率，我们同样也希望通过计算样本的平均值、方差、标准差等信息，估计总体的相应信息。

为了估计总体的某种数字特征，而从样本中计算出的信息就是样本的统计量^[3]。

提示：样本的统计量是样本信息的多元函数。

我们对样本定义下列的常用统计量：
均值的估计量或称为样本均值（sample mean）： $\mu _{x}=x_{1}+x_{2}+...+x_{n}$

方差的估计量或称为样本方差（sample variance）： $\sigma _{x}^{2}={\frac {(x_{1}-\mu )^{2}+(x_{2}-\mu )^{2}+...+(x_{n}-\mu )^{2}}{n-1}}$

注意：这种基于样本的方差估计量也叫做修正样本方差。请注意它与总体的方差计算方式是不一样的，分母部分不是样本数n，而是n-1。它并非是将样本看成是总体时的方差，而是基于样本信息定义的一种对总体方差的估计量。样本的方差估计量也并非只能这样规定^[4]，这只是样本的方差估计量的常用定义。

玩笑：矩是一个由来说法比较复杂的概念。统计学家们认为它来源于物理学，但是物理学家们认为它来源于统计学。

至于为什么要将样本方差的分母取为n-1而不是像总体方差一样取为n，这涉及到多种估计量的比较。为此，下面我们先介绍矩和矩估计的概念：

设随机变量X取值为 $X_{1},X_{2},\cdots ,X_{n},\cdots$ 时的取值依次为 $p_{1},p_{2},\cdots ,p_{n},\cdots$ ，c为常数，k为正整数，则下列统计量叫做总体（即随机变量的）分布的k阶矩：
$p_{1}(X_{1}-c)^{k}+p_{2}(X_{2}-c)^{k}+...+p_{n}(X_{n}-c)^{k}+\cdots$
当c取0时，上述式子叫做样本的k阶原点矩；当c为均值 $\mu$ 时，上述式子叫做样本的k阶中心矩。随机变量的数学期望和方差都是总体分布的矩。

换句话说，设X为随机变量，c为常数，k为正整数，则量 $E[(X-c)^{k}]$ 称为X关于点c的k阶矩（the n-th moment of X about a point c）。c=0时， $E(X^{k})$ 称为X的k阶原点矩；c=EX时（EX是一个常数）， $E[(X-EX)^{k}]$ 称为X的k阶中心矩。^[5]

我们对样本也定义类似的概念：

设 $X_{1},X_{2},X_{3}$ 为一组样本，k为正整数，c为常数，下列统计量叫做k阶样本矩^[3]：
${\frac {(X_{1}-c)^{k}+(X_{2}-c)^{k}+...+(X_{n}-c)^{k}}{n}}$
c取0时，上述式子叫做k阶样本原点矩；c取为该组样本均值 ${\bar {X}}$ 时，上述式子叫做k阶样本中心矩。一组样本的数学期望和方差都是样本的矩。

提示：对于总体概率分布，我们总能从形式上定义其中无穷项的和作为矩（假设求和的结果是一个有限的定值）。但是对于样本而言，由于我们在现实世界中操作时不可能做到无限地抽样，所以只能对有限个样本定义矩。

如果使用样本平均值的矩代表未知总体的矩，或者使用样本方差的矩代表未知总体的方差，这种做法就叫做未知参数的矩估计法。一般来说，由于抽样时随机误差的存在，样本一般不能完全代表总体的信息，所以样本的矩与总体的矩算出来一般是不同的。不过，当抽取的样本容量很大时，可以想象样本的矩有很大可能性趋近于总体的矩。^[6]

无偏估计与自由度修正

当不论参数取何值时，如果都存在一个只与样本信息有关的统计量 $g(X_{1},X_{2},...)$ ，使其计算结果的均值 $E(g(X_{1},X_{2},...))$ 等于总体的数字特征G，我们就称 $g(X_{1},X_{2},...)$ 是G的无偏差估计量（unbiased estimator）或无偏估计值（unbiased estimated value），简称无偏估计。^[7]

更通俗地讲，如果所有可能样本的某一统计量的平均数等于总体的相应参数，则称该统计量为总体相应参数的无偏估计值^[8]。我们先通过实例计算说明无偏估计的含义，再通过公式演算论证样本均值和方差估计公式的无偏性。

设有一个随机变量可以等可能性地随机取得3、4、5这3个数值，易知其期望值 $\mu =4$ ，方差 $\sigma ^{2}\approx 0.6667$ ，标准差 $\sigma \approx 0.8165$ 。如果每次独立、有放回地从中抽取2个值，总共可以得到 $N^{n}=3^{2}=9$ 种不同的结果。其抽样结果以及我们后续讨论所需的相关量可以列举如下^[8]：

样本组编号	各组的2个具体样本值	平均值估计量（样本方差） $\mu ={\bar {x}}$	方差估计量（样本方差） $s_{x}^{2}$	方差估计量的算术平均数 $s_{x}$
1	3, 3	3.0	0.0	0.000
2	3, 4	3.5	0.5	0.7071
3	3, 5	4.0	2.0	1.4142
4	4, 3	3.5	0.5	0.7071
5	4, 4	4.0	0.0	0.0000
6	4, 5	4.5	0.5	0.7071
7	5, 3	4.0	2.0	1.4142
8	5, 4	4.5	0.5	0.7071
9	5, 5	5.0	0.0	0.0000
汇总		36.0	6.0	5.6568

根据上表中的数据，可以进而求出^[8]：

样本统计量的计算及其与真实总体参数值的比较（仅取近似值）	初步结论
样本平均数 ${\bar {x}}$ 的平均数 $\mu _{\bar {x}}={\frac {36}{9}}=4=\mu$	样本平均数就是总体的平均数的期望，或者说是其无偏估计
样本方差 $s_{x}^{2}$ 的平均数 $\mu _{s_{x}^{2}}={\frac {6}{9}}\approx 0.6667\approx \sigma ^{2}$	样本方差就是总体的平均数的期望，或者说是其无偏估计
样本方差算术平方根 $s_{x}$ 的平均数 $\mu _{s_{x}}\approx {\frac {5.6568}{9}}\approx 0.6285\neq 0.8165\approx \sigma$	样本方差的平方根不是总体的平均数的期望，或者不是其无偏估计

注意：(1)统计量的无偏性是从统计平均意义上而言的。对于单次抽到的样本，其计算出的无偏估计量是有可能受随机误差的影响而偏移总体参数的。但是如果我们对无偏估计量在各个可能抽到的样本之下求得期望值，就会发现计算结果等于总体参数，即体现了其无偏性。(2)无偏性保证的是单次测量中系统误差的消除，但是不能消除每一次测量时的随机误差，随机误差的抵消仍然需要通过大量重复进行抽样过程然后取平均值（期望）。^[7]

接下来，我们证明之前规定的样本均值和样本方差计算公式的无偏性^[7]：
${\begin{array}{l}E(EX)=E({\frac {X_{1}+X_{2}+...+X_{n}}{n}})\\={\frac {EX_{1}+EX_{2}+...+EX_{n}}{n}}\\={\frac {\mu +\mu +...+\mu }{n}}={\frac {n\mu }{n}}=\mu \end{array}}$

关于样本分布，我们有下列结论^[8]：

样本平均数 ${\bar {x}}$ 是总体平均数 $\mu$ 的无偏估计值。

样本方差 $s^{2}$ 是总体方差 $\sigma ^{2}$ 的无偏估计值。

样本方差的算术平均数不是总体标准差 $\sigma$ 的无偏估计值。

提示：样本方差的算术平均数虽然不是总体标准差的无偏估计值，但是将其乘以一个与样本容量有关的系数因子补救后，仍可以作为对总体标准差的无偏估计量。^[7]

习惯上，将样本统计量中独立变化的变数数目叫做该统计量的自由度（free degree）。我们看到，样本方差的公式只是对总体方差公式中的自由度进行了调整，即成为了其无偏估计量。这种简单但是管用的做法叫做对自由度的修正（correction）。

标准得分

补充习题

参见

参考资料

↑ ^1.0 ^1.1 陈希孺. 第4章“参数估计”第4.1节“数理统计学的基本概念”第4.1.2小节“总体”和第4.1.3小节“样本”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 152–156. ISBN 9787312003493 （中文（中国大陆））.
↑ ^2.0 ^2.1 ^2.2 人民教育出版社中学数学室. 第1章“概率与统计”第2部分“统计”第1.3节“抽样方法”. 数学. 全日制普通高级中学教科书 (选修). 第3册 (选修2) 1. 中国北京沙滩后街55号: 人民教育出版社. 2004: 18–24. ISBN 7-107-17448-7 （中文（中国大陆））.
↑ ^3.0 ^3.1 陈希孺. 第4章“参数估计”第4.1节“数理统计学的基本概念”第4.1.4小节“统计量”和第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.1小节“参数的点估计问题”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 157–158; 158–159. ISBN 9787312003493 （中文（中国大陆））.
↑ 陈希孺. 第4章“参数估计”第4.3节“点估计的优良性准则”第4.3小节“点估计优良性准则”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 174–175. ISBN 9787312003493 （中文（中国大陆））.
↑ 陈希孺. 第3章“随机变量的数字特征”第3.2节“方差与矩”第3.2.2小节“矩”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 132–133. ISBN 9787312003493 （中文（中国大陆））.
↑ 陈希孺. 第4章“参数估计”第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.2小节“矩估计法”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 159–162. ISBN 9787312003493 （中文（中国大陆））.
↑ ^7.0 ^7.1 ^7.2 ^7.3 陈希孺. 第4章“参数估计”第4.3节“点估计的优良性准则”第4.3.1小节“估计量的无偏性”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 175–179. ISBN 9787312003493 （中文（中国大陆））.
↑ ^8.0 ^8.1 ^8.2 ^8.3 李春喜; 邵云; 姜丽娜. 第3章“概率与概率分布”第3节“统计数的分布”中“一、抽样试验与无偏估计”部分. 生物统计学. 普通高等教育“十一五”国家级规划教材 4. 中国北京东黄城根北街16号: 科学出版社. 2008: 41–42. ISBN 978-7-03-021573-4 （中文（中国大陆））.

外部链接

维基百科中的相关条目：

样本均值

维基百科中的相关条目：

样本方差

维基百科中的相关条目：

估计量的偏差

维基百科中的相关条目：

自由度 (统计学)

维基百科中的相关条目：

标准得分

[陈希孺_1992_总体和样本的概念-1] 1.0 ^1.1 陈希孺. 第4章“参数估计”第4.1节“数理统计学的基本概念”第4.1.2小节“总体”和第4.1.3小节“样本”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 152–156. ISBN 9787312003493 （中文（中国大陆））.

[人教社大纲版数学_2004_抽样方法-2] 2.0 ^2.1 ^2.2 人民教育出版社中学数学室. 第1章“概率与统计”第2部分“统计”第1.3节“抽样方法”. 数学. 全日制普通高级中学教科书 (选修). 第3册 (选修2) 1. 中国北京沙滩后街55号: 人民教育出版社. 2004: 18–24. ISBN 7-107-17448-7 （中文（中国大陆））.

[陈希孺_1992_统计量简介-3] 3.0 ^3.1 陈希孺. 第4章“参数估计”第4.1节“数理统计学的基本概念”第4.1.4小节“统计量”和第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.1小节“参数的点估计问题”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 157–158; 158–159. ISBN 9787312003493 （中文（中国大陆））.

[陈希孺_1992_统计量的比较-4] 陈希孺. 第4章“参数估计”第4.3节“点估计的优良性准则”第4.3小节“点估计优良性准则”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 174–175. ISBN 9787312003493 （中文（中国大陆））.

[陈希孺_1992_随机变量的矩-5] 陈希孺. 第3章“随机变量的数字特征”第3.2节“方差与矩”第3.2.2小节“矩”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 132–133. ISBN 9787312003493 （中文（中国大陆））.

[陈希孺_1992_矩估计法-6] 陈希孺. 第4章“参数估计”第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.2小节“矩估计法”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 159–162. ISBN 9787312003493 （中文（中国大陆））.

[陈希孺_1992_估计量的无偏性-7] 7.0 ^7.1 ^7.2 ^7.3 陈希孺. 第4章“参数估计”第4.3节“点估计的优良性准则”第4.3.1小节“估计量的无偏性”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 175–179. ISBN 9787312003493 （中文（中国大陆））.

[李春喜_2008_无偏估计-8] 8.0 ^8.1 ^8.2 ^8.3 李春喜; 邵云; 姜丽娜. 第3章“概率与概率分布”第3节“统计数的分布”中“一、抽样试验与无偏估计”部分. 生物统计学. 普通高等教育“十一五”国家级规划教材 4. 中国北京东黄城根北街16号: 科学出版社. 2008: 41–42. ISBN 978-7-03-021573-4 （中文（中国大陆））.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]