高中数学/概率与统计/离散型随机变量的分布列及其数字特征

阅读指南

注意：与先前一样，本节中用到的组合数符号 $\mathrm {C} _{n}^{k}$ 是沿袭自苏俄的符号习惯，表示从n个元素中取出k个元素的取法数；如果换成欧美常见的符号，应该改写为 ${\tbinom {n}{k}}$ 。

预备知识

考试要求

后续课程联系

基础知识

知识引入

随机变量与分布列的概念

我们可以将随机试验的结果看成一个变量，而相关的概率表达式就是该结果的函数。代表随机试验结果的变量就叫做随机变量（random variable）或译为随机变数。如果随机变量的可能取值可以按一定的顺序一一列出，这样的变量就叫做离散型（discrete）随机变量。^[1]

提示：(1)随机变量也被看成是样本空间（事件集合）的函数，此时仍将其称为“变量”只是沿袭以前的习惯性称呼^[2]。(2)与我们熟悉的欧氏空间不同，概率论中所说的样本空间只是一个描述事件集合的数学概念，它可以仅包含离散的点或有限个点^[3]。

我们可以通过一个表格列出某个离散型随机变量所有可能取值及其相应概率，这样的表格叫做相应随机变量的概率分布列（probability distribution series）、概率分布或简称为分布列^[1]。随机变量常用 $X,Y,\xi ,\eta$ 等字母表示^[4]。
离散型随机变量的概率分布也可以通过分段函数表达式和图象展示的方法表示^[4]。

提示：希腊文小写字母ξ的国际音标为[ksɪ]，η的国际音标为[i]（古希腊语发音）、[ˈiːtə]（英式英语发音）或[ˈeɪtə]（美式英语发音）。但有的高中教科书只介绍美式读音^[1]。

随机的变量 $\xi$ 取值为a的概率，在有的教科书上采用圆括号记为 $P(\xi =a)$ ，有的则采用花括号记为 $P\{\xi =a\}$ 。使用哪种记法一般都没有问题。

思考：以1为概率取某个特定值的量能叫随机变量吗？

回答：这是一个意义不大的问题，但是统计学里的确有专门的概念描述这种平凡无奇的分布，它描述的是几乎确定的事件。这样的分布被叫做“单点分布”或“（一维的）退化分布”（degenerate distribution）^[5]。需要注意的是，由几何概率模型中的许多例子可知，概率为1的事件并不代表就是必然事件。

伯努利两点分布与二项分布

雅各布·伯努利（Jakob I. Bernoulli，1654年－1705年）是17世纪的知名瑞士数学家，提出了伯努利试验与大数定理等诸多重要模型和定理。在高中阶段要学的伯努利不等式也是他的贡献。他认为自己发现的大数定理是一条黄金定理（golden theorem）。据说他希望死后展示在自己墓碑上的曲线被雕刻师画错了。

以雅各布·伯努利命名的伯努利试验（Bernoulli trial）是一种只有2种可能性的试验，由成功发生的概率p这一个参数唯一确定。^[6]

提示：有的概率论教科书上将这类只有2种结果的试验的重复多次过程定义为伯努利试验^[7]。

提示：如果随机变量满足某种概率分布，那么我们也说此随机变量服从这种分布。

如果随机变量的取值只有0和1这2个值，此时的概率分布叫做两点分布（two-point distribution）、0-1分布。由于这种分布来自于伯努利试验，它也叫做伯努利分布，其中随机变量X取1的概率也被叫做成功概率（probability of success）。^[4]
在单次随机试验中，某事件可能发生，也可能不发生。在n次独立重复事件中这个事件发生的次数是一个随机变量，可记为 $\xi$ 。根据重复独立试验的概率知识，我们知道如果在单次试验中某事件发生的概率是p，那么在n次独立重复事件中这个事件恰好发生k次的概率是^[1]：
$P(X=\xi )=\mathrm {C} _{n}^{k}p^{k}(1-p)^{n-k}\quad (k\in \mathbb {Z} ,0\leq k\leq n)$
由于其中的各项刚好是二项展开公式中的各个项对应，所以也将其称为二项分布（binomial distribution），记作 $\xi \sim B(n,p)$ ^[1]。并记 $b(k;n,p):=\mathrm {C} _{n}^{k}p^{k}(1-p)^{n-k}$ ^[1]。沿用伯努利试验中的术语，其中的概率p仍叫做成功概率^[4]。

几何分布

在独立重复试验中，某事件第一次发生时所作试验的次数也是一个随机变量，可以记为 $\xi$ 。例如“ $\xi =k$ ”表示在第k次独立重复试验时，事件才第一次发生，在之前k - 1次试验中都没有发生。如果把第k次试验时事件E发生记为 $E_{k}$ ，不发生记为 ${\overline {E_{k}}}$ ，且 $P(E_{k})=p$ ，则有^[1]：
${\begin{array}{l}P(\xi =k)=P({\overline {E_{1}}}\cap {\overline {E_{2}}}\cap \cdots \cap {\overline {E_{k-1}}}\cap {\overline {E_{k}}})\\=P({\overline {E_{1}}})P({\overline {E_{2}}})\cdots P({\overline {E_{k-1}}}P({\overline {E_{k}}})\\=p\times p\times \cdots \times p\times (1-p)\\=p^{k-1}(1-p)\end{array}}$
容易看出，此时的概率主要是随p的值呈几何式变化的。

如果设某个随机变量代表在独立重复试验时第一次发生的概率，那么它的对应概率分布就叫做几何分布（geometric distribution）。^[1]

超几何分布

在总共含有M件次品的N件产品中任取出n件，其中抽到的次品数记为X，则事件P{X=k}的概率为：
$P(X=k)={\frac {\mathrm {C} _{M}^{k}\mathrm {C} _{N-M}^{n-k}}{\mathrm {C} _{N}^{n}}}\quad (k\in \mathbb {N} ,0\leq k\leq \mathrm {min} \{M,n\})$
我们将此情形中X的概率分布叫做超几何分布（hypergeometric distribution）。^[4]

总体的数学期望

如果离散型随机变量 $\xi$ 的所有可能取值是 $x_{1},x_{2},\cdots ,x_{n},\cdots$ ，并且取这些值的对应概率分别是 $p_{1},p_{2},\cdots ,p_{n},\cdots$ ，那么我们将下列的量定义为为 $\xi$ 的数学期望（mathematical expectation）或简称为期望、平均值（mean）^[8]：
$E\xi =x_{1}p_{1}+x_{2}p_{2}+\cdots +x_{n}p_{n}+\cdots$
期望是一种按概率大小加权化的平均数，反应了离散型随机变量取值的平均水平。^[9]

注意： $E\xi$ 并不是字母E与 $\xi$ 的乘积，它表示对 $\xi$ 进行一种函数运算。

数学期望的概念起源于著名的点数分配问题。法国文人夏瓦列·德梅尔（Chevalier de Méré，1607年－1684年）曾向布莱兹‧帕斯卡（Blaise Pascal，1623年－1622年）询问有关在点数分配游戏中如何实现公平奖励的古老问题，而帕斯卡在与皮埃尔·德·费马（Pierre de Fermat，1607年－1665年）的书信讨论中逐渐萌生出数学期望的定义。

关于数学期望，有下列结论：

取期望与仿射变换可交换运算顺序：E(aX + b) = aEX + b^[8]

如果随机变量X服从两点分布，那么EX = p。^[9]

如果X ~ B(n, p)，那么EX = np。^[8]

总体的方差与标准差

如果离散型随机变量 $\xi$ 的所有可能取值是 $x_{1},x_{2},\cdots ,x_{n},\cdots$ ，并且取这些值的对应概率分别是 $p_{1},p_{2},\cdots ,p_{n},\cdots$ ，那么我们将下列的量定义为随机变量的方差（variance）^[8]：
$D\xi :=p_{1}\cdot (x_{1}-E\xi )^{2}+p_{2}\cdot (x_{2}-E\xi )^{2}+\cdots +p_{n}\cdot (x_{n}-E\xi )^{2}+\cdots$
随机变量X的方差有时也记作 $Var(X)$ ^[10]。随机变量方差的算术平方根 ${\sqrt {D\xi }}$ 叫做标准差（standard deviation），记作 $\sigma \xi$ ^[8]。

方差和标准差都反应了随机变量取值的波动大小，或者说反应了其分散程度^[8]。当均值不为零时，标准差与均值的比值也叫做变异系数（coefficient of variation），是以均值为单位来衡量的随机变量的偏离情况^[11]。

提示：希腊文小写字母σ的国际音标为[ˈsɪɡmə]。^[9]

注意：(1)与数学期望的符号相似， $D\xi$ 和 $\sigma \xi$ 也都不是表示某种乘积。(2)随机变量的方程公式虽然来源于初中/国中数学中介绍过的原始公式 $S^{2}={\frac {(x_{1}-{\bar {x}})^{2}+(x_{2}-{\bar {x}})+\cdots +(x_{n}-{\bar {x}})^{2}}{n}}$ ，但是从现在开始，我们要明确区分来自总体数据的方差和来自抽样数据的方差。之后将会看到，我们可能会为它们规定略为不同的计算公式。

知识背景：另一种更一般化的对总体方差的定义是 $D(X)=E(X-EX)^{2}$ 。^[10]

关于方差，有下列结论：

若X服从两点分布，则DX = p(1-p)^[9]

若X~B(n, p)，则DX = np(1-p)^[9]

$D(aX+b)=a^{2}DX$ ^[9]
特别地，常数的方差为零。^[10]

$DX=E(X^{2})-(EX)^{2}$ ^[10]

独立随机变量之和的方差，等于各变量的方差之和。^[10]

提示：利用公式 $DX=E(X^{2})-(EX)^{2}$ 计算随机变量的方差比直接利用方差的原始定义更方便。^[10]

总体的其它常用统计量

更多资料：高中数学/不等式与数列/平均值不等式

其它可以从整体上描述一个概率分布的常用统计量包括最大值、最小值、极差、中位数、众数、四分位数、代数平均数（即加权平均数）、几何平均数以及马上要介绍的调和平均数。

若a, b > 0，那么我们定义其调和平均数（harmonic mean）m为 ${\frac {1}{m}}={\frac {1}{a}}+{\frac {1}{b}}$ 。

提示：数学中经常出现的“调和”或译为“和谐”的概念来自毕达哥拉斯学派的数秘学信仰，参见数学神秘主义。

提示：对于保护无限数量个体的总体，其众数可以理解为相应概率最大的数。

上述统计量都是从早期的朴素统计方法中借鉴而来的，都被称为描述概率分布的数字特征。概率论与统计学后来在发展中相互促进，又诞生了数理统计学^[12]。在数理统计学中，众数、中位数、多种平均数都能描述数据的某种居中特性，所以都被视为更一般意义上的平均数；极差、方差和标准差则不同程度地刻画了数据的偏离程度，被称为变异数或差异数（variance）^[13]。更准确地说，平均数和差异数在统计学中都被称为“矩”（moment）或“动差”，具有一个形式上更统一的表达形式，而且它们正好构成矩的两大类。我们会在后面的抽样方法与对总体的估计章节更正式地介绍矩。

计算机技术辅助

Mathematica

Python

补充习题

罗马尼亚彩票专家斯特凡-曼德尔（Stefan Mandel）曾借助数学计算分析彩票胜率，创下中14次头奖的纪录。查阅相关资料，了解早期彩票的漏洞以及各个彩票管理机构的应对措施。^[14]^[15]^[16]

参见

参考资料

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 ^1.7 人民教育出版社中学数学室. 第1章“概率与统计”第1部分“随机变量”第1.1节“离散型随机变量的分布列”. 数学. 全日制普通高级中学教科书 (选修). 第3册 (选修2) 1. 中国北京沙滩后街55号: 人民教育出版社. 2004: 4–8. ISBN 7-107-17448-7 （中文（中国大陆））.
↑ 李贤平. 第3章“随机变量与分布函数”中“第三章小结”部分. (编) 李蕊 (策划编辑); 杨帆 (责任编辑). 概率论基础. 普通高等教育“十一五”国家级规划教材. 王超 (责任校对) 3. 中国北京市崇西城区德外大街4号: 高等教育出版社. 2010: 176–177. ISBN 978-7-04-028890-2 （中文（中国大陆））.
↑ William Feller. 第1章“样本空间”第1.5节“离散样本空间”. (编) 王丽萍. 概率论及其应用. 图灵数学·统计学丛书 1. 胡迪鹤 (汉译者) 1 (原书第3版). 中国北京市崇文区夕照寺街14号: 人民邮电出版社. 2006: 14–15. ISBN 978-7-115-14729-5 （中文（中国大陆））.
↑ ^4.0 ^4.1 ^4.2 ^4.3 ^4.4 李勇 (本册主编); 章建跃(作者+责任编辑); 白涛; 张淑梅. 第2章“随机变量及其分布”第2.1节“离散型随机变量及其分布列”. (编) 刘绍学 (主编); 钱佩玲 (副主编); 张唯一 (责任编辑). 高中数学 (A版) 选修2-3 2. 中国北京市海淀区中关村南大街17号院1号楼: 人民教育出版社. 2006: 44–49. ISBN 978-7-107-20171-4 （中文（中国大陆））.
↑ 李贤平. 第3章“随机变量与分布函数”第3.1节“随机变量及其分布”中“三、离散型随机变量”部分. (编) 李蕊 (策划编辑); 杨帆 (责任编辑). 概率论基础. 普通高等教育“十一五”国家级规划教材. 王超 (责任校对) 3. 中国北京市崇西城区德外大街4号: 高等教育出版社. 2010: 122–127. ISBN 978-7-04-028890-2 （中文（中国大陆））.
↑ William Feller. 第6章“二项分布与泊松分布”第6.1节“伯努利试验序列”. (编) 王丽萍. 概率论及其应用. 图灵数学·统计学丛书 1. 胡迪鹤 (汉译者) 1 (原书第3版). 中国北京市崇文区夕照寺街14号: 人民邮电出版社. 2006: 112–113. ISBN 978-7-115-14729-5 （中文（中国大陆））.
↑ 王梓坤. 第2章“随机变数与它的分布”第2.3节“二项分布与贝努里试验”中“（一）二项分布”部分和“（二）贝努里试验”部分. (编) 岳昌庆 (责任编辑); 李菡 (责任校对). 概率论基础及其应用. 新世纪高等学校教材·数学及应用数学专业主干课程系列教材. 赖德胜 (出版人) 3. 中国北京市新街口外大街19号: 北京师范大学出版社. 2007: 61–65. ISBN 978-7-303-03632-5 （中文（中国大陆））.
↑ ^8.0 ^8.1 ^8.2 ^8.3 ^8.4 ^8.5 人民教育出版社中学数学室. 第1章“随机变量”第1部分“随机变量”第1.1节“离散型随机变量的分布列”. 数学. 全日制普通高级中学教科书 (选修). 第3册 (选修2) 1. 中国北京沙滩后街55号: 人民教育出版社. 2004: 9–16. ISBN 7-107-17448-7 （中文（中国大陆））.
↑ ^9.0 ^9.1 ^9.2 ^9.3 ^9.4 ^9.5 李勇 (本册主编); 章建跃(作者+责任编辑); 白涛; 张淑梅. 第2章“随机变量及其分布”第2.2节“离散型随机变量的均值与方差”. (编) 刘绍学 (主编); 钱佩玲 (副主编); 张唯一 (责任编辑). 高中数学 (A版) 选修2-3 2. 中国北京市海淀区中关村南大街17号院1号楼: 人民教育出版社. 2006: 61–68. ISBN 978-7-107-20171-4 （中文（中国大陆））.
↑ ^10.0 ^10.1 ^10.2 ^10.3 ^10.4 ^10.5 陈希孺. 第3章“随机变量的数字特征”第3.2节“方差与矩”第3.2.1小节“方差和标准差”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 175–179. ISBN 9787312003493 （中文（中国大陆））.
↑ 陈希孺. 第4章“参数估计”第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.2小节“矩估计法”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 159–162. ISBN 9787312003493 （中文（中国大陆））.
↑ 李贤平. 第1章“事件与概率”第1.1节“随机现象与统计规律性”中“四、概率论简史”部分. (编) 李蕊 (策划编辑); 杨帆 (责任编辑). 概率论基础. 普通高等教育“十一五”国家级规划教材. 王超 (责任校对) 3. 中国北京市崇西城区德外大街4号: 高等教育出版社. 2010: 8–9. ISBN 978-7-04-028890-2 （中文（中国大陆））.
↑ 李春喜; 邵云; 姜丽娜. 第2章“试验资料的整理与特征数的计算”第2.2节“试验资料特征数的计算”中“一、平均数”部分和“二、变异数”部分. 生物统计学. 普通高等教育“十一五”国家级规划教材 4. 中国北京东黄城根北街16号: 科学出版社. 2008: 16–22. ISBN 978-7-03-021573-4 （中文（中国大陆））.
↑ （英文）6-Step Formula Used By Stefan Mandel and Why It Won’t Work Now!．TheLotteryLab（2019年5月9日）．
↑ （简体中文）数学家连中14次彩票头彩，逼得两国修改法律，他发现一个万能公式．人物志; 环球科学; 长春晚报（2018年9月26日）．
↑ （简体中文）小桐（2020年2月5日）．鬼才利用彩票漏洞获利亿元流亡18年写出新算法．新浪彩票．

外部链接

维基百科中的相关条目：

伯努利分布

维基百科中的相关条目：

几何分布

维基百科中的相关条目：

超几何分布

维基百科中的相关条目：

数学期望

维基百科中的相关条目：

方差

维基百科中的相关条目：

调和平均数

[人教社大纲版数学_2004_随机变量与分布列-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 ^1.7 人民教育出版社中学数学室. 第1章“概率与统计”第1部分“随机变量”第1.1节“离散型随机变量的分布列”. 数学. 全日制普通高级中学教科书 (选修). 第3册 (选修2) 1. 中国北京沙滩后街55号: 人民教育出版社. 2004: 4–8. ISBN 7-107-17448-7 （中文（中国大陆））.

[李贤平_2010_贝叶斯公式-2] 李贤平. 第3章“随机变量与分布函数”中“第三章小结”部分. (编) 李蕊 (策划编辑); 杨帆 (责任编辑). 概率论基础. 普通高等教育“十一五”国家级规划教材. 王超 (责任校对) 3. 中国北京市崇西城区德外大街4号: 高等教育出版社. 2010: 176–177. ISBN 978-7-04-028890-2 （中文（中国大陆））.

[3] William Feller. 第1章“样本空间”第1.5节“离散样本空间”. (编) 王丽萍. 概率论及其应用. 图灵数学·统计学丛书 1. 胡迪鹤 (汉译者) 1 (原书第3版). 中国北京市崇文区夕照寺街14号: 人民邮电出版社. 2006: 14–15. ISBN 978-7-115-14729-5 （中文（中国大陆））.

[人教社课标版数学_2006_随机变量及其分布列-4] 4.0 ^4.1 ^4.2 ^4.3 ^4.4 李勇 (本册主编); 章建跃(作者+责任编辑); 白涛; 张淑梅. 第2章“随机变量及其分布”第2.1节“离散型随机变量及其分布列”. (编) 刘绍学 (主编); 钱佩玲 (副主编); 张唯一 (责任编辑). 高中数学 (A版) 选修2-3 2. 中国北京市海淀区中关村南大街17号院1号楼: 人民教育出版社. 2006: 44–49. ISBN 978-7-107-20171-4 （中文（中国大陆））.

[李贤平_2010_常见离散型分布-5] 李贤平. 第3章“随机变量与分布函数”第3.1节“随机变量及其分布”中“三、离散型随机变量”部分. (编) 李蕊 (策划编辑); 杨帆 (责任编辑). 概率论基础. 普通高等教育“十一五”国家级规划教材. 王超 (责任校对) 3. 中国北京市崇西城区德外大街4号: 高等教育出版社. 2010: 122–127. ISBN 978-7-04-028890-2 （中文（中国大陆））.

[Feller_2006_伯努利试验-6] William Feller. 第6章“二项分布与泊松分布”第6.1节“伯努利试验序列”. (编) 王丽萍. 概率论及其应用. 图灵数学·统计学丛书 1. 胡迪鹤 (汉译者) 1 (原书第3版). 中国北京市崇文区夕照寺街14号: 人民邮电出版社. 2006: 112–113. ISBN 978-7-115-14729-5 （中文（中国大陆））.

[王梓坤_2007_二项分布与伯努利试验-7] 王梓坤. 第2章“随机变数与它的分布”第2.3节“二项分布与贝努里试验”中“（一）二项分布”部分和“（二）贝努里试验”部分. (编) 岳昌庆 (责任编辑); 李菡 (责任校对). 概率论基础及其应用. 新世纪高等学校教材·数学及应用数学专业主干课程系列教材. 赖德胜 (出版人) 3. 中国北京市新街口外大街19号: 北京师范大学出版社. 2007: 61–65. ISBN 978-7-303-03632-5 （中文（中国大陆））.

[人教社大纲版数学_2004_期望与方差-8] 8.0 ^8.1 ^8.2 ^8.3 ^8.4 ^8.5 人民教育出版社中学数学室. 第1章“随机变量”第1部分“随机变量”第1.1节“离散型随机变量的分布列”. 数学. 全日制普通高级中学教科书 (选修). 第3册 (选修2) 1. 中国北京沙滩后街55号: 人民教育出版社. 2004: 9–16. ISBN 7-107-17448-7 （中文（中国大陆））.

[人教社课标版数学_2006_期望与方差-9] 9.0 ^9.1 ^9.2 ^9.3 ^9.4 ^9.5 李勇 (本册主编); 章建跃(作者+责任编辑); 白涛; 张淑梅. 第2章“随机变量及其分布”第2.2节“离散型随机变量的均值与方差”. (编) 刘绍学 (主编); 钱佩玲 (副主编); 张唯一 (责任编辑). 高中数学 (A版) 选修2-3 2. 中国北京市海淀区中关村南大街17号院1号楼: 人民教育出版社. 2006: 61–68. ISBN 978-7-107-20171-4 （中文（中国大陆））.

[陈希孺_1992_方差和标准差-10] 10.0 ^10.1 ^10.2 ^10.3 ^10.4 ^10.5 陈希孺. 第3章“随机变量的数字特征”第3.2节“方差与矩”第3.2.1小节“方差和标准差”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 175–179. ISBN 9787312003493 （中文（中国大陆））.

[陈希孺_1992_估计量的无偏性-11] 陈希孺. 第4章“参数估计”第4.2节“矩估计、极大似然估计和贝叶斯估计”第4.2.2小节“矩估计法”. 概率论与数理统计 1. 中国科学技术大学出版社. 1992: 159–162. ISBN 9787312003493 （中文（中国大陆））.

[李贤平_2010_概率论简史-12] 李贤平. 第1章“事件与概率”第1.1节“随机现象与统计规律性”中“四、概率论简史”部分. (编) 李蕊 (策划编辑); 杨帆 (责任编辑). 概率论基础. 普通高等教育“十一五”国家级规划教材. 王超 (责任校对) 3. 中国北京市崇西城区德外大街4号: 高等教育出版社. 2010: 8–9. ISBN 978-7-04-028890-2 （中文（中国大陆））.

[13] 李春喜; 邵云; 姜丽娜. 第2章“试验资料的整理与特征数的计算”第2.2节“试验资料特征数的计算”中“一、平均数”部分和“二、变异数”部分. 生物统计学. 普通高等教育“十一五”国家级规划教材 4. 中国北京东黄城根北街16号: 科学出版社. 2008: 16–22. ISBN 978-7-03-021573-4 （中文（中国大陆））.

[14] （英文）6-Step Formula Used By Stefan Mandel and Why It Won’t Work Now!．TheLotteryLab（2019年5月9日）．

[15] （简体中文）数学家连中14次彩票头彩，逼得两国修改法律，他发现一个万能公式．人物志; 环球科学; 长春晚报（2018年9月26日）．

[16] （简体中文）小桐（2020年2月5日）．鬼才利用彩票漏洞获利亿元流亡18年写出新算法．新浪彩票．

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]