高中數學/機率與統計/連續型隨機變量與常態分佈簡介

閱讀指南

編輯

 

預備知識

編輯

閱讀本節內容,需要先掌握離散型隨機變量抽樣方法與對總體的估計導數及其應用這3個章節的知識。部分需要藉助定積分符號闡述的內容,我們將其單獨放在本節的「常態分佈性質的積分形式表達」子章節以及部分習題中。

考試要求

編輯

後續課程聯繫

編輯

基礎知識

編輯

知識引入

編輯
 
法蘭西斯·高爾頓(Francis Galton,1822年-1911年)是活躍於19世紀中後期的英國博學家。他發明的高爾頓釘板實驗形象地說明了中心極限定理的預言結果,而中心極限定理正與本節討論的正態曲線密切相關。他的博士生卡爾·皮爾遜(Karl Pearson,1857年-1936年)也是數理統計學大家,以矩估計法卡方檢定的提出聞名。

常態分佈的由來與法蘭西斯·高爾頓提出的釘板實驗關係密切。

 
圖為高爾頓釘板(Galton board)或稱豆子機(bean machine)。

由於在高爾頓板的實驗過程中,每個小球在每一層都做了完全隨機選擇的左右選擇,這就導致它可以類比為一個重複獨立的伯努利試驗,於是其分布結果可以用帕斯卡三角形第n層的那一排數描述。如果繼續增加釘板的層數、最下方小孔數量和實驗次數,可以發現各個孔中小球的高度連起來可以近似地構成一條平滑的曲線。這是一種不同於離散型機率分布的連續取值的機率分布。

連續型變量的機率分布

編輯

只採用離散型隨機變量並不能描述所有我們可能感興趣的隨機事件的結果變化。例如很多事件的觀測結果可以在一個連續的數值區間內分布,此時談論事件結果在某一個精確數值上的取值往往也變得意義不大。此外,由於測量誤差(隨機誤差系統誤差)的存在,我們更有理由關心結果落在一個範圍內而不是一個單點上的機率。

試驗結果可以取連續實數值的隨機變量叫做連續型continuous random variable)隨機變量。設X是一個可以在指定區間上連續取值的變量,則下面的函數F(t)叫做連續型隨機變量X的(機率)分布函數[1]累積分布函數cumulative distribution function):

 

此外,由於隨機變量X的數值範圍發生微小變動時,其機率值應該也不會有明顯波動,所以我們假定F(t)是連續函數。

由定義易知[1]

  • 機率分布函數F(t)是單調遞增的。
  •  
  •  
  •  
  •  

  提示:離散型的隨機變量也可以畫出機率分布的散點圖,此時的分布函數也有專門的名字,叫做機率質量函數probability mass function)。

假定某隨機變量X的累積分布函數F(t)是其定義域內的可導函數,則我們將其導函數F'(t)為X的機率密度函數probability density function)。

常態分佈簡介

編輯

我們直接定義下列函數的圖象稱為正態(分布)密度曲線normal (distribution) density curve),簡稱為正態曲線鐘形曲線bell curvebell-shaped curve[2]

 

以此函數為導函數的機率分布也叫做常態分佈normal distribution)或譯為常態分布

 時的常態分佈是標準常態分佈standard normal distribution)或拉普拉斯-高斯分布Laplace–Gauss distribution),此時其密度函數也叫做(高斯)函數Gauss function)。

  提示:英語複合詞(English compound)的構造方法有時候不太統一,例如高斯誤差函數的英文可以寫成「Gauss function」或「Gaussian function」。

  可以證明它具有下列性質[2]

  • 它的兩端無限接近x軸,但是始終在x軸上方。
  • 曲線是單峰的,它關於直線 對稱;
  • 曲線在 處達到峰值 
  • 它與x軸圍成的區域的面積值是有限的,而且恰好為1。

如果去掉高爾頓板試驗中最下邊的球槽,並沿著其底部在合適的高度建立一個水平坐標軸,其刻度單位為球槽的寬度。設X表示落下的小球第一次與高爾頓板底部坐標軸接觸時的坐標,那麼X是一個隨機變量,且X分布在區間(a, b]內的機率 為正態曲線與x軸、直線x = a、直線x = b共同圍成的封閉圖形的面積。

  關於正態曲線,有以下經驗結論[2]

  •  一定時,曲線隨著 的變化而沿x軸平移。
  •  一定時,曲線的性質由 確定。 越小,曲線越「瘦高」,表示總體的分布越集中; 越大,曲線越「矮胖」,表示總體的分布越分散。

  相關例題1: 標準常態分佈的均值和標準差分別是(    )。

A.0與1;B.1與1;C.0與0;D.1與1

  相關例題2: 標準常態分佈的機率密度函數是否有最大值和最小值?

常態分佈的問題涉及其取值的兩側對稱性,這可以藉助其圖象特點幫助理解。對於標準常態分佈等具有兩側對稱性的連續型機率分布,當x > 0時,F(x)的近似值可以在標準常態分佈表中查到(如果是習題,一般都會給出所需的必要數據);而當x < 0時,F(x)的近似值可以利用圖象關於y軸的對稱性F(x) = 1 - F(-x)來求解。

  相關例題3: 已知常態分佈曲線關於y軸對稱,求其均值的大小。

  相關例題4: 設隨機變量X服從標準常態分佈,P(X > 1) = p。

(1) 求P(-1 < X < 0)的值。
(2) 求P(-1 < X < 1)的值。

  相關例題5: 設隨機變量X服從常態分佈N(0, 1), a > 0,則下列結論中正確的有(    ):

A.P(|X| < a) = P(|X| < a) + P(|X| = a)
B.P(|X| < a) = 2 P(X < a) - 1
C.P(|X| < a) = 1 - 2 P(X < a)
D.P(|X| < a) = 1 - P(|X| > a)

  相關例題6: 設隨機變量X服從標準常態分佈N(0, 1)。已知F(-1.96) = 0.025,則P(|X| < 1.96) = (    )。
(出自2007年中國大陸課標版高考湖南卷第5題。)

A.0.025;B.0.050;C.0.950;D.0.975

  相關例題7: 已知某服從常態分佈N(0, 1)的隨機變量在區間(-2, -1)和(1, 2)內的取值機率分別為 ,試確定 的大小關係。

對於一般化的常態分佈(不一定是標準常態分佈),需要將其理解為標準常態分佈經過變量代換或其圖象經過平移、變形得到的結果。遇到有關常態分佈的考題時,需要分辯其中的參數,並熟記均值和方差(或標準差)對圖象產生的影響。

  相關例題8: 如果正態總體落在區間 內的機率是0.5,那麼相應的正態曲線在x為何值處達到最高點。

  相關例題9: 設隨機變量X服從常態分佈 ,求P(X < 3)的值。

  相關例題10: 設隨機變量 ,求c的值。

  相關例題11: 設隨機變量X服從常態分佈 ,求c的值。

  相關例題12: 已知某常態分佈的累積分布函數F(X)滿足F(3) = 0.9987,求其常態分佈總體在區間(-3, 3)內取值的機率。

  相關例題13: 設正態總體 ,如果取a = 0, b = -1,則其其機率密度函數f(x)是(    )。

A.奇函數;B.偶函數;C.非奇非偶函數;D.即是奇函數也是偶函數

  相關例題14: 已知隨機變量X服從常態分佈 ,求 的值。

  相關例題15: 在某次數學測試中,學生成績X近似服從常態分佈 ,若X在(80, 120)內的機率為0.8,則X在(0, 80)內的機率為(    )。

A.0.05;B.0.1;C.0.15;D.0.2

  相關例題16: 在某項測量中,測量結果X服從常態分佈 ,若X在區間(0, 1)內取值的機率為0.4,求X在(0, 2)內取值的機率。
(出自2007年中國大陸大綱版高考全國卷Ⅱ第14題。)

  相關例題17: 某班有60名學生,一次考試後數學成績 ,則估計該班學生數學成績在120分以上的人數為(    )。

A.10;B.9;C.8;D.7

  相關例題18: 設隨機變量 ,求P(X < 0)的值。

  相關例題19: 設隨機變量 ,求P(X > 2)的值。

  相關例題20: 設隨機變量 ,則P(-1 < X < 1)的值是(    )。

A.2 F(1) - 1;B.F(4) - F(2);C.F(2) - F(4);D.2 F(2) - 1

  相關例題21: 已知隨機變量X服從常態分佈 ,則  = (    )。
(出自2007年中國大陸課標版高考浙江卷第5題。)

A.0.16;B.0.32;C.0.68;D.0.975

  相關例題22: 根據以往的經驗,某工程施工期間的降水量X(單位:mm)對工期的影響如下表:

降水量X        
工期延誤天數 0 2 6 10

此外,歷年氣象資料表明,該工程施工期間降水量X小於300、700、900的機率分別為0.3、0.7、0.9。求:

(1)工期延誤天數的均值與方差;
(2)在降水量X至少是300的條件下,工期延誤不超過6天的機率。

正態數據的標準化與3-西格瑪經驗標準

編輯

之前我們提到過,標準得分(z分數)常用於確定常態分佈數據中的百分位數取值,或者是確定某個具體取值高於正態類型總體中百分之多少的數據。換句話說,藉助標準得分的轉換,可以實現在常態分佈或其它分布中從百分位數到原始值之間的相互換算。[3]

將百分位數轉化為對應原始值的步驟[3]

  1. 利用傳統統計學參考資料中提供的z分數表,查找百分位數對應的z分數。
  2. 將z-分數轉化為原始值,也即轉換為原始測量單位。

將原始值轉化為對應百分位數的步驟[3]

  1. 將原始值進行歸一化處理,從而得到z分數。
  2. 通過查表,找到指定分布(比如常態分佈)中z分數低於指定值的百分比例。

此外,常態分佈的2個原始值之間的包含比例也可以通過z分數的轉換計算。

 原則:服從於常態分佈 的隨機變量X絕大多數時候只會取到 之間的值。[2]

  有關常態分佈的機率,有下列特殊的取值需要記憶[2]

  •  
  •  
  •  

 原則:服從於常態分佈 的隨機變量X絕大多數時候只會取到 之間的值。[2]

  相關例題1: 已知隨機變量x服從常態分佈 ,求P(5 < x < 6)的值。

  相關例題2: 某中學高考數學成績近似地服從常態分佈N(100, 100),則此校數學成績在80~120分的考生占總人數的百分比為(    )。

A.31.74%;B.68.26%;C.95.44%;D.99.74%

  相關例題3: 已知服從常態分佈 的隨機變量在區間 內取值的機率分別為68.3%,95.4%和99.7%。某校高一年級1000名學生的某次考試成績服從常態分佈 ,則此次成績在(60, 120)範圍內的學生大約有(    )。

A.997人;B.972人;C.954人;D.683人

  相關例題4: 商場經營的某種袋裝大米質量(單位:kg)服從常態分佈 。試估算任取一袋大米,質量不足9.8kg的機率。

  相關例題5: 已知某市某次英語考試的成績可視為服從常態分佈(100, 36),求考試成績在區間(88, 112]內的機率。

中心極限定理的文字簡述與常態分佈的多種適用場合

編輯

我們提到過,通過分析多次重複的獨立伯努利試驗能夠說明大數定理。大數定理有好幾個強弱不同的版本,我們把其中的弱版本大數定理放在拓展性章節留給了感興趣的讀者。不過,我們還在此不加證明地繼續介紹一個結論更強的定理,它預言伯努利試驗在成功機率為0.5且實驗次數無限增大時的機率分布就是常態分佈:

  林德伯格-萊維中心極限定理Lindeberg-Lévy central limit theorem)指出:很多個獨立同分布因素的疊加結果會接近常態分佈。

作為支撐機率論的中心定理,它意味著:

  • 只要是數量足夠多的同類型連續機率分布,它們的數值疊加結果都是常態分佈。
  • 大量統計獨立的隨機變量的平均值的分布趨近於常態分佈。

作為一個意義深遠的定理,我們先在本小節關心它的統計學意義,稍後的其它小節中再藉助微積分學的符號補充此定理的數學形式。

上述的中心極限定理表明,其它類型的機率分布很大程度上可以用常態分佈作為近似。來自自然的觀測結果都有很多隨機誤差,並且經常可以視為是彼此獨立的,所以這些不同來源但彼此獨立的誤差大量疊加、抵消之後最終展現出來的結果就是常態分佈。由於常態分佈和隨機誤差的淵源,標準常態分佈的機率密度函數(即高斯函數)也叫做(高斯)誤差函數(Gauss) error function)。

  知識背景:在有關函數積分變換的理論中,高斯誤差函數是卷積運算下的一個不動點。由於求獨立分布變量的和的分布就是對2種機率密度函數求卷積運算,於是這可以直接說明任意分布與另一獨立常態分佈的和仍然與原來的分布相似。

 
保羅·P·萊維(Paul Pierre Lévy,1886年-1971年)是研究機率論(特別是隨機過程)的專家,也是鞅理論的研究先驅。

亞伯拉罕·棣莫弗是最早找到二項分布和高斯函數之間關係的人,皮埃爾-西蒙·拉普拉斯繼續探索了這一結論,他們研究的版本後來就被叫做棣莫弗-拉普拉斯中心極限定理。卡爾·高斯也曾發現隨機誤差和鐘形曲線之間的關聯。後來,芬蘭數學家雅爾·W·林德伯格(Jarl Waldemar Lindeberg,1876年–1932年)和法國數學家保羅·萊維在更普遍的情形下論證了中心極限定理的成立性,指出對於一切獨立同分布(不限於是二項分布)的情況都有相同結果。計算機學家艾倫·圖靈(Alan Mathison Turing,1912年-1954年)也曾獨立證明過此定理。

  提示:在實變函數論中有一個有關測度單調性與收斂性關係的重要定理叫做勒貝格-列維定理(Lebesgue-Levi theorem),由昂利·勒貝格(Henri Léon Lebesgue,1875年-1941年)和貝坡·列維(Beppo Levi,1875年—1961年)給出的。另外,在微分幾何學中還有一個研究幾何聯絡的重要數學家叫圖利奧·列維-齊維塔(Tullio Levi-Civita,1873年-1941年)。請勿把保羅·萊維的姓氏「萊維」與這2個含有「列維」一詞的義大利姓氏混淆。

積分形式下的常態分佈性質與中心極限定理

編輯

藉助定積分符號,我們可以從另一個角度描述出機率分布函數和變量在指定區間內取值機率的關係:

對於一個服從常態分佈的隨機變量X,它在區間[a, b)內取值的機率可以使用其機率密度函數 和積分符號記為[2]

 

特別地,標準常態分佈在整個實數軸上的積分為1,並且這一結論可以記為(我們總假定下列各式中的極限存在):

 

  提示:按照我們採用的定義(把機率密度函數定義為累積分布函數的導函數)來看,上述機率分布函數和變量在指定區間內取值機率的關係是微積分基本定理的直接推論。不過如果只是學習和掌握本節的主要內容,可以不需要預先了解微積分基本定理。

  知識背景:這種積分區間延伸至無限遠的積分被歸類為一種反常積分infinite limits of integration)。對高斯函數在整個實數軸上進行的無界積分也叫做高斯積分(Gaussian integral),它的積分值是使用專門的極坐標變量代換技巧求出的。

一般地地,我們補充規定下列的常見記號(假定下列各式中的極限存在):

  • 積分下限函數: 
  • 積分上限函數: 
  •  

最後,我們簡要地給出林德伯格-萊維中心極限定理的數學表述[4]
對於以0為均值、1為方差的一系列隨機變量 ,有 

  提示:高斯函數、常態分佈和上述的中心極限定理都有推廣到多變量的版本。[4]

常用結論與常見模型

編輯

幾點補充

編輯

有時候問題中所給的機率密度函數並非是最常見的正態機率密度函數形式,這時需要先嘗試進行適當的代數變形將其轉變成常態分佈的形式。尤其是切勿將機率密度函數中的均值與標準差認錯。

  相關例題1: 下列函數是常態分佈密度函數的是(    ):

A. ;B. ;C. ;D. 

另有一些問題會同時涉及到期望或方差的運算性質。

  相關例題2: 已知隨機變量X的機率密度函數是 ,求E(2X - 1)的值。

還有一些題目要求讀者涉及廣義奇偶性,應了解此類問題的特徵。

  相關例題3: 如果隨機變量 ,求P(X < 4-a)的值。

隨機變量的代換與機率歸一化

編輯

在大學數學中,一個比較常見的操作是對隨機變量X進行仿射變換 ,或是將它的機率密度函數乘以某個同樣包含X的指數函數。處理這類問題時,會涉及2個問題:

  • 對指數中的X的二次代數式進行配平方
  • 對係數進行歸一化

標準常態分佈中的係數就來自於對積分變量的替換和對機率的歸一化處理。我們知道全樣本空間的機率必為1,但是可以證明高斯積分(即高斯誤差函數在整實數軸上的反常積分)的結果是大於1的定值,所以需要將其除以合適的係數,使總機率維持為1。

我們先假定公式 的正確性。
如果作換元 ,則t對x的導函數(視均值和標準差為常數)為 。反過來也能求出x對t的導函數為 
進而由換元積分法可得:
 
此即 

  知識背景:(1)對機率「歸一化」的說法是借鑑自線性泛函分析,在該課程中我們會將函數類比為向量進行研究。(2)由於量子力學很大程度上就是用復變量函數對微觀世界中的機率問題進行建模,所以對函數的係數進行歸一化也是量子力學中的常見做法。

計算機技術輔助

編輯

Mathematica

編輯

Matlab/Octave

編輯

Python

編輯

補充習題

編輯

   

  • 對於常態分佈 的2個參數,當(    )時,相應的正態曲線的形狀越扁平。
A. 越大;B. 越大;C. 越大;D. 越大

參見

編輯

參考資料

編輯
  1. 1.0 1.1 李賢平. 第3章「隨機變量與分布函數」第3.1節「隨機變量及其分布」中「二、分布函數的性質」部分和「三、離散型隨機變量」部分. (編) 李蕊 (策劃編輯); 楊帆 (責任編輯). 概率論基礎. 普通高等教育「十一五」國家級規劃教材. 王超 (責任校對) 3. 中國北京市崇西城區德外大街4號: 高等教育出版社. 2010: 116–122. ISBN 978-7-04-028890-2 (中文(中國大陸)). 
  2. 2.0 2.1 2.2 2.3 2.4 2.5 2.6 李勇 (本冊主編); 章建躍(作者+責任編輯); 白濤; 張淑梅. 第2章「隨機變量及其分布」第2.4節「正態分布」. (編) 劉紹學 (主編); 錢珮玲 (副主編); 張唯一 (責任編輯). 高中數學 (A版) 選修2-3 2. 中國北京市海淀區中關村南大街17號院1號樓: 人民教育出版社. 2006: 70–74. ISBN 978-7-107-20171-4 (中文(中國大陸)). 
  3. 3.0 3.1 3.2 蒂莫西·C·厄丹(Timothy C. Urdan). 第3章「標準化與z分數」第1節「標準化與z分數詳解」. Statistics in Plain English [白話統計學]. 管理者終身學習. 彭志文 (漢譯者) 3. 中國北京中關村大街31號: 中國人民大學出版社. 2013: 43–52. ISBN 978-7-300-18573-6 (中文(中國大陸)). 
  4. 4.0 4.1 李賢平. 第5章「極限定理」第5.3節「獨立同分布場合的極限定理」中「三、中心極限定理」部分. (編) 李蕊 (策劃編輯); 楊帆 (責任編輯). 概率論基礎. 普通高等教育「十一五」國家級規劃教材. 王超 (責任校對) 3. 中國北京市崇西城區德外大街4號: 高等教育出版社. 2010: 324–329. ISBN 978-7-04-028890-2 (中文(中國大陸)). 

補充來源:

外部連結

編輯
 
維基百科中的相關條目:
 
維基百科中的相關條目:
 
維基百科中的相關條目:
 
維基百科中的相關條目:
 
維基百科中的相關條目:
 
維基百科中的相關條目:
 
維基百科中的相關條目: