統計學/統計抽樣與抽樣分佈

本章為推斷性統計學的基礎章節,將系統介紹統計抽樣的基本概念以及整個推斷性統計學中所涉及的幾種與正態分佈有關的概率分佈。

關於抽樣的基本概念 编辑

為什麼要抽樣? 编辑

 為了收集必要的資料,對所研究的物件(總體)的全部元素逐一進行觀測,往往不很現實。一種情形是研究的總體元素非常多,搜集資料費時,費用大,不及時而使所得的資料無意義(如在品質檢驗中,全部檢查使廢品數量又增加了許多)。另一種情形是檢查具有破壞性,如炮彈、燈管、磚等 。因此必須進行抽樣。  

簡單隨機抽樣 编辑

 不同的抽樣方式,樣本與總體的關係不一樣,構成不同的抽樣技術,本書全部都是指簡單隨機抽樣。

 首先介紹一下有關樣本隨機性的知識。把總體看成隨機變數X,對其進行n次觀測,得到一個容量為n的樣本:

x1(1), x2(1),……,xn(1)

 如另作n次觀測,則會得到由不同的觀測結果

x1(2), x2(2),……, xn(2)

 所組成第二個樣本。如繼續下去,會得到很多不同的樣本,從容量為N的總體中抽取容量為n的樣本,則有C_N^n個。 儘管我們實際中只抽取一個樣本,但是在觀測之前,樣本的出現具有隨機性。因此,樣本的每一個觀測值,例如第一個觀測值,在觀測之前就是一個隨機變數,記作X1,觀測得到它的取值記作x1,第二個元素,第三個元素依次類推。所以一個容量為n的樣本,在觀測之前,就是一個n維向量,即(x1, x2,……, xn)。 簡單隨機抽樣是指這n個隨機變數組成樣本時,要具備以下兩個條件:

  1. 這n個隨機變數與總體X具有相同的概率分佈;
  2. 它們之間相互獨立。

樣本統計量與抽樣分佈 编辑

前面採取的簡單隨機抽樣,樣本具有隨機性,樣本的亂數 ,s2等也會隨著樣本的不同而不同,故它們是樣本的函數。記為g(x1, x2,……, xn)稱為樣本統計量。 統計量的概率分佈稱為抽樣分佈(Sample distribution)。

幾種與正態分佈有關的概率分佈 编辑

  通常我們把總體看作是一個隨機變數X,有它自身的分佈,(大多數均視為正態分佈),其分佈中有參數,這些參數往往與總體特徵數有關。正態分佈有兩個參數:μ,σ2,其中μ就是X的期望,σ2就是X的方差。所以我們常把總體的特徵數叫做總體參數。這些總體特徵數不易直接求出,由於樣本是總體的一部分,故可根據樣本的統計量的資訊推斷總體參數。為了介紹總體參數的推斷,這裡先來介紹幾個與正態分佈有關的概率分佈。  

正態分佈 编辑

樣本平均數的抽樣分佈 编辑

 確定   抽樣分佈的特徵的最後一步是確定   概率分佈的形式。我們考慮兩種情形:一種是總體分佈未知,另一種是已知總體分佈為正態分佈。 總體分佈未知時,我們依賴於統計學中最重要的定理之一 —— 中心極限定理。  

中心極限定理 编辑

 從總體中抽取樣本容量為n的簡單隨機樣本,當樣本容量很大時,樣本均值   的抽樣分佈與正態概率分佈近似。

 圖4-7說明中心極限定理在三個不同總體中的作用。在每種情形下,顯然總體是非正態的。然而,我們注意到隨著樣本容量的增加,   抽樣分佈開始發生變化。當樣本客量為2時,我們看到   抽樣分佈開始呈現與總體分佈不同的外形。當樣本容量為5時,我們看到三個抽樣分佈都開始呈現—種鐘形外形。最後,當樣本容量為30時,我們看到三個抽樣分佈近似於一種正態。因而,當樣本容量足夠大時,   抽樣分佈與正態概率分佈近似。但是,樣本容量應該達到多大時,我們才可以假定能夠使用中心極限定理呢?統計研究人員通過研究各種總體不同樣本容量下   的抽樣分佈,來研究該問題。當總體分佈是對稱坡形形狀時,樣本容量為5到10時即可適用中心極限定理。然而,如果總體分佈嚴重偏態或明顯非正態,則需要更大的樣本容量。通常在統計實踐中,假定對多數應用,當樣本容量大於等於30時,   的 抽樣分佈與正態概率分佈近似。實際上,樣本容量為30或更多時,即可假定滿足中心極限定理大樣本條件。這一結果非常重要,我們再次重申一下。當樣本容量很大的時候,   的抽樣分佈可用正態概率分佈來近似。大樣本的條件可假定為 簡單隨機樣本的樣本容量為30或更多。當總體分佈未知時,中心極限定理是確定   抽樣分佈形式的關鍵。然而,我們也可能遇到這樣一些假定或認為總體是正態概率分佈的抽樣情形。在這種情形下,下面的結果定義了   抽樣分佈的形式。

 當總體為正態概率分佈時,對任何樣本容量,   的抽樣分佈均為正態分佈。

 總之,若我們用一個大的簡單隨機樣本(n>=30)時,中心極限定理使我們可以用正態概率分佈近似   的抽樣分佈。在簡單隨機樣本是小樣本(n<30)時,僅當我們假定總體為正態概率分佈時,   的抽樣分佈才為正態的。

 
圖4-7 中心極限定理在三個不同總體中的作用