統計學/統計抽樣

　　本章系統介紹統計抽樣基本概念以及簡單隨機抽樣、分層抽樣、整群抽樣以及系統抽樣相關理論。

統計抽樣的基本概念

　　在前面我們給出了總體和樣本的定義，即　*總體由研究物件的全體所組成。　*樣本是總體中的部分元素所組成的集合。

　　為說明這些概念,我們考慮Dunning微系統有限公司（DMI）的情況，Dunning微系統有限公司是一個生產微型電腦及終端的公司，該公司想搜集購買DMI微型電腦使用者的特徵。為了得到這些資料，該公司對DMI微型電腦的擁有者進行了一次抽樣調查。這個抽樣調查的個體是購買DMI微型電腦的每個人,總體是購買DMI微型電腦的所有人組成的集合，樣本是要調查的DMI微型電腦擁有者的一個子集。　　在抽樣調查中，有必要區分目標總體與抽樣總體。目標總體是我們要推斷的總體，抽樣總體是實際抽取樣本的總體，明確這兩個總體不總是一致的是很重要的，在DMI例子中，目標總體是購買了DMI微型電腦的所有人，抽樣總體是將保修登記卡寄回DMI公司的所有電腦擁有者。既然有購買DMI微型電腦但沒有寄回保修卡的人，可見抽樣總體和目標總體是不一致的。

　　抽樣調查獲得的結果只適用於抽樣總體，這些結果是否能擴展到目標總體需要依賴分析家的判斷。關鍵的問題是考慮在所研究的個體上，抽樣總體與目標總體是否非常一致，以此來決定能否擴展。

　　在抽樣之前，應將總體劃分為抽樣單位。抽樣單位既可以是一個簡單的個體，也可以是一組個體。例如，假設我們要調查持有證書的專業工程師，他們從事商業建築物的供暖和空調系統的設計工作。如果可以利用從事這種工作的所有專業工程師的名冊，則抽樣單位就是我們要調查的專業工程師。如果這個名冊不可以利用，我們必須尋找其他的方法。商業電話號碼簿可以提供所有工程公司的名冊。由給出的工程公司的名冊．我們能夠確定選擇工程公司的一個調查樣本。然後，對每一個公司，我們採訪該公司所有的專業工程師。這種情況下，工程公司是抽樣單位，被採訪的工程師是個體。

　　對某一個特殊研究，抽樣單位的名冊稱為抽樣框。在專業工程師的抽樣調查中，抽樣框是商業電話號碼簿上的所有工程公司的名冊，而不是所有專業工程師的名冊，這是因為專業工程師的名冊是不可以利用的。常常由可以得到的和確定的名冊決定調查所用的特殊抽樣框，進而確定抽樣單位。在實踐中，編制抽樣框是進行抽樣調查的一個困難而又重要的步驟。

抽樣調查種類和抽樣方法

　　最常用的三種調查是郵寄調查、電話調查和個人採訪調查，而且每一種調查都需要設計和使用調查表。

　　在使用調查表的調查中，設計調查表是很關鍵的問題。設計者必須要抵制想囊括所有要研究問題的誘惑，因為每增加一個問題都會增加調查表的長度。長的調查表不僅使回答者感到疲勞，而且也使採訪者感到疲勞，尤其對郵寄和電話調查更是如此。但是，如果用個人採訪調查，較長而且複雜的調查表是行得通的。對調查表，關於措詞、排序及問題的分組等方面都存在大量的知識，這些問題會在有關抽樣調查的更全面的書籍中討論。　　根據使用的抽樣方法，抽樣調查可分為概率抽樣和非概率抽樣。用概率抽樣，可以計算取得的每個可能樣本的概率；用非概率抽樣，則不知道取得的每個可能樣本的概率。如果調查者想對估計的精度做出說明，則不能用非概率抽樣。相應地，用概率抽樣方法對給定的允許誤差（也稱為抽樣誤差界限），可構造置信區間。在後面幾節中，我們將討論四種概率抽樣方法：簡單隨機抽樣、分層簡單隨機抽樣、整群抽樣和系統抽樣。

　　儘管統計學家喜歡用概率抽樣方法，但非概率抽樣方法常常是必要的。非概率抽樣的優點是成本低而且容易完成；缺點是不能對估計的精度做出正確的說明。兩種最常用的非概率抽樣方法是方便抽樣和判斷抽樣。

　　使用方便抽樣，是由於方便性而選擇包含在樣本中的單位。例如，一個教授在大學裡進行一項調查研究，他可以邀請一些學生志願者參加他的研究專案，僅僅是因為這些學生在他的班上。這時，學生樣本稱為方便樣本。在某些情況下，方便抽樣只是實踐方法，例如，檢查人員可以偶爾從一些柳條筐中選擇柳丁，以得到柳丁貨運量的樣本。即使運輸的所有柳丁都貼有標籤，建立抽樣框和使用概率抽樣方法也是不切合實際的。野生動物的捕獲和對消費者研究的志願小組都是方便樣本的一些例子。

　　儘管方便抽樣是選擇樣本和搜集資料的一種相對簡單的方法，但是對這樣取得的樣本統計量，無法評價通過它們估計要研究的總體參數的“優良性”。方便樣本可能提供好的結果，也可能提供不好的結果。由樣本結果進行的統計推斷，沒有統計上的證明過程。有時有些研究人員用方便樣本來搜集用統計方法設計的概率樣本的資料，這樣做時，研究人員應該強調方便樣本可以看成是一個隨機樣本，這樣它可以成為總體的代表。但是這樣得出的結論會被質疑，因此，在用方便樣本對總體參數進行推斷時，必須非常小心。

　　在用非概率抽樣技術中，根據個人的主觀意識來選擇總體有代表性的抽樣單位的方法，稱為判斷抽樣。儘管判斷抽樣常常是選擇樣本的一種相對容易的方法，但調查結果的使用者必須清楚地認識到，這些結果的品質依賴於個人在選擇樣本時的判斷。因此，用判斷樣本對總體參數進行統計推斷時也應該非常小心。一般地，用判斷樣本所得結果的精度沒有做出統計上的說明。

調查誤差

進行抽樣調查可產生兩類誤差，一類是抽樣誤差，它是所得到的樣本點估計值與總體參數之間的數量差異。換句話說，抽樣誤差是由於沒有對總體的所有單位進行調查而產生的誤差；另一類是非抽樣誤差，它包括進行一次抽樣調查可能出現的所有其他類型的誤差，如測量誤差、採訪者誤差及資料處理誤差等。抽樣誤差僅出現在抽樣調查中，而非抽樣誤差則既可以出現在全面調查中，也可以出現在抽樣調查中。　 ===非抽樣誤差===　　　我們不能準確地測量要研究的特徵，這是最常見的非抽樣誤差形式之一，測量誤差可以出現在普查或抽樣調查中。對其中任何一種調查，調查人員必須十分仔細，保證測量工具（如調查表）非常準確，而且進行測量的人員要經過適當的培訓。在多數情形下，注意細節是最好的防範措施。由於沒有回答所產生的誤差對負責設計調查的統計人員和使用調查結果的管理人員都是一個非常關心的問題。當不能得到或只能部分得到某些被調查單位的資料時，就會產生這類非抽樣誤差。出現偏差是很嚴重的問題。例如，對婦女外出工作的看法進行調查，若只在白天做家庭採訪，就會出現明顯的偏差。因為，外出工作的婦女沒有包含在樣本中。

　　通常，在技術性調查中，會出現由於缺乏回答知識而產生的非抽樣誤差。

　　另外兩種類型的非抽樣誤差是選擇誤差和資料處理誤差。當調查中包含不恰當的項目時，就會生產選擇誤差。假設設計一個抽樣調查，來描述有鬍鬚的男人外觀。對“有鬍鬚的男人”的理解，如果有些採訪人員認為應包括有小鬍子的男人，而其他採訪人員則不這樣認為，這樣，調查的結果資料將有缺陷。當有登記錯誤或輸入錯誤時，就會出現資料處理誤差。如將調查表中的資料輸入電腦時產生的錯誤，即為輸入錯誤。

　　儘管在大多數的調查中，會出現一些非抽樣誤差，但通過周密的計畫可使它們達到最小，這些計畫包括注意保證抽樣總體與目標總體的一致、遵循良好調查表的設計原則、培訓採訪人員等。調查的最後結論中，應包含非抽樣誤差對調查結果可能產生影響的討論。　 ===抽樣誤差===　　　回憶在7.1節介紹的DMI抽樣調查問題，假設DMI公司想估計購買DMI微型電腦的人的平均年齡。如果可以調查DMI微型電腦擁有者的整個總體（普查），則不存在抽樣誤差，同時我們也可以準確地計算他們的平均年齡。但如果不能調查DMI擁有者的整個總體，調查結果將如何呢？這時，樣本均值與總體均值之間可能存在差異，差異的絕對值即為抽樣誤差。

　　實踐中，對任何特殊的樣本，不可能知道抽樣誤差，因為總體均值是未知的。但是，對於抽樣誤差的大小可以有概率說明。

　　因此，由於調查的只是一個樣本，而不是整個總體，就會產生抽樣誤差。儘管抽樣誤差不可避免，但卻是可以控制的。選擇合適的抽樣方法是控制這類誤差的一個重要的方法。在下面幾節中，我們將討論四種概率抽樣方法：簡單隨機抽樣、分層簡單隨機抽樣、整群抽樣和系統抽樣。

簡單隨機抽樣

分層簡單隨機抽樣

整群抽樣

系統抽樣

　　系統抽樣常常用來代替簡單隨機抽樣。對某些抽樣情況，特別是大型總體，通過先確定亂數，然後根據抽樣框尋找與亂數相對應的個體的方法來選擇—個簡單隨機樣本，這需要花費大量時間。在這種情況下，系統抽樣可代替簡單隨機抽樣。例如，需要從容量為5 000的總體中抽取一個容量為50的樣本，我們可以從總體中每100（5 000／50）個個體中抽選一個個體。這種情況的系統樣本，是從抽樣框的前100個個體中隨機選擇一個；根據選中的第一個個體位置，然後在其後面的抽樣框中，每隔100個個體選擇一個，可得到樣本中其餘的個體。實際上，通過系統排列總體，及在隨機抽取第一個個體後，每隔100個來選擇一個個體，可以得到一個容量為50的樣本。用這種方式選擇容量為50的樣本常常比用簡單隨機抽樣容易。因為第一個個體的選擇是隨機的，因此系統樣本常常假定具有簡單隨機樣本的性質。當抽樣框是由總體中的個體隨機排列而形成時，這種假定通常是合適的。