统计学/独立样本四格表资料的χ²检验
< 統計學
χ2检验可以用于检验两个样本的总体频率分布是否相同。
2×2列联表χ2检验的基本思想
编辑组别 | 属性 | 合计 | |
---|---|---|---|
Y1 | Y2 | ||
甲 | a(T11) | b(T12) | n1=a+b(固定值) |
乙 | c(T21) | d(T22) | n2=c+d(固定值) |
合计 | m1=a+c | m2=b+d | n=a+b+c+d |
这样的数据形式称为2×2列联表(2×2 contingency table)。因为此表格的基本数据分布在a、b、c、d四个格子中,故又称之为四格表。
在假设H0成立的条件下,表1中的两样本的总体分布相等。由于总体分布未知,用两样本联合计算的频率分布作为总体分布的近视:属性Y1的理论频率近似地等于m1/n,属性Y2的理论频率近似地等于m2/n。
于是,H0成立的条件下,四格表中每一格相应的理论频数分别近似地等于
T11= = ,T12= =
T21= = ,T22= =
一般地,理论频数Tij的计算公式为
Tij= (i=1,2;j=1,2)[1]
式中n为总例数,ni是第I行的合计数,mj是第j列的合计数。
如果H0成立,当观察个数n较大时,样本观察频数与理论频数应当相去不远。每一格的样本观察频数Aij与理论频数Tij之间的差异,可运用下面的式[2]计算统计量χ2来衡量。
χ2= (i=1,2;j=1,2)[2]
可以证明,H0成立时,统计量χ2近似服从自由度为v=1的χ2分布。自由度的计算公式为:v=(行数-1)×(列数-1)。