様々な検定

比率に関する検定

政党支持率、製品の不良率 など、比率日刊して推測を行いたいケースで使用。

 

標本数が十分に大きいとき(具体的には、np>5 または n(1-p)>5)であれば、正規分布を仮定して議論してよい。

 

Pハットは、標本の算術平均

P0は、1-P(Pでない場合)

適合度検定

想定した確率分布に従う標本といえるかを検証するための検定。

 

帰無仮説のもとで、右の統計量は、カイ二乗分布に従う。

 

上側確率αの片側検定とします。

理由:右の統計量は観測度数と期待頻度が一致したときに0をとり、

   離れていくほどに大きい値をとるため。

クロス集計表における独立性の検定

➀クロス集計表を作る(質的変数)

観測値 質的変数2
麻雀をする 麻雀をしない 周辺和  麻雀する率
質的変数1 パチンコをする 45 25 70

64.3%

パチンコをしない 35 95 130 26.9%
周辺和 80 120 200  
周辺和の率

40%

60%    

 

➁期待度数を算出(もし関係が無かったらこうなるだろうという値。(周辺和×周辺和の率)

独立である場合の期待値 質的変数2
麻雀をする 麻雀をしない 周辺和 
質的変数1 パチンコをする 28 42 70
パチンコをしない 52 78 130
周辺和 80 120 200

 

➂偏差の二乗を期待値で割る

  麻雀をする 麻雀をしない
パチンコをする 10.32 6.88
パチンコをしない  5.56 3.7 

このとき、検定統計量カイ二乗 は、

右のように計算されます。

 

➃カイ二乗値を算出 

 :➂をすべて合計したもの = 26.46

 

➄自由度 

 : 観測値の(横のセル数-1)×(縦のセル数-1) = 1

 

➅p値を出す

 : =CHISQ.DIST.RT(カイ二乗値,自由度) = 0.0000003

 

➆p値を解釈する

 カイ二乗値が大きくなればp値は小さくなる。0.05以下なら小さいとみなす。

 p値が0.05以下なら帰無仮説は棄却され、対立仮説(有意であること)が採択される。

 

<p値の説明>

・たまたま、関係があると見えてしまう確率がp値 

・p値が0.05以下であることで、たまたまではないことを立証する。(有意水準5%)

・p値が0.05以下になれば、「帰無仮説が異なっている」ということの立証はできる。

・p値が0.05より大きかったとしても「帰無仮説は正しい」とはならない。(検定の非対称性)

・違っていることの立証はできるが、正しいことの立証はできない。それが統計的仮説検定。

分散分析

因子の水準間での平均値が異なっているかを検定する方法です。分散に関する検定ではない。

2つの母集団の平均の差は、t検定で検定可能ですが、3つ以上の母集団では、分散分析です。 

 

一元配置 : 因子が1つで多水準

二元配置 : 因子が2つで多水準

多元配置 : 因子が3つ以上

 

群間変動 : 水準間での変動

郡内変動 : 水準内の繰り返し起こる誤差変動

 

検定統計量 : 群間変動と郡内変動を自由度で割った分散比