政党支持率、製品の不良率 など、比率日刊して推測を行いたいケースで使用。
標本数が十分に大きいとき(具体的には、np>5 または n(1-p)>5)であれば、正規分布を仮定して議論してよい。
Pハットは、標本の算術平均
P0は、1-P(Pでない場合)
想定した確率分布に従う標本といえるかを検証するための検定。
帰無仮説のもとで、右の統計量は、カイ二乗分布に従う。
上側確率αの片側検定とします。
理由:右の統計量は観測度数と期待頻度が一致したときに0をとり、
離れていくほどに大きい値をとるため。
➀クロス集計表を作る(質的変数)
観測値 | 質的変数2 | ||||
麻雀をする | 麻雀をしない | 周辺和 | 麻雀する率 | ||
質的変数1 | パチンコをする | 45 | 25 | 70 |
64.3% |
パチンコをしない | 35 | 95 | 130 | 26.9% | |
周辺和 | 80 | 120 | 200 | ||
周辺和の率 |
40% |
60% |
➁期待度数を算出(もし関係が無かったらこうなるだろうという値。(周辺和×周辺和の率)
独立である場合の期待値 | 質的変数2 | |||
麻雀をする | 麻雀をしない | 周辺和 | ||
質的変数1 | パチンコをする | 28 | 42 | 70 |
パチンコをしない | 52 | 78 | 130 | |
周辺和 | 80 | 120 | 200 |
➂偏差の二乗を期待値で割る
麻雀をする | 麻雀をしない | |
パチンコをする | 10.32 | 6.88 |
パチンコをしない | 5.56 | 3.7 |
このとき、検定統計量カイ二乗 は、
右のように計算されます。
➃カイ二乗値を算出
:➂をすべて合計したもの = 26.46
➄自由度
: 観測値の(横のセル数-1)×(縦のセル数-1) = 1
➅p値を出す
: =CHISQ.DIST.RT(カイ二乗値,自由度) = 0.0000003
➆p値を解釈する
カイ二乗値が大きくなればp値は小さくなる。0.05以下なら小さいとみなす。
p値が0.05以下なら帰無仮説は棄却され、対立仮説(有意であること)が採択される。
<p値の説明> ・たまたま、関係があると見えてしまう確率がp値 ・p値が0.05以下であることで、たまたまではないことを立証する。(有意水準5%) ・p値が0.05以下になれば、「帰無仮説が異なっている」ということの立証はできる。 ・p値が0.05より大きかったとしても「帰無仮説は正しい」とはならない。(検定の非対称性) ・違っていることの立証はできるが、正しいことの立証はできない。それが統計的仮説検定。 |
因子の水準間での平均値が異なっているかを検定する方法です。分散に関する検定ではない。
2つの母集団の平均の差は、t検定で検定可能ですが、3つ以上の母集団では、分散分析です。
一元配置 : 因子が1つで多水準
二元配置 : 因子が2つで多水準
多元配置 : 因子が3つ以上
群間変動 : 水準間での変動
郡内変動 : 水準内の繰り返し起こる誤差変動
検定統計量 : 群間変動と郡内変動を自由度で割った分散比