◆レンジ(範囲) ・・・ R と表す
※はずれ値の影響を大きく受ける。
◆四分位範囲 ・・・ IQR(Inter Quartile Range)と表す
Q3 - Q1
※はずれ値の影響をほとんど受けない。
◆四分位偏差
IQR/2
◆偏差 ・・・ ̅観測値から平均値を引いた差
※はずれ値の影響を強く受けるため、解釈に注意が必要。
◆分散 ・・・ ̅偏差の二乗の総和を度数の合計で割る
※n-1で割る定義もある(不偏分散)
エクセル関数 =VAR(データ) n-1で割る定義
=VARP(データ) nで割る定義
◆標準偏差 ・・・ ̅分散の平方根
分散は2乗するので単位が異なり解釈が難しい。
そこで平方根を取った。
※n-1で割る定義もある(不偏分散ベース)
エクセル関数 =STDEV(データ) n-1で割る定義(標本から母集団を推定)
=STDEV.P(データ) nで割る定義(データが母集団すべての場合)
※EDAで用いるはずれ値の基準 = IQRの1.5倍(または3倍)
四分位範囲の外側からIQRの1.5倍以上離れたものははずれ値とする。
次のような場合、どちらが散らばりが大きいか、単純に比較することは難しいが、変動係数を求めることで比較しやすくなる。
|
平均編集 | 標準偏差 |
管理職 |
2000万円 | 450万円 |
アルバイト |
100万円 |
30万円 |
◆変動係数(CV:Coefficient of Variation) ・・・ 標準偏差を平均値で割る
※ %で表すことが多い
管理職 450/2000 = 22.5%
アルバイト 30 / 100 = 30% →アルバイトの方が散らばりが大きい
変動係数は平均で割っているので無単位であり、身長と体重など単位の異なる測定値間の変動をも比較できる。
◆Z値 ・・・ 偏差を標準偏差で割る
※ Z値の平均値は0、標準偏差は1となる。
◆偏差値 ・・・ Z値を10倍して50足す
※ 偏差値の平均値は50、標準偏差は10となる。
母平均(μ)、分散(σ^2)の母集団から大きさnの標本を抽出するとき、
標本の大きさが十分に大きければ(30以上あれば)、母集団がどのような分布でも
標本平均 = 母平均(μ) で
標本分散(S^2) ≒ σ^2/n の正規分布になる。
※標準偏差ではなく分散とする。