◆質的変数(カテゴリカル)・・・いくつかに分類されたカテゴリ。序列のないカテゴリと序列のあるカテゴリに分類できる。
クロス集計表にまとめる。
◆量的変数 ・・・数で表現できるもので離散変数と連続変数に分類できる。
0の意味でも分類できる
間隔尺度 → 0の意味が相対的(摂氏温度) 0≠無
比率尺度 → 0の意味が絶対的(身長、体重) 0=無
基本統計量とともに度数分布表やヒストグラムでまとめる。
比率 > 間隔 > 順序 > 名義 の順で数学的処理がしやすくなる。
変数 | 尺度 | 説明 | 例 | 集計手法 |
質 的 変 数 |
名義 尺度 |
順序に意味がない | 性別、職業、支持政党など |
クロス集計表 でまとめる |
順序 尺度 |
順序に意味がある | 成績のABC、小中高、競争の順位など | ||
量 的 変 数 |
間隔 尺度 |
0が相対的 0≠ 無 |
摂氏温度、偏差値 |
度数分布表や ヒストグラム でまとめる |
比率 尺度 |
0が絶対的 0=無 |
絶対温度、売上高、利益率、身長体重など |
◆平均値
※はずれ値の影響を強く受けるため、解釈に注意が必要。
算術平均の基本性質
<用途>
層別の平均から算出される全体の平均
各PJの粗利率から算出される全社の平均粗利率
時系列データの上昇率や下落率の平均の計算に使用します。
<用途>
平均増加率(%/年)
今後10年間で20%増加させるのに必要な成長率(%/年)
複利の金融商品の利回りなど。
掛け合わせていく率の平均は、掛け算の平均である幾何平均を用いるということです。
エクセル関数 =GEOMEAN(データ)
<用途>
往復の平均時速を求める場合などに利用される。
エクセル関数 =HARMEAN(データ)
どんな正のデータ集合に対しても、相加平均 ≧ 相乗平均 ≧ 調和平均 となる。
<用途>
天気の平年並み:過去30年の中央値に近い10個に入れば平年並み。
スキージャンプの採点:5人の審判のうち最低点と最高点を除いた平均値をとる。
<用途>
株価のトレンド:5日、25日、75日、200日の移動平均がよく用いられる。
36協定の特別条項:2~6か月の移動平均がすべて80時間以下としている。
◆中央値 ・・・ M メディアンで表す
観測値を昇順に並べ、真ん中の位置にあるもの。
観測値が偶数個の場合は、真ん中の2つの平均を中央値とする。
※中央値ははずれ値の影響がほとんどない。
エクセル関数 =MEDIAN(データ)
◆最頻値 ・・・ モードと呼ばれる最も頻繁に出現する値
離散変数(世帯人数など)ならそのままの値を最頻値とする。
連続変数なら度数分布表の度数が最大の階級の代表値を最頻値とする。
※階級の代表値=階級の(上限+下限)/2
エクセル関数 =MODE(データ)
<代表地の大きさの順序>
正規分布なら 平均値=中央値=最頻値 となる
右に裾が長い分布なら 最頻値<中央値<平均値 となる
左に裾が長い分布なら 平均値<中央値<最頻値 となる