Statistics → データの性格と代表値

データの性格

◆質的変数(カテゴリカル)・・・いくつかに分類されたカテゴリ。序列のないカテゴリと序列のあるカテゴリに分類できる。

  • 名義尺度 → 性別や支持政党など         順序に意味がない
  • 順序尺度 → 学校の成績をABCなどで表す場合など 順序に意味がある

クロス集計表にまとめる。

 

◆量的変数  ・・・数で表現できるもので離散変数と連続変数に分類できる。

  • 離散変数(計数データ) → 世帯人数、1年に見た映画の本数など
                 とびとびの値を取るもの。
  • 連続変数(計量データ) → 身長、体重など連続的な値を取るもの。

 

0の意味でも分類できる

間隔尺度 → 0の意味が相対的(摂氏温度)  0≠無

比率尺度 → 0の意味が絶対的(身長、体重) 0=無

 

基本統計量とともに度数分布表やヒストグラムでまとめる。

 

比率 > 間隔 > 順序 > 名義  の順で数学的処理がしやすくなる。

 

 

変数 尺度 説明 集計手法

名義

尺度

順序に意味がない 性別、職業、支持政党など

クロス集計表

でまとめる

順序

尺度

順序に意味がある 成績のABC、小中高、競争の順位など

間隔

尺度

0が相対的

0≠ 無

摂氏温度、偏差値

度数分布表や

ヒストグラム

でまとめる

比率

尺度

0が絶対的

0=無

絶対温度、売上高、利益率、身長体重など


3つの代表値

◆平均値 

   ※はずれ値の影響を強く受けるため、解釈に注意が必要。

  • 算術平均(相加平均)・・・一般的な平均。和の平均。総和をnで割る
                  ̅x エックスバー で表す

    エクセル関数  =AVERAGE(データ)

算術平均の基本性質

  • 平均値と項数nの積は、変量xの総和に等しい
  • 偏差の総和は、0である  Σ(Xi - ̅x)=0
  • 基準値bとの偏差の二乗和が最小になるのは、b = ̅x の場合である

 

  • 加重平均・・・あるウェイトで重み付けした平均。
         ただしウェイトWiの総和は1

<用途>

層別の平均から算出される全体の平均

各PJの粗利率から算出される全社の平均粗利率

 

 

 

  • 幾何平均(相乗平均)・・・積の平均。対象データを乗じた値の累乗根。

時系列データの上昇率や下落率の平均の計算に使用します。

<用途>

平均増加率(%/年)

 

今後10年間で20%増加させるのに必要な成長率(%/年)

複利の金融商品の利回りなど。

掛け合わせていく率の平均は、掛け算の平均である幾何平均を用いるということです。

 

エクセル関数  =GEOMEAN(データ)

 

  • 調和平均・・・観測値の逆数の算術平均の逆数であり、次の式で表される。

    <用途>
    往復の平均時速を求める場合などに利用される。

 

エクセル関数  =HARMEAN(データ)

 

どんな正のデータ集合に対しても、相加平均 ≧ 相乗平均 ≧ 調和平均 となる。

 

 

  • 切り落とし平均(Trimmed mean)・・・分布の両端を除いた算術平均

    <用途>
    天気の平年並み:過去30年の中央値に近い10個に入れば平年並み。

    スキージャンプの採点:5人の審判のうち最低点と最高点を除いた平均値をとる。

 

  • 移動平均(Moving avearage)・・・トレンドを見るための平均
      
    データを傾向変動と偶然変動の和とみる。
      偶然変動を除いてトレンド傾向を見たい場合に使う。

    <用途>
    株価のトレンド:5日、25日、75日、200日の移動平均がよく用いられる。

    36協定の特別条項:2~6か月の移動平均がすべて80時間以下としている。

 

◆中央値 ・・・ M メディアンで表す

観測値を昇順に並べ、真ん中の位置にあるもの。

観測値が偶数個の場合は、真ん中の2つの平均を中央値とする。

※中央値ははずれ値の影響がほとんどない。

エクセル関数  =MEDIAN(データ)

 

◆最頻値 ・・・ モードと呼ばれる最も頻繁に出現する値

離散変数(世帯人数など)ならそのままの値を最頻値とする。

連続変数なら度数分布表の度数が最大の階級の代表値を最頻値とする。

※階級の代表値=階級の(上限+下限)/2

エクセル関数  =MODE(データ)

 

<代表地の大きさの順序>

正規分布なら      平均値=中央値=最頻値 となる

右に裾が長い分布なら  最頻値<中央値<平均値 となる

左に裾が長い分布なら  平均値<中央値<最頻値 となる