Statistics

◆最初に検討すること

データから何がわかればアクションにつながるか? 

 

◆用語

  • P-値・・・説明変数が結果変数と関連しない確率。帰無仮説が採択される確率
                    帰無仮説が真だと仮定したとき、観測されたデータが同じかもっと極端である確率。
         一般に0.05または0.01以下の場合に帰無仮説を棄却し、対立仮説を採択する。
         1.23456E-06 このような表記は最初に0が6個付くことを示す。0.00000123456
        p値が小さいほどに帰無仮説を棄却する強力が証拠になる。
  • 係数・・・説明変数が1増えるごとに結果変数がいくつ増えるのかを示す。
  • 切片・・・説明変数がすべて0の場合の結果変数。
  • 残差・・・重回帰分析がはじき出した予測値と実測値との差のこと。
  • 下限95%上限95%・・・信頼区間。誤差を考慮しても係数がこの中に入ると判断してほぼ間違いない。
  • 重決定R2・・・決定係数。相関係数の2乗。
  • 観測数・・・用いたデータの数。これが少ないとP-値は大きくなり、信頼区間は広がる。
  • 統計量・・・標本から計算される平均や分散などの特性値
  • 統計値・・・実際のデータから計算される統計量の実現値
  • 標本分布・・・統計量の確率分布
  • 確率変数・・・各基本事象に1つの数値を対応させたもの。コインの表に1、裏に0など
  • 確率分布・・・確率変数がとる値とそれぞれの確率の様子。サイコロなら1~6までの確率変数にそれぞれ1/6が対応する
  • 期待値・・・確率分布の平均。Expectation
  • 密度関数・・・連続的確率変数の確率分布。
  • i.i.d・・・Independent and Identically distributed 独立・同一分布
  • NID・・・Normally Independently Distributed 独立・同一正規分布
  • 自由度・・・確率変数の中で独立に動くことのできる最大個数。確率変数間に何らかの制約があれば制約数分差し引いた値。
  • 標準誤差・・・推定量の精度を表す指標(推定量の標準偏差) σ/√n
  • ローレンツ曲線・・・平等分配線との乖離を見て、不平等の度合いを見る
  • ジニ係数・・・まるごとレモン÷四角 富の不偏在、不平等の度合いを表す。