◆最初に検討すること
データから何がわかればアクションにつながるか?
◆用語
-
P-値・・・説明変数が結果変数と関連しない確率。帰無仮説が採択される確率。
帰無仮説が真だと仮定したとき、観測されたデータが同じかもっと極端である確率。
一般に0.05または0.01以下の場合に帰無仮説を棄却し、対立仮説を採択する。
1.23456E-06 このような表記は最初に0が6個付くことを示す。0.00000123456
p値が小さいほどに帰無仮説を棄却する強力が証拠になる。
- 係数・・・説明変数が1増えるごとに結果変数がいくつ増えるのかを示す。
-
切片・・・説明変数がすべて0の場合の結果変数。
-
残差・・・重回帰分析がはじき出した予測値と実測値との差のこと。
-
下限95%上限95%・・・信頼区間。誤差を考慮しても係数がこの中に入ると判断してほぼ間違いない。
-
重決定R2・・・決定係数。相関係数の2乗。
-
観測数・・・用いたデータの数。これが少ないとP-値は大きくなり、信頼区間は広がる。
-
統計量・・・標本から計算される平均や分散などの特性値
-
統計値・・・実際のデータから計算される統計量の実現値
-
標本分布・・・統計量の確率分布
-
確率変数・・・各基本事象に1つの数値を対応させたもの。コインの表に1、裏に0など
-
確率分布・・・確率変数がとる値とそれぞれの確率の様子。サイコロなら1~6までの確率変数にそれぞれ1/6が対応する
-
期待値・・・確率分布の平均。Expectation
-
密度関数・・・連続的確率変数の確率分布。
-
i.i.d・・・Independent and Identically distributed 独立・同一分布
-
NID・・・Normally Independently Distributed 独立・同一正規分布
-
自由度・・・確率変数の中で独立に動くことのできる最大個数。確率変数間に何らかの制約があれば制約数分差し引いた値。
-
標準誤差・・・推定量の精度を表す指標(推定量の標準偏差) σ/√n
-
ローレンツ曲線・・・平等分配線との乖離を見て、不平等の度合いを見る
-
ジニ係数・・・まるごとレモン÷四角 富の不偏在、不平等の度合いを表す。