相関係数・回帰モデル・重回帰分析

2変数の関係の強さを測る指標

◆共分散　・・・　2変数の偏差の積の総和をｎで割る

※共分散は変数の単位に依存して変化する。

　これを修正して相関係数が定義された。

◆相関係数　・・・　2変数の共分散を両変数の標準偏差の積で割る

　　　　　　　　　　　エクセル関数 =CORREL(データA,データB)

＜相関係数の特徴＞

※相関係数は、－１～１の値を取り、直線に視界関係になるほど絶対値が１に近づく。

※相関係数は、直線状の関係を測る尺度。２次曲線の関係は０に近い値となる。

※はずれ値の影響を強く受ける。散布図のチェックは必須。

※標準化された値同士の共分散といえる。ゆえに次のような操作をしても相関係数は変化しない。

データを何倍かする
データに定数を加える
データの単位を変換する

＜相関係数の解釈＞

0.2未満　ほぼ関係がない

0.2以上0.4未満　弱い関係性

0.4以上0.7未満は中間的な強さの関係性

0.7以上は強い関係性　　　　　　　　　があるとみなします。

※なお，相関係数も有意性検定が可能であり，絶対値の大きさが必ずしも有意性を示すとは限りません。高い相関係数でも有意性がないという検定結果が出たり，その逆であったりすることもあります。

回帰モデル

成長した子供の身長は、両親の身長の平均に関係がある。このように2組の変数XとYの間に直線関係を仮定するのが妥当な場合がある。このような条件のもとでXからYを推測したいときは、

　　Y = a + bX

という関係式を考えることになる。Yはその近くの値を取るが実際にはいくらかε(イプシロン)だけずれた値を取る。これはXだけでは説明できない原因によって変動する部分で、「誤差」あるいは「回帰からの偏差」という。

　　Y = a + bX + ε

この式を回帰モデルと呼ぶ。

Yを目的変数(または従属変数)

Xを説明変数(または独立変数)　という。

◆回帰係数の決め方　　

回帰からの偏差　・・・　ε ＝ Y － (α ＋ βY)

この回帰からの偏差の2乗の総和が最小になるようにαとβを決める。

◆誤差と残差の違い

いずれも回帰式で説明できないばらつきやノイズだが、

　誤差(ε)：回帰モデルの確率変数。観測不可。

　残差　　：観測した標本の推定値との差。計算できる。

つまり残差は誤差の推定値と言える。

◆誤差の種類

平均絶対誤差（MAE：Mean Absolute Error）
平均絶対パーセント誤差（MAPE：Mean Absolute Percentage Error）
　　　絶対誤差の合計をその誤差で割ったもの
平均二乗平方根誤差（RMSE：Root Mean Squared Error）

RMSEは大きな誤差に反応しやすい。

MAPEとRMSEを比較して差が少なければ誤差は小さく信頼性は高いと判断される。

重回帰分析

質的変数はダミー変数に置き換える。
- すべての変数が数字である必要がある
- 変数のいずれかを0として基準にする必要がある
- - 例）訪問事由で飛び込みが0、その他は1。
  - 例）とある月は1で他の月は0。
  - 例）男性は0、女性は1　など
変数が1つしかないデータも「月」などをダミー変数に置き換えて重回帰分析ができる。
P-値をチェックして関連しそうにない変数を除外する。
残った変数と新たな変数で繰り返し重回帰分析をして精度を高める。
周期的な傾向を分析するには、1か月前、2か月前のような変数を作成して重回帰分析する。

！！注意！！

目的変数と無関係な変数をたくさん集めて説明変数に加えても、重相関係数は増加してしまう。

説明変数が増えて動かせるパラメータが増えるとその分当てはまりの良い回帰式を推定できてしまうためです。

むやみに関係のない変数を加えると推定精度が低下します。

そのため自由度調整済み寄与率(補正R2)が用いられることがある。

多重共線性が疑われるケース

単相関係数と重回帰分析の係数の符号が逆転

独立変数間の相関係数の絶対値が高い

VIFが10以上

決定係数が高く、分散分析が有意だが回帰係数のt値が低い

【概要】

決定係数は「補正R2」が特に重要。自由度(変数の数)を考慮されている

【分散分析表】

「有意F」が重要。0に近いほど回帰式の信頼性は高い。0.05未満ならよいとされているが0.1でも回帰式が無意味ということではない。

【3番目の表】

「P-値」が0.05未満ならその説明変数の係数を重回帰式に適用してもよい。

またｔ値の絶対値が概ね２以上ならその回帰係数の推定値に意味があると考えて差し支えない。

切片は、独立変数として取り扱われているもの以外のすべての要素を意味しています。切片のP-値が小さければ独立変数以外に統計的に有意な影響を及ぼす変数が存在している可能性が示唆されています。