◆共分散 ・・・ 2変数の偏差の積の総和をnで割る
※共分散は変数の単位に依存して変化する。
これを修正して相関係数が定義された。
◆相関係数 ・・・ 2変数の共分散を両変数の標準偏差の積で割る
エクセル関数 =CORREL(データA,データB)
<相関係数の特徴>
※相関係数は、-1~1の値を取り、直線に視界関係になるほど絶対値が1に近づく。
※相関係数は、直線状の関係を測る尺度。2次曲線の関係は0に近い値となる。
※はずれ値の影響を強く受ける。散布図のチェックは必須。
※標準化された値同士の共分散といえる。ゆえに次のような操作をしても相関係数は変化しない。
<相関係数の解釈>
0.2未満 ほぼ関係がない
0.2以上0.4未満 弱い関係性
0.4以上0.7未満は中間的な強さの関係性
0.7以上は強い関係性 があるとみなします。
※なお,相関係数も有意性検定が可能であり,絶対値の大きさが必ずしも有意性を示すとは限りません。高い相関係数でも有意性がないという検定結果が出たり,その逆であったりすることもあります。
成長した子供の身長は、両親の身長の平均に関係がある。このように2組の変数XとYの間に直線関係を仮定するのが妥当な場合がある。このような条件のもとでXからYを推測したいときは、
Y = a + bX
という関係式を考えることになる。Yはその近くの値を取るが実際にはいくらかε(イプシロン)だけずれた値を取る。これはXだけでは説明できない原因によって変動する部分で、「誤差」あるいは「回帰からの偏差」という。
Y = a + bX + ε
この式を回帰モデルと呼ぶ。
Yを目的変数(または従属変数)
Xを説明変数(または独立変数) という。
◆回帰係数の決め方
回帰からの偏差 ・・・ ε = Y - (α + βY)
この回帰からの偏差の2乗の総和が最小になるようにαとβを決める。
◆誤差と残差の違い
いずれも回帰式で説明できないばらつきやノイズだが、
誤差(ε): 回帰モデルの確率変数。観測不可。
残差 : 観測した標本の推定値との差。計算できる。
つまり残差は誤差の推定値と言える。
◆誤差の種類
RMSEは大きな誤差に反応しやすい。
MAPEとRMSEを比較して差が少なければ誤差は小さく信頼性は高いと判断される。
!!注意!!
目的変数と無関係な変数をたくさん集めて説明変数に加えても、重相関係数は増加してしまう。
説明変数が増えて動かせるパラメータが増えるとその分当てはまりの良い回帰式を推定できてしまうためです。
むやみに関係のない変数を加えると推定精度が低下します。
そのため自由度調整済み寄与率(補正R2)が用いられることがある。
多重共線性が疑われるケース
単相関係数と重回帰分析の係数の符号が逆転
独立変数間の相関係数の絶対値が高い
VIFが10以上
決定係数が高く、分散分析が有意だが回帰係数のt値が低い
【概要】
決定係数は「補正R2」が特に重要。自由度(変数の数)を考慮されている
【分散分析表】
「有意F」が重要。0に近いほど回帰式の信頼性は高い。0.05未満ならよいとされているが0.1でも回帰式が無意味ということではない。
【3番目の表】
「P-値」が0.05未満ならその説明変数の係数を重回帰式に適用してもよい。
またt値の絶対値が概ね2以上ならその回帰係数の推定値に意味があると考えて差し支えない。
切片は、独立変数として取り扱われているもの以外のすべての要素を意味しています。切片のP-値が小さければ独立変数以外に統計的に有意な影響を及ぼす変数が存在している可能性が示唆されています。