この記事では回帰分析におけるレバレッジ(leverage)の定義をわかりやすく解説します。
誤差項のある線形回帰モデル
\begin{align*} y = X \beta + \varepsilon \end{align*}
を考えます。
ハット行列を
\begin{align*} H = X \left(X^t X \right)^{-1} X^t \end{align*}
により定義します。
誤差項のある線形回帰モデル
\begin{align*} y = X \beta + \varepsilon \end{align*}
に対して、ハット行列
\begin{align*} H = X \left(X^t X \right)^{-1} X^t \end{align*}
の\((i, i)\)成分(つまり\(i\)番目の対角成分)
\begin{align*} h_{i,i} \end{align*}
を、第\(i\)データのレバレッジという。
どういうことかというと、ハット行列を用いると、\(y\)のモデルによる予測値\(\hat y\)は、
\begin{align*} \hat y = H y \end{align*}
であることが事実として知られています。第\(i\)成分に着目すると、
\begin{align*} \hat y_i = \sum_{j = 1}^n h_{i,j} y_j \end{align*}
とかけます。これは\(i\)番目だけ分けて記述すると、
\begin{align*} \hat y_i = h_{i,i} y_i + \sum_{j \neq i} h_{i,j} y_j \end{align*}
と書くことができます。つまり、
\begin{align*} \frac{\partial \hat y_i }{\partial y_i} = h_{i,i} \end{align*}
となります。
このことから、レバレッジは、予測値が観測されたデータに対してどれだけ感応的かを示していると思うことができます。
例えば、
\begin{align*} h_{i,i} = 0 \end{align*}
の場合は、\(\hat y_i \)は\(y_i\)に依存しないということが分かります。
判断基準:レバレッジの数値が大きすぎるかどうかの基準
レバレッジは大体どれくらいになるのかを考えてみます(どれくらいになるというとかなり曖昧な表現ですが、、、)。
\begin{align*} \sum_{i=1}^n h_{i,i} \end{align*}
はレバレッジの合計ですが、これは、\(H\)のトレースです。つまり、
\begin{align*} \sum_{i=1}^n h_{i,i} = \text{tr}H \end{align*}
です。ここで、ハット行列のトレースは、回帰係数の数(つまり、パラメータの数)と一致することが知られています。

つまり、切片(=定数項)も含めてパラメータが\(p+1\)個の場合には、
\begin{align*} \text{tr} H = p+1 \end{align*}
となります。
従って、レバレッジの平均は
\begin{align*} \frac{1}{n} \sum_{i=1}^n h_{i,i} = \frac{p+1}{n}\end{align*}
となります。
従って、いろいろな考え方がありますが、一つの考え方として、
\begin{align*} h_{i,i} – \frac{p+1}{n} \end{align*}
が大きいと、レバレッジの平均よりは大きいということになります。
平均レバレッジとパラメータ数やデータ数との関係
パラメータ数を\(p+1\)、データ数を\(n\)とします。
平均レバレッジは
\begin{align*} \frac{p + 1}{n}\end{align*}
であったため、パラメータ数が増えると、平均レバレッジは大きくなります。
一方で、データ数が増えると、平均レバレッジは小さくなります。
このことからも、データ数が十分あるにも関わらず、レバレッジが大きい箇所がある場合は、要確認(?)と考えることができます。
レバレッジのbound
ちなみに、レバレッジは
\begin{align*}0 \leq h_{i,i} \leq 1 \end{align*}
と、0以上1以下の間に収まります。
というのも、ハット行列は実対称な冪等行列なわけですが、
実対称な冪等行列の対角成分は0以上1以下であるからです。

コメント