この記事ではCase-Deletion公式をわかりやすく解説します。
\begin{align*} y = X \beta + \varepsilon\end{align*}
という線形回帰モデルを考えます。
ここで、行列\(A\)に対して、\(i\)行目を削除(0にするのではなく、削除です)した行列を
\begin{align*} A_{-i}\end{align*}
と表記することにします。
例えば、
\begin{align*} A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5& 6 \\ 7 & 8 & 9 \end{pmatrix}\end{align*}
とすると、
\begin{align*} A_{-2} = \begin{pmatrix} 1 & 2 & 3 \\ 7 & 8 & 9 \end{pmatrix} \end{align*}
です。
このような記法を用いて、
\begin{align*} y_{-i} = X_{-i} \beta + \varepsilon_{-i} \end{align*}
というモデルを考えます。このモデルを、Case-Deletedモデルと呼ぶことにします。
オリジナルのモデルの第\(i\)成分の残差を\( e_i=\hat y_i – y_i \)と書くことにします。
オリジナルの線形回帰モデルの予測値はハット行列
\begin{align*} H = X \left( X^t X \right)^{-1} X^t \end{align*}
を用いることで、
\begin{align*} \hat y = H y \end{align*}
と計算することができます。
LOOモデルの場合のハット行列を
\begin{align*} H_{-i} = X_{-i} \left( X_{-i} ^t X_{-i} \right)^t X_{-i}^t \end{align*}
と書くことにします。
行列の\(X\)の転置\(X^t\)の\(i\)列目の列ベクトルを\(\xi_i\)と書くことにします。すると、
\begin{align*} X^t X = \sum_{i = 1}^n \xi_i \xi_i ^t \end{align*}
と書くことができます。実際例えば\(X\)が\(3\times 2\)行列だとします。\(X^t\)の\(i\)列目を
\begin{align*} \xi_i = \begin{pmatrix}\xi_{i1} \\ \xi_{i2}\end{pmatrix} \end{align*}
と書くことにします。
\begin{align*} X = \begin{pmatrix} \xi_{11} & \xi_{12} \\ \xi_{21} & \xi_{22} \\ \xi_{31} & \xi_{32} \end{pmatrix} \end{align*}
ですが、
\begin{align*} X^t X &= \begin{pmatrix} \xi_{11} & \xi_{21} & \xi_{31} \\ \xi_{12} & \xi_{22} & \xi_{32} \end{pmatrix} \begin{pmatrix} \xi_{11} & \xi_{12} \\ \xi_{21} & \xi_{22} \\ \xi_{31} & \xi_{32} \end{pmatrix}
\\&= \begin{pmatrix} \xi_{11}\xi_{11}+\xi_{21}\xi_{21}+\xi_{31}\xi_{31} & \xi_{11}\xi_{12} + \xi_{21}\xi_{22} + \xi_{31}\xi_{32} \\ \xi_{12}\xi_{11} + \xi_{22}\xi_{21} + \xi_{32}\xi_{31} & \xi_{12}\xi_{12} + \xi_{22}\xi_{22} + \xi_{32}\xi_{32}\end{pmatrix}
\\&= \begin{pmatrix} \xi_{11} \\ \xi_{12} \end{pmatrix}\begin{pmatrix} \xi_{11} & \xi_{12} \end{pmatrix} + \begin{pmatrix} \xi_{21} \\ \xi_{22} \end{pmatrix}\begin{pmatrix} \xi_{21} & \xi_{22} \end{pmatrix} + \begin{pmatrix} \xi_{31} \\ \xi_{32} \end{pmatrix}\begin{pmatrix} \xi_{31} & \xi_{32} \end{pmatrix} \end{align*}
となります。
さて、\(X_{-i}^t X_{-i} \)は
\begin{align*}X_{-i}^t X_{-i}
&= \sum_{j \neq i} \xi_j \xi_j^t
\\&= X^t X – \xi_i \xi_i^t \end{align*}
と書き換えることができます。
そこで、Case-Deletedモデルのハット行列\(H_i\)の別の表現を導出します。
Sherman-Morrisonの公式を用いることにします。

\(A\)を\(n\times n\)の正則行列、\(u\)を\(n\times 1\)行列(つまり列ベクトル)、\(v^t\)を\(1 \times n\)の行列(つまり行ベクトル)とします。
このとき、
\begin{align*} A + uv^t \end{align*}
の逆行列は
\begin{align*} A^{-1} – \frac{A^{-1}uv^t A^{-1}}{1+v^t A^{-1}u} \end{align*}
である。
これを、\(X^t X – \xi_i \xi_i^t \)に対して適用することにします。
\begin{align*} \left(X^t X – \xi_i \xi_i^t \right)^{-1} &= \left(X^t X \right)^{-1} + \frac{\left(X^t X \right)^{-1} \xi_i \xi_i^t \left(X^t X \right)^{-1}}{1 – \xi_i^t \left(X^t X \right)^{-1} \xi_i}
\end{align*}
となります。
ここで、オリジナルのモデルのハット行列\(H\)の\((i, i)\)成分を、\(h_{ii}\)と表記することにし、\(e_i\)を第\(i\)成分だけ1でそれ以外は0の列ベクトルとします。
\begin{align*} h_{ii}
&= e_i^t H e_i
\\&= e_i^t X \left( X^t X\right)^t X^t e_i
\\&= \xi_i^t \left(X^t X \right) \xi_i \end{align*}
と変形することができるので、
\begin{align*} \left(X^t X – \xi_i \xi_i^t \right)^{-1} = \left(X^t X \right)^{-1} – \frac{\left(X^t X \right)^{-1} \xi_i \xi_i^t \left(X^t X \right)^{-1}}{1 – h_{ii}} \end{align*}
と変形できます。
続けます。\(\hat y_{-i}\)の\(i\)成分を\(y_{(-i)i}\)と書くことにすると、
\begin{align*} \hat y_{(-i)i}
&= \xi_i^t \hat \beta_{-i}^t
\\&= \xi_i^t \left(X_{-i}^t X_{-i} \right)^{-1} X_{-i}^t y
\\&= \xi_i^t \left(X^t X – \xi_i \xi_i^t \right)^{-1} \left(X^t y – \xi_i y_i \right)
\\&= \xi_i^t \left(\left(X^t X \right)^{-1} + \frac{\left(X^t X \right)^{-1} \xi_i \xi_i^t \left(X^t X \right)^{-1}}{1 – h_{ii}} \right)\left(X^t y – \xi_i y_i \right)
\\&= \xi_i^t \left(\left(X^t X \right)^{-1} + \frac{\left(X^t X \right)^{-1} \xi_i \xi_i^t \left(X^t X \right)^{-1}}{1 – h_{ii}} \right)X^t y – \xi_i^t \left(\left(X^t X \right)^{-1} + \frac{\left(X^t X \right)^{-1} \xi_i \xi_i^t \left(X^t X \right)^{-1}}{1 – h_{ii}} \right)\xi_i y_i
\\&=\xi_i^t \left(X^t X \right)^{-1}X^t y + \xi_i^t\frac{\left(X^t X \right)^{-1} \xi_i \xi_i^t \left(X^t X \right)^{-1}}{1 – h_{ii}} X^t y +
\xi_i^t \left(X^t X \right)^{-1} \xi_i y_i – \xi_i^t \frac{\left(X^t X \right)^{-1} \xi_i \xi_i^t \left(X^t X \right)^{-1}}{1 – h_{ii}} \xi_i y_i
\\&= \hat y_i + \frac{h_{ii}}{1-h_{ii}} \hat y_i – h_{ii} y_i – \frac{h_{ii}}{1 – h_{ii}} h_{ii}y_i
\\&= \frac{1 – h_{ii}}{1-h_{ii}} \hat y_i + \frac{h_{ii}}{1-h_{ii}} \hat y_i – \frac{- h_{ii}}{1-h_{ii}} h_{ii} y_i – \frac{h_{ii}}{1 – h_{ii}} h_{ii}y_i
\\&= \frac{1}{1 – h_{ii}} \hat y_i – \frac{1}{1 – h_{ii}} h_{ii} (\hat y + e_i ) \quad (\because \hat y_i – y_i = e_i)
\\&= \hat y_i – \frac{h_{ii}}{1 – h_{ii}} e_i
\end{align*}
となります。
上記をまとめると、
\begin{align*} \hat y_{(-i)i} = \hat y_i – \frac{h_{ii}}{1 – h_{ii}} e_i \end{align*}
という関係が得られます。
すなわち、i番目のデータを削除したモデルの予測値は、
\begin{align*} – \frac{h_{ii}}{1 – h_{ii}} e_i \end{align*}
だけ変化するということがわかりました。
コメント