線形回帰モデルの残差平方和RSSの期待値を導出する方法をわかりやすく解説!!

この記事では残差平方和RSSの期待値の導出をわかりやすく解説します。
まず最初に残差平方和がなんであったかを確認しておきます。
線形回帰モデル
\begin{align*} y = X \beta + \varepsilon\end{align*}
を考えます。ただし\(\varepsilon \sim N(0, \sigma^2 I)\)
の回帰係数の最小二乗推定量を\(\hat{\beta}\)と表記することにします。
また、\(\text{rank}X =p\)とします。
\begin{align*} \hat y = X \hat \beta \end{align*}
と表記することにすると、
\begin{align*} RSS = (y – \hat y)^t (y – \hat y)\end{align*}
でした。

ここで、ハット行列の存在をハッと思い出しておきます。
\begin{align*} H = X (X^t X ) ^{-1} X^t\end{align*}
とすると、
\begin{align*} \hat y = H y \end{align*}
であるという事実がありました。
すると、
\begin{align*}y – \hat y = y – Hy = (I-H)y \end{align*}
と表記することができます。\(I-H\)は対称(\((I-H)^t = I-H\))かつ冪等行列(\((I-H)^2 = I-H\))であったので、
\begin{align*} RSS &= (y – \hat y)^t (y – \hat y) \\&= \left((I-H)y \right)^t \left((I-H)y \right) \\&= y^t (I-H)^t (I-H)y \\&= y^t (I – H) y\end{align*}
でした。期待値を取ってみます。

上記記事の公式を用いることにします。\(E(y) = E(X\beta + \varepsilon) = X \beta \)なので、

\begin{align*} E(RSS) = E\left( y^t (I – H) y \right) = E\left(\text{tr}\left((I-H)y y^t \right) \right) + (X\beta)^t (I-H)X\beta \end{align*}
となります。

\begin{align*}(X\beta)^t (I-H)X\beta = \beta^t X^t (I -H) X \beta \end{align*}
ですが、\(H = X(X^tX)^{-1}X^t\)なので、
\begin{align*} HX = X \end{align*}
であることに留意すると、
\begin{align*} X^t (I -H) X = X^t X – X^t X = 0\end{align*}
となるので、
\begin{align*}(X\beta)^t (I-H)X\beta = 0 \end{align*}
です。従って、
\begin{align*} E(RSS) &= E\left(\text{tr}\left((I-H)y y^t \right) \right) \\&= \text{tr}\left( (I-H) E(y y^t) \right) \\&= \text{tr}\left( (I-H) E\left( X \beta \beta^t X^t + X \beta \varepsilon^t + \varepsilon \beta^ t X^t + \varepsilon \varepsilon^t\right) \right)
\\&= \text{tr} \left((I-H)X \beta \beta^t X^t + (I-H)E(\varepsilon \varepsilon^t) \right) \quad (\because E(\epsilon) = 0 )
\\&= \text{tr} \left( (I-H)E(\varepsilon \varepsilon^t) \right) \quad (\because (I – H )X = 0)
\\&= \text{tr} \left( (I-H) \sigma^2 I ) \right)
\\&= \sigma^2 \text{tr} \left(I-H \right)
\\&= \sigma^2 \text{rank}(I-H) \quad (\because ※1)
\\&= \sigma^2 \text{dim Ker}H \quad (\because ※2)
\\& = \sigma^2 (n-p) \quad (\because \text{rank}H + \text{dimKer}H = n) \end{align*}
となります。

ただし、※1では、冪等行列のrankとtraceが一致するという事実を用いています。

また、※2では、

を用いています。

命題:RSSの期待値

回帰係数の数が\(p\)で\(\text{rank}X=p\)である線形回帰モデル
\begin{align*} y = X \beta + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2 I)\end{align*}
の残差平方和RSSの期待値は
\begin{align*} E(RSS) = \sigma^2(n-p)\end{align*}
である。

証明を追うとわかりますが、誤差項\(\varepsilon \sim N(0, \sigma^2 I) \)について多変量正規分布に従う必要はなくて、
平均\(0\)で独立でいずれの要素についても\(V(\sigma_i) = \sigma^2\)であれば成立すると思います。

おまけ:もしかするともっと早く導出する方法?

多分ですが、RSSが適当に正規化すると自由度n-pのカイ二乗分布に従うことから求めた方が早い気がします。すみませんでした。
やってみてください。

記事をシェアして話のネタにする

コメント

コメントする

目次