この記事ではハット行列のトレースが回帰係数の数と一致することの証明を超簡単に解説します。ほぼ自明ですが。
この事実は、残差平方和の期待値を求める上でクリティカルな役割を果たします。
\begin{align*} y = \beta_0 + x_1 \beta_1 + \cdots + x_{p-1}\beta_{p-1} \end{align*}
とモデルをたてているとします。\(n\)個の観測データ
\begin{align*} \{(y_1, x_1^1, x_2^1, \ldots, x_{p-1}^1),(y_2, x_1^2, x_2^2, \ldots, x_{p-1}^2),\ldots, (y_1, x_1^1, x_2^1, \ldots, x_{p-1}^1) \}\end{align*}
が得られているとします。\((i,j)\)成分を\(x_j^i\)とする\(n\times p\)行列を
\begin{align*} X \end{align*}
とします。
ハット行列は、
\begin{align*} H = X(X^t X)^{-1}X^t\end{align*}
により定義される\(n \times n\)行列です。
ハット行列のトレースは回帰係数の数と一致する。つまり、
\begin{align*} \textrm{tr}H = p \end{align*}
実際、
\begin{align*} \textrm{tr}H &= \textrm{tr}\left(X (X^t X)^{-1}X^t \right)\\&= \textrm{tr}\left( X^tX (X^t X)^{-1} \right) \\&= \textrm{tr} E_p \\&= p\end{align*}
となるので、証明が終了しました。ただし、途中で\(\text{tr}(ABC) = \text{tr}(BCA) = \text{tr}(CAB)\)のようにトレースの巡回性を用いました。
コメント