線形回帰モデルで制限付きモデルとの残差平方和の差がカイ二乗分布に従うことを証明!!!

この記事では線形回帰モデルで制限付きモデルとの残差平方和の差がカイ二乗分布に従うことを証明します。

線形回帰モデルの設定

y=Xβ+ε,εN(0,σ2I)
という線形回帰モデルを考えます。Xは1列目が全て1のn×p+1行列です。
また、β=(β0,β1,,βp)tRp+1という添字の振り方をしているとします。

例えば帰無仮説
h0:βk=βk+1==0
を考えてみます。(後述のハット行列Hと表記がややこしくなるので、小文字のhで帰無仮説を表記しています)。

Xf=X
と表記することにします。また、Xk列以降を全て0ベクトルとしたベクトルをXrとします。つまり、
X~r=X[Ik000]
です。ついでに、Xを最初のk列とそれ以降を分けて表記します。つまり、
X=[XrXe]
によりXr,Xeを定めます。

また、
βf=β
とし、
β~r=[Ik000]β
とします。ついでに最初のk行とそれ以降を分けて表記します。つまり、
β=[βrβe]

ここで、
X~r=[Xr0]
と、
β~r=[βr0]
という関係になっています。

帰無仮説の下では、
y=Xfβ~r+ε,εN(0,σ2I)
と仮定していることになります。
Hf=Xf(XftXf)1Xft
とします。
Hr=Xr(XrtXr)1Xrt
と定めます。一応Hf,Hrはともにn次正方行列です。

残差平方和の差分

一般に、線形回帰モデルの残差平方和
(yiy^i)2
は行列で表記すると、
yt(IH)y
でした。
RSSf=yt(IHf)y
とし、
RRSr=yt(IHr)y
とします。これらの差を考えます。
RRSfRRSr=yt(IHf)yyt(IHr)y=yt(HfHr)y
です。

Xfβf=Xf[Ik000]β=Xf[Ik000][Ik000]β=X~rβ~r
であり、
X~rβ~r=Xrβr
ということを念頭に置いておきます(すみません極めて当たり前かもしれないで)。つまり、
Xfβf=Xrβr

ytHfy=βfXftHfXfβf+εtHfXfβf+βftXftHfε+εtHfε=βfXftXfβf+εtXfβf+βftXftε+εtHfε=βrXrtXrβr+εtXrβr+βrtXrtε+εtHfε
です。ただしHfXf=XfXfβf=Xrβrをところどころ用いています。
また同様に、
ytHry=βrXrtHrXrβr+εtHrXrβr+βrtXrtHrε+εtHrε=βrXrtHrXrβr+εtHrXrβr+βrtXrtHrε+εtHrε=βrXrtXrβr+εtXrβr+βrtXrtε+εtHrε
となります。というわけで、
yt(HfHr)y=εt(HfHr)ε
となります。

1σε
を考えることにします。つまり、
1σεN(0,I)
ですので、多変量標準正規分布です。
(HfHr)は階数p+1kの実対称冪等行列であることがわかります。
適当に直交行列SOnで対角化することで、
(HfHr)=StΛp+1kS
とすることができます。ただし、
Λp=[Ip+1k000]
という表記を用いています。
1σεt(HfHr)1σε=1σεtStΛp+1kS1σε
とできます。
S1σε
は多変量標準正規分布の直交行列による変換なので多変量標準正規分布に従います。
というわけで、
1σεtStΛp+1kS1σε
は標準正規分布の2乗のp+1k個の和なので自由度p+1kのカイ二乗分布に従います。
というわけで、帰無仮説の下で
1σ2(yt(IHf)yyt(IHr)y)χp+1k
ということが分かります。

命題

線形回帰モデルを、
y=Xβ+ε,εN(0,σ2I)
とする。帰無仮説
h0:βk=βk+1==0
の下で、
1σ2(RSSfRSSr)χp+1k
が成り立つ。

回帰平方和との関係

回帰平方和は
ESS=(y^iy¯i)2
により定義されますが、これを行列の表記に一旦直してみます。
e=(1,1,,1)tRn
と表記することにすると、
ESS=(y^iy¯i)2=yt(H1neet)y
であることが分かります。ESSf=yt(Hf1neet)yと表記することにします。
というのも、
y^=1neety
だからです。ここで、帰無仮説として切片β0以外の回帰係数が全て0であるという帰無仮説を考えてみます。
つまり、
h0:β1=β2==βp=0
ということです。
Xr=[111]
と定めます。
Hr=Xr(XrtXr)1Xrt=Xr1nXrt=1neet
となります。
つまり、帰無仮説において
RSSfRSSr=ESSf
であることがわかります。

記事をシェアして話のネタにする

コメント

コメントする

目次