ガンマ分布 (gamma distribution)は、一定の発生確率をもつ独立なイベントが特定の回数発生するまでの待機時間が従う確率分布です。この分布は確率論や統計学における基本的なもので、その応用範囲は非常に広く、工学や経済学など多岐にわたります。この記事ではガンマ分布の意味や性質と導出をわかりやすく解説します。
ガンマ分布の意味や性質と導出をわかりやすく解説
ガンマ分布は、パラメータ\(\lambda >0, k>0\)をもつ確率密度関数で定義される分布です。
パラメータ\(\lambda >0, k>0\)をもつガンマ分布の確率密度関数は以下で与えられます。
\begin{align*} f(x) = \begin{cases} \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} & (x > 0) \\ 0 & (x \leq 0) \end{cases} \end{align*}
ここで、\(\Gamma(k)\)はガンマ関数です。ガンマ関数の定義は
\begin{align*} \Gamma(k) = \int_0^\infty x^{k-1} e^{-x} dx \end{align*}
であったことを思い出しておきましょう。
(分母にガンマ関数が登場する理由は、確率密度の積分が\(1\)となるように正規化するためです。)
確率変数\(X\)がパラメータ\(k, \lambda\)のガンマ分布に従う時、
\begin{align*} X \sim \textrm{Gamma}(k, \lambda)\end{align*}
と書きます。
\(k\)を形状パラメータ、\(\lambda\)を尺度パラメータというのが一般的なようです。
補足ですが、パラメータ\(\theta >0, k>0\)をもつガンマ分布の確率密度関数を
\begin{align*} f(x) = \begin{cases} \frac{1}{\Gamma(k) \theta^k} x^{k-1}e^{-\frac{1}{\theta} x} & (x > 0) \\ 0 & (x \leq 0) \end{cases} \end{align*}
により定める流儀もありますが、\(\lambda = \frac{1}{\theta}\)という関係で両者の流儀を行き来することができます。
つまり、後者の流儀を採用してる人が尺度パラメータは\(3\)だと言っているならば、前者の流儀を採用している人は、尺度パラメータは\(\frac{1}{3}\)なんだねと思っておけば良いわけです。
この確率密度関数を見ただけでは、ガンマ分布がどういう特性を持つのか、またどのような現象に対して用いることができるのかを把握するのは難しいかもしれません。
では、より基本的な分布である指数分布からスタートしてガンマ分布の導出を考えてみましょう。
指数分布
指数分布とは、特定のイベントが時刻tまでに発生する確率を表す統計的な分布です。
この分布は、稀に発生するイベントの待ち時間をモデル化する際に特に有用であります。
例として、あるサービスエリアにおける次の電話の到着時間などが挙げられます。
指数分布はガンマ分布の特別な場合とも言えます。
指数分布はパラメータ\(k\)が1であるガンマ分布としてとらえることができます。
パラメータ\(\lambda > 0\)をもつ指数分布の確率密度関数は次のように定められます。
\begin{align*} f(t) = \begin{cases} \lambda e^{-\lambda t}& (t > 0) \\ 0 & (t \leq 0) \end{cases} \end{align*}
指数分布からガンマ分布を導出する
\(X_1, X_2, \ldots ,X_k\) をパラメータ\(\lambda \)の指数分布に従う独立な確率変数とします。
\(X_1 + X_2 + \cdots + X_k\) が従う分布がガウス分布になります。
指数分布に従う確率変数の取りうる値が非負であったことから、
それらの和の確率変数も非負の値しかとらないことに注意しておきましょう。
このことを証明するために、まず\(X_1 + X_2\)が従う分布を考えてみましょう。
それぞれ独立に指数分布に従う2つの確率変数の和の密度関数は次のようにして計算されます。
\(t \geq 0\)のとき
\begin{align*} f_{X_1 + X_2}(t) &= \int_{-\infty}^\infty f_1(t -x)f_2(x)dx
\\&= \int_{0}^t \lambda e^{-\lambda(t-x)}\lambda e^{-\lambda x}dx
\\&= \lambda^2 t e^{-\lambda t} \end{align*}
ただし、\(f_1, f_2\)はそれぞれ\(X_1, X_2\)の密度関数を表しています。
\(t < 0\)の時は\(0\)です。
続けて、\(X_1 + X_2 + X_3\)が従う分布を考えてみましょう。
これは\(X_1 + X_2\)と\(X_3\)の和と考えることで、
\(t \geq 0\)のとき
\begin{align*} f_{X_1 + X_2 + X_3}(t) &= \int_{-\infty}^\infty f_3(t-x) f_{12}(x)dx
\\&= \int_{0}^t \lambda e^{-\lambda (t-x)} \lambda^2 x e^{-\lambda x}dx
\\&= \lambda^3 \frac{1}{2}t^2 e^{-\lambda t} \end{align*}
ただし、\(f_{12}, f_3\)はそれぞれ\(X_1 + X_2, X_3\)の密度関数を表しています。
\(t < 0\)の時は\(0\)です。
(\(\int_{-\infty}^\infty f_{12}(t-x) f_{3}(x)dx\)と\(\int_{-\infty}^\infty f_{3}(t-x) f_{12}(x)dx\)は一致するので、
計算しやすい前者を採用しました。)
これを次々に繰り返すことで(数学的帰納法で容易に確かめられる)、
\(X_1 + X_2 + \cdots + X_k\)の密度関数が
\begin{align*} f_{X_1 + X_2 + \cdots + X_k}(t) = \begin{cases} \frac{\lambda^k}{\Gamma(k)}t^{k-1}e^{-\lambda t} & (t \geq 0) \\ 0 & (t <0 ) \end{cases} \end{align*}
であることが導出できます。
これはガウス分布の密度関数と一致していることが見てわかります。
ガンマ分布の解釈
\(X_1, X_2, \ldots ,X_k\) をパラメータ\(\lambda \)の指数分布に従う独立な確率変数とした時に、
和\(X_1 + X_2 + \cdots + X_k\) が従う分布がガウス分布でした。
このことを具体的なストーリーとともに解釈してみましょう。
ある人が女性をデートに誘う状況を考えてみましょう。
ここでは、女性とデートの約束を取り付けるまでの待ち時間が指数分布に従うとします。
さらに、一度デートをしてから、次に再びデートの約束を取り付けるのにかかる時間も全く同じ指数分布に従うと仮定します。
ここで、これらのランダムな間隔が互いに独立であるとします。つまり、前回のデートの約束が次回のデートの約束に直接的な影響を及ぼさないという仮定を課しておきます。
このような設定を考えた時、女性と\(k\)回デートできるまでの時間がガンマ分布に従います。
ガンマ分布はどういう時に登場する?サッカーにおける例
例えば上記の研究のアブストラクトを見てみると、
In this study, the stochastic properties of player and team ball possession times in professional football matches are examined. Data analysis shows that player possession time follows a gamma distribution and the player count of a team possession event follows a mixture of two geometric distributions. We propose a formula for expressing team possession time in terms of player possession time and player count in a team’s possession, verifying its validity through data analysis. Furthermore, we calculate an approximate form of the distribution of team possession time, and study its asymptotic property.
Yamamoto, K., Uezu, S., Kagawa, K., Yamazaki, Y., & Narizuka, T. (2023). Statistical analysis of player and team ball possession time in football. arXiv preprint arXiv:2308.05460.
論文の中身を精査したわけではないですが
プロのサッカー試合における選手とチームのボール所持時間の確率的性質を調査していて、
データ分析の結果、選手のボール所持時間はガンマ分布に従うことが示されたそうです。
ガンマ分布は日常の中に隠れているのですね。
ガンマ分布とアーラン分布の関係
ガンマ分布と酷似する分布を見たことがあれば、それはアーラン分布でしょう。
アーラン分布とは、ガンマ分布のうち形状パラメータが正の整数であるものをいいます。
つまり、アーラン分布全体はガンマ分布全体に含まれています。
アーラン分布とは正の整数\(n \in \mathbb N\)と正の実数\(\lambda >0\)の2つのパラメータをもつ分布で、
以下で与えられる確率密度が定める分布です。
\begin{align*} f(x) = \begin{cases} \frac{\lambda^n}{(n-1)!} x^{n-1}e^{-\lambda x} & (x > 0) \\ 0 & (x \leq 0) \end{cases} \end{align*}
ガンマ分布の密度関数は
\begin{align*} f(x) = \begin{cases} \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} & (x > 0) \\ 0 & (x \leq 0) \end{cases} \end{align*}
でしたが、\(k\)が正の整数のときは\(\Gamma(k) = (k-1)!\)であるので、
確かにアーラン分布の密度関数と一致することが確かめられます。
ガンマ分布とカイ二乗分布の関係
自由度\(n\)のカイ二乗分布とは標準正規分布の二乗を\(k\)個足し合わせた確率変数が従う分布でした。
より正確には以下のように定められます。
自由度\(n \in \mathbb N\)のカイ二乗分布とは、
以下で与えられる確率密度が定める分布です。
\begin{align*} f(x) = \begin{cases} \frac{\frac{1}{2}^{\frac{n}{2}}}{\Gamma(\frac{k}{2})} x^{\frac{n}{2}-1}e^{-\frac{1}{2} x} & (x > 0) \\ 0 & (x \leq 0) \end{cases} \end{align*}
形状パラメータが\(k\)で尺度パラメータが\(\lambda\)であるガンマ分布の密度関数は
\begin{align*} f(x) = \begin{cases} \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} & (x > 0) \\ 0 & (x \leq 0) \end{cases} \end{align*}
でしたが、形状パラメータを\(k = \frac{n}{2}\)とし、尺度パラメータを\(\lambda = \frac{1}{2}\)とすると、
確かに自由度\(n\)のカイ二乗分布と一致することがわかります。
つまり、カイ二乗分布はガンマ分布の特別な場合であるといえます。
ガンマ分布の期待値の求め方
ガンマ分布に従う確率変数\(Z\)の期待値を計算してみましょう。
\(Z \sim \Gamma(k, \lambda)\)とする。
\begin{align*} E(Z) = \frac{k}{\lambda}\end{align*}
が成り立つ。
定義に従って計算すると、
\begin{align*} E(Z) &= \int_{-\infty}^\infty x \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} dx
\\&=\int_{0}^\infty x \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} dx
\\&= \frac{\lambda^k}{\Gamma(k)} \int_{0}^\infty x^{k}e^{-\lambda x} dx
\\&= \frac{\lambda^k}{\Gamma(k)} \int_{0}^\infty \left( \frac{\xi}{\lambda}\right) ^{k}e^{- \xi} \frac{1}{\lambda}d\xi
\\&= \frac{1}{\Gamma(k)} \frac{1}{\lambda} \int_{0}^\infty \xi ^{k}e^{- \xi} d\xi\end{align*}
となります。
ガンマ関数の定義から
\begin{align*} \Gamma(k+1) = \int_{0}^\infty \xi ^{k}e^{- \xi} d\xi\end{align*}
であったことと、
\begin{align*} \Gamma(k+1) = k \Gamma(k) \end{align*}
であったことを思い出しておくと、
\begin{align*} E(Z) = \frac{1}{\Gamma(k)} \frac{1}{\lambda} \int_{0}^\infty \xi ^{k}e^{- \xi} d\xi = \frac{k}{\lambda}\end{align*}
と計算することができます。
あるいはガンマ分布に従う確率変数\(Z\)が同じ指数分布に従う独立な確率変数\(X_1, \ldots, X_k\)の和で表されることを用いると、
\begin{align*} E(Z) &= E(X_1 + \cdots + X_k)
\\&= E(X_1) + \cdots + E(X_k)
\\&= \frac{k}{\lambda} \end{align*}
と簡単に計算することもできます。
ガンマ分布の分散の求め方
ガンマ分布に従う確率変数\(Z\)の分散を計算してみましょう。
\(Z \sim \Gamma(k, \lambda)\)とする。
\begin{align*} V(Z) = \frac{k}{\lambda^2}\end{align*}
が成り立つ。
\begin{align*} V(Z) = E(Z^2) – (E(Z))^2 \end{align*}
という式を利用して求めることにします。
\begin{align*} E(Z^2) &= \int_{-\infty}^\infty x^2 \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} dx
\\&=\int_{0}^\infty x^2 \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} dx
\\&= \frac{\lambda^k}{\Gamma(k)} \int_{0}^\infty x^{k+1}e^{-\lambda x} dx
\\&= \frac{\lambda^k}{\Gamma(k)} \int_{0}^\infty \left( \frac{\xi}{\lambda}\right) ^{k+1}e^{- \xi} \frac{1}{\lambda}d\xi
\\&= \frac{1}{\Gamma(k)} \frac{1}{\lambda^2} \int_{0}^\infty \xi ^{k+1}e^{- \xi} d\xi
\\&= \frac{1}{\Gamma(k)}\frac{1}{\lambda^2}\Gamma(k+2)
\\&= \frac{(k+1)k}{\lambda^2} \end{align*}
となります。
一方で、
\begin{align*} (E(Z))^2 = \left(\frac{k}{\lambda} \right) ^2 \end{align*}
であったので、
\begin{align*} V(Z) &= E(Z^2) – (E(Z))^2 \\& = \frac{(k+1)k}{\lambda^2} – \left(\frac{k}{\lambda} \right) ^2 \\&= \frac{k}{\lambda^2} \end{align*}
と求めることができました。
あるいはガンマ分布に従う確率変数\(Z\)が同じ指数分布に従う独立な確率変数\(X_1, \ldots, X_k\)の和で表されることを用いると、
\begin{align*} V(Z) &= V(X_1 + \cdots + X_k)
\\&= V(X_1) + \cdots + V(X_k)
\\&= \frac{k}{\lambda^2} \end{align*}
と簡単に計算することもできます。
ガンマ分布の再生性
再生性とは、特定の種類の分布に従う2つの確率変数を足し合わせたときに、また同じ種類の分布に従うという性質のことをいいます。
ガンマ分布は再生性をもちます。
\(X \sim \Gamma(k, \lambda)\)とし、\(Y \sim \Gamma(l, \lambda)\)とし、
2つの確率変数は独立であるとします。
このとき
\begin{align*} X + Y \sim \Gamma(k + l, \lambda)\end{align*}
となります。
証明ですが、素朴に2つの確率変数の和により定まる確率変数の密度関数を求めにいくこともできますが、
ガンマ分布が指数分布の和であることを利用すると、
\(X \sim \Gamma(k, \lambda)\)より\(X\)は\(k\)個の指数分布の足し合わせであり、
\(Y \sim \Gamma(l, \lambda)\)より\(Y\)は\(l\)個の指数分布の足し合わせです。
従って\(X + Y\)は\(k + l\)個の指数分布の和になります。
これはつまり\(X + Y \sim \Gamma(k + l, \lambda)\)を意味しています。
ガンマ分布の積率母関数の求め方
ガンマ分布に従う確率変数\(X\)の積率母関数を計算してみましょう。
\(X \sim \Gamma(k, \lambda)\)とする。
\begin{align*} m_t(X) = \frac{\lambda^k}{(\lambda-t)^k} \end{align*}
が成り立つ。
\begin{align*}m_t(X) &= E(e^{tX})
\\&= \int_0^\infty e^{tx} \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} dx
\\&= \int_0^\infty \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-(\lambda -t)x} dx
\\&= \int_0^\infty \frac{\lambda^k}{(\lambda-t)^k} \frac{(\lambda-t)^k}{\Gamma(k)} x^{k-1}e^{-(\lambda -t)x} dx
\\&= \frac{\lambda^k}{(\lambda-t)^k} \int_0^\infty \frac{(\lambda-t)^k}{\Gamma(k)} x^{k-1}e^{-(\lambda -t)x} dx
\\&= \frac{\lambda^k}{(\lambda-t)^k} \end{align*}
ガンマ分布の逆数が逆ガンマ分布に従うことの証明
ガンマ分布の逆数が従う分布を逆ガンマ分布といい、正確には次のように定められます。
パラメータ\(\lambda >0, k>0\)をもつ逆ガンマ分布の確率密度関数は以下で与えられます。
\begin{align*} f(x) = \begin{cases} \frac{\lambda^k}{\Gamma(k)} x^{-k-1}e^{-\lambda \frac{1}{x}} & (x > 0) \\ 0 & (x \leq 0) \end{cases} \end{align*}
\(X \sim \Gamma(k, \lambda)\)とします。
\(\frac{1}{X}\)の密度関数を求めてみましょう。
\begin{align} P(\frac{1}{X} \leq x) &= P(\frac{1}{x} \leq X) = 1 – P(X \leq \frac{1}{x}) \\&= 1 – \int_0^{\frac{1}{x}} \frac{\lambda^k}{\Gamma(k)} x^{k-1}e^{-\lambda x} dx \end{align}
ですので、
\begin{align} \partial_x P(\frac{1}{X} \leq x) &= – \frac{-1}{x^2} \frac{\lambda^k}{\Gamma(k)} \frac{1}{x}^{k-1}e^{-\lambda \frac{1}{x}} \\&= \frac{\lambda^k}{\Gamma(k)} x^{-k-1}e^{-\lambda \frac{1}{x}} \end{align}
となります。
累積関数\(P(\frac{1}{X} \leq x)\)の微分が密度関数であるので、確かにガンマ分布に従う確率変数の逆数が逆ガンマ分布に従います。
コメント
コメント一覧 (1件)
助かります