統計学や確率論において、二項分布は非常に重要な確率分布の一つです。これは、成功確率が一定の試行を複数回行ったときの成功回数を表す分布です。二項分布の特性を理解することは、データ分析や統計的推測を行う上で不可欠です。
本記事では、二項分布の最頻値(モード)の求め方について、できるだけわかりやすく詳しく解説します。
最頻値は、確率分布において最も頻繁に観測される値、すなわち確率密度関数が最大となる点を指します。
確率分布における最頻値とは、確率が最大となる値のことです。
つまり、\(f\)を密度関数とする確率変数の最頻値とは、
\begin{align*} \text{argmax} f(x)\end{align*}
です。念の為に補足しておくと、
\begin{align*} \textrm{argmax} f(x) = \{x \mid f(x ^\prime) \leq f(x) \quad (\forall x^\prime \in \mathbb R) \} \end{align*}
です。つまり、最大値を実現する\(x\)です。
確率変数\(X\)が二項分布\(Bin(n,p)\)に従うとします。
このとき、最頻値(mode)は、
\begin{align*} \textrm{mode} X = \text{min} \{0 \leq k \leq n \mid \frac{P(X = k+1)}{P(X = k)} \leq 1 \} \end{align*}
です。ただし、
\begin{align*} \frac{P(X = k+1)}{P(X = k)} = 1 \end{align*}
となる\(k\)が存在する場合には、最頻値は\(k, k+1\)の両方です。
(また、\(P(X = n+1) = 0\)であることを補足しておきます。
これをさらに変形していって、具体的な表示を求めてみましょう。
\(X \sim Bin(n, p)\)のとき、
\begin{align*} P(X = k) = {}_{n}C_k p^k \left( 1 – p \right)^{n-k} \end{align*}
であるので、
\begin{align*} \frac{P(X = k+1)}{P(X = k)} &= \frac{{}_{n}C_{k+1} p^{k+1} \left( 1 – p \right)^{n-k-1} }{{}_{n}C_k p^k \left( 1 – p \right)^{n-k}} \\&= \frac{ \frac{n!}{{(k+1)! {(n-k-1)!}} }p^{k+1} \left( 1 – p \right)^{n-k-1} }{\frac{n!}{{(k)! {(n-k)!}} } p^{k} \left( 1 – p \right)^{n-k}} \\&= \frac{n-k}{k+1} \frac{p}{1 – p}\end{align*}
と計算することができます。
従ってより具体的には、
確率変数\(X\)が二項分布\(Bin(n,p)\)に従うとします。
このとき、最頻値(mode)は、
\begin{align*} \textrm{mode} X = \text{min} \{ 0 \leq k \leq n \mid \frac{n-k}{k+1} \frac{p}{1 – p}\leq 1 \} \end{align*}
です。ただし、
\begin{align*} \frac{n-k}{k+1} \frac{p}{1 – p} = 1 \end{align*}
のときには\(k, k+1\)の両方が最頻値です。
二項分布の最頻値の求め方について、ステップバイステップで解説しました。最頻値を理解することで、二項分布の形状やデータの中心傾向を把握しやすくなります。統計学やデータ分析を行う上で、これらの概念をしっかりと理解しておくことは非常に重要です。
もしこの記事が役に立ったと思われたら、ぜひ他の方にもシェアしてください。また、ご質問やご感想がありましたら、お気軽にコメント欄にお寄せください。
コメント