マルコフ連鎖を用いて状態遷移を考慮した期待割引現在価値の導出方法を考えまーす。
離散的な状態が\(k\)個存在する状況を考えます。
状態間の遷移は、遷移確率行列が
\begin{align} P \end{align}
に従うとします。
各状態\(i\)のコストを\(c_i \)とし、\(k \times 1\)行列
\begin{align} c \end{align}
とします。
\(n\)期の状態の分布を\(1 \times k\)行列
\begin{align} \alpha_n \end{align}
としましょう。
このとき、\(n\)期の期待コストは
\begin{align} \alpha_n c \end{align}
と書くことができます(もちろん行列の演算です)。
今遷移行列が\(P\)なので、
\begin{align} \alpha_{n + 1} = \alpha P\end{align}
という関係が成り立っています。
そこで、毎期\(n = 1, 2, \ldots , \)にコスト\(c\)が発生するようなキャッシュフローを考えます。
すると、割引なしだと、期待コストは
\begin{align} \alpha_1 c + \alpha_2 c + \alpha _3 c + \cdots \end{align}
なわけですが、
これは、\(P\)を用いて記述すると、
\begin{align} \alpha_1 c + \alpha_1 P c + \alpha _1 P^2 c + \cdots \end{align}
です。
さらに書き換えるとこれは、単位行列\(E\)を用いて
\begin{align} \alpha_1 \left( E – P \right)^{-1} c \end{align}
ということになります。
ここで、残念ながら
\begin{align} E – P \end{align}
は逆行列を持たないです。
というのも、全成分が\(1\)である\(k \times 1\)行列を
\begin{align} \mathbb 1 \end{align}
と表記することにすると、確率行列であることから、いずれの行も横に全部足すと1になるので、
\begin{align} P \mathbb 1 = \mathbb 1 \end{align}
でした。なので、
\begin{align} \left( E – P \right) \mathbb 1 = 0 \end{align}
となるので、kernelが退化してないから(固有値0の固有空間が1次元以上ということ)です。
割引きのないモデルだと正則でなかったので、割引を考慮するとどうか考えます。
discount factor(割引因子)\(v\)を導入すると、
\begin{align} \alpha_1 c + v \alpha_1 P c + v^2 \alpha _1 P^2 c + \cdots \end{align}
なので、
\begin{align} \alpha_1 \left( E – vP \right)^{-1} c \end{align}
となります。
\begin{align} v < 1\end{align}
の時には\(E – vP \)は正則になります。理由はchatGPTに聞いてください。
というわけで、期待割引現在価値は、
\begin{align} \alpha_1 \left( E – vP \right)^{-1} c \end{align}
によって普通に解くことができます。おしまい。
気が向いたら吸収型マルコフ連鎖の場合も追記しておきます。
コメント