PRML 式(2.6)から式(2.7)の導出

目的

二値確率変数の観測値の集合が与えられた時に、ベルヌーイ分布のパラメータ ${\mu}$ を推定したい。

考え方

観測した値が出る確率を全部かける。

${ \displaystyle p(\mathcal{D}|\mu) = \prod_{n=1}^{N} p(x_n|\mu) = \prod_{n=1}^{N} \mu^{x_n} (1-\mu)^{1-x_n} }$

これが尤度関数で、頻度主義的にはこれを最大化すれば一番 ${\mathcal{D}}$ を観測しやすい ${\mu}$ が得られる。
尤度関数の対数を取ったものを使ってもそれを最大化すれば同値なので、

${ \displaystyle \ln{p(\mathcal{D}|\mu)} = \sum_{n=1}^{N} \ln{p(x_n|\mu)} = \sum_{n=1}^{N} \left\{ x_n \ln{\mu} + (1-x_n) \ln{(1-\mu)} \right\} }$

これを $\mu$ で微分して0になる時の方程式を解けばいいって軽く書いてあるけど真面目に解いたらかなりダルかった。以下式変形を愚直に。

$\begin{align} \frac{\partial \ln{p(\mathcal{D}|\mu)}}{\partial \mu} &= \sum_{n=1}^{N} \left\{ \frac{x_n}{\mu} + (1-x_n) \frac{(1-\mu)'}{1-\mu} \right\} \\ &= \sum_{n=1}^{N} \left( \frac{x_n}{\mu} - \frac{1-x_n}{1-\mu} \right) \\ &= \sum_{n=1}^{N} \left\{ \frac{x_n(1-\mu)}{\mu(1-\mu)} - \frac{\mu(1-x_n)}{\mu(1-\mu)} \right\} \\ &= \frac{1}{\mu(1-\mu)} \sum_{n=1}^{N} \left( x_n - \mu x_n - \mu + \mu x_n \right) \\ &= \frac{1}{\mu(1-\mu)} \sum_{n=1}^{N} \left( x_n - \mu \right) \\ &= \frac{1}{\mu(1-\mu)} \left( \sum_{n=1}^{N} x_n - N \mu \right) \end{align}$

これが0になればいいので、

$\begin{align} \frac{1}{\mu(1-\mu)} \left( \sum_{n=1}^{N} x_n - N \mu \right) &= 0 \\ \sum_{n=1}^{N} x_n - N \mu &= 0 \\ N \mu &= \sum_{n=1}^{N} x_n \\ \mu &= \frac{1}{N} \sum_{n=1}^{N} x_n \end{align}$

と、無事式(2.7)になりました。なったからたぶんこれで正しいんだと思う。

ついでに、 $x_n \in \{0, 1\}$ なので、 $x_n = 1$ となった回数を $m$ と置くと、 $\displaystyle{\mu = \frac{m}{N}}$ なので、要は「結局試行の中で1が出た割合がベルヌーイ分布のパラメータそのものなんじゃね？」という話に帰着するのですが、そうすると同じコインを3回投げて3回とも表が出たらパラメータは1になるという「は？」って感じの結論が導かれるので、そういうのを防ぐためにベイジアンなアプローチによって事前分布を用意してから計算しようねというのが次のベータ分布以降の話なんだと思います。たぶん。

補足

数Ⅱの微積ですが。

係数： $\{c \cdot f(x) \}' = c \cdot f'(x)$ ★
和の微分： $\{ f(x) + g(x) \}' = f'(x) + g'(x)$ ★

合成関数の微分： $g(f(x))' = \frac{dg}{df} \cdot \frac{df}{dx}$
自然対数の微分： $\ln(c) = \frac{1}{c}$
この2つから $\{ \ln{f(x)} \}' = \frac{f'(x)}{f(x)}$ （↑↑の $g$ が $\ln$ のとき）★

微分するところの1行目で★を全部使ってるので一応示しておきます。

矮小

井の中の蛙

PRML 式(2.6)から式(2.7)の導出

目的

考え方

補足