PRML第一章メモ

Posted on December 29, 2016 by Shota Nagayama
Tags: PRML, AI

そもそも確率統計では

の二種類がある。


ベイズの定理

\(\boldsymbol{{\rm w}}\)はモデルパラメータで、フィッティング曲線\(f(x) =w_1 + w_2 x^2 + ... w_n x^n\)を決定する。 どんな\(\boldsymbol{{\rm w}}\)がどの程度の確率で発現するかを\(p(\boldsymbol{{\rm w}})\)で示し、かつ観測データを\(\boldsymbol{{\rm D}}\)とする時、 ベイズの定理は \[p(\boldsymbol{{\rm w}}|\boldsymbol{{\rm D}}) = \frac{p(\boldsymbol{{\rm D}}|\boldsymbol{{\rm w}})p(\boldsymbol{{\rm w}})}{p(\boldsymbol{{\rm D}})}\]で表される。 \(\boldsymbol{{\rm D}}\)の観測後に\(\boldsymbol{{\rm w}}\)に関する不確実性を\(p(w|\boldsymbol{{\rm D}})\)として\(\boldsymbol{{\rm D}}\)の事後分布で表現する。


尤度関数 (likelihood function)と最尤推定 (maximum liklihood)

\(p(\boldsymbol{{\rm D}}|\boldsymbol{{\rm w}})\)は事後確率であり、とある\(w\)に対して\(\boldsymbol{{\rm D}}\)が起こる確率を示す。見方を変えると、ある出来事\(\boldsymbol{{\rm D}}\)が起こったときの、ある事前条件\(\boldsymbol{{\rm w}}\)の有り得やすさを示す関数と捉えることが出来る。つまり、事前条件の尤もらしさ(もっともらしさ)を表す関数である。これを尤度関数と呼ぶ。

頻度主義では尤度関数を最大にする\(\boldsymbol{{\rm w}}\)を探す最尤推定法がよく用いられる。 \(- \ln p(\boldsymbol{{\rm D}}|\boldsymbol{{\rm w}})\)を誤差関数(error function)と呼び、尤度の最大化を誤差の最小化として計算する事がよくある。


ガウス分布

\(u\)を平均(mean)、\(\sigma^2\)を分散(variance)とした時、 \[N(x|u,\sigma)=\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}} \exp\{-\frac{1}{2\sigma^2}(x-u)^2\}\] で表される\(x\)の分布をガウス分布と呼ぶ。ガウス分布では平均と最頻値が一致する。要は平均\(x_m\)を中心に左右平等に山なりになっている分布。

ちなみに\(x^2\)の平均から\(x\)の平均の二乗を引いたものが分散。

\(D\)次元ベクトルの連続変数\(x\)でのガウス分布は、\(D\times D\)行列\(\Sigma\)を共分散として \[N(x|u,\Sigma )=\frac{1}{(2\pi )^{\frac{D}{2}}}\frac{1}{|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(x-u)^T \Sigma ^{-1} (x-u)\}\] で示す。


ガウス分布の尤度関数

とある分布から観測された\(N\)個のサンプルデータ集合\(\boldsymbol{{\rm x}}\)に対して、 \[N(\boldsymbol{{\rm x}}|u,\sigma^2) = \Pi_{n=1}^{N} N(x_n|u,\sigma^2)\] はガウス分布の尤度関数である。サンプルデータ集合の平均と分散は、それぞれ尤度関数を最大化する\(u\)\(\sigma^2\)である。


曲線フィッティング

過学習

\(n\)次多項式\(f(x) =w_1 + w_2 x^2 + ... w_n x^n\)\(n\)がデータサンプル数と同数以上になると、 多項式の自由度がデータサンプル数と同数以上になるため過学習が発生し、サンプルデータ以外のデータに対してフィットしなくなる。

罰金項付き誤差関数

過学習を防ぐために、誤差関数に罰金項を付け加える事で正則化(regularization)を行う。 係数を二乗して和を取ったものを罰金項とすると、誤差関数は \[E^\sim (\boldsymbol{{\rm w}}) = \frac{1}{2} \Sigma_{n=1}^N\{y(x_n, \boldsymbol{{\rm w}}) -t_n\}^2 + \frac{\lambda}{2}||\boldsymbol{{\rm w}}||^2\] となる。

最尤推定による曲線フィッティングと最大事後確率推定

尤度関数は \[p(\boldsymbol{{\rm t}}|\boldsymbol{{\rm x}},\boldsymbol{{\rm w}},\beta) = \Pi_{n=1}^N N(t_n|y(x_n,\boldsymbol{{\rm w}}, \beta^{-1})\] であり、ここで\(\boldsymbol{{\rm x}}\)\(\boldsymbol{{\rm t}}\)はサンプルデータ群\(x\)とそれに対応する\(t=f(x)\)のベクトルであり、\(\beta\)は分布の逆分散に相当するパラメータなので\(\beta^{-1}\)は分散に相当する。 尤度関数において分散\(\beta^{-1}\)を最小化すると予測分布として\(t\)の確率分布 \[p(t|x,\boldsymbol{{\rm w}}_{ML}, \beta_{ML}) = N(t|y(x,\boldsymbol{{\rm w}}_{ML}), \beta_{ML}^{-1})\] を得られる。

簡単のために平均\(u=0\), 分散\(\sigma^2 = \alpha^{-1}\boldsymbol{{\rm I}}\)のガウス分布で\(M+1\)個の要素を持つ\(\boldsymbol{{\rm w}}\)(M次多項式に対応)の事前分布を考えると、 \[p(\boldsymbol{{\rm w}}|\alpha) = N(\boldsymbol{{\rm w}}|0, \alpha^{-1}\boldsymbol{{\rm I}}) = (\frac{\alpha}{2\pi})^{(M+1)/2} \exp \{-\frac{\alpha}{2}\boldsymbol{{\rm w^Tw}}\}\] となる。\(\alpha\)は分布の精度パラメータであり、モデルパラメータの分布を制御するため超パラメータ(hyperparameter)と呼ばれる。 ベイズの定理のnormalization要素である分母を無視すると、\(\boldsymbol{{\rm w}}\)の事後分布は尤度関数と\(\boldsymbol{{\rm w}}\)の事前分布との積に比例するため、(\(\alpha\)は超パラメータであるため放置) \[p(\boldsymbol{{\rm w}}|\boldsymbol{{\rm x,t}}, \alpha, \beta) \propto p(\boldsymbol{{\rm t}}|\boldsymbol{{\rm x, w}}, \beta)p(\boldsymbol{{\rm w}}|\alpha)\] となり、事後分布を最大化する\(\boldsymbol{{\rm w}}\)を決定するのに役立つ。(最大事後確率推定あるいはmaximum posterior (MAP推定)。)

上記の式の対数を取り符号を反転すると \[\frac{\beta}{2}\Sigma_{n=1}^{N}\{y(x_n,\boldsymbol{{\rm w}})-t_n\}^2 + \frac{\alpha}{2}\boldsymbol{{\rm w^Tw}}\] の最小値が事後確率の最大値を与える。 この式は罰金項付き誤差関数と同じ形であり、\(\lambda = \frac{\alpha}{\beta}\)とすると、正則化された二乗和誤差の最小化と等価である。

ベイズ曲線フィッティング

最尤推定では単体の\(\boldsymbol{{\rm w}}\)の点推定にしかなっていないため、最終的には\(\boldsymbol{{\rm w}}\)の全ての値に関して積分する必要がある。

\(\boldsymbol{{\rm x}}\)\(\boldsymbol{{\rm t}}\)から\(x\)に対応する\(t\)を予測するのが曲線フィッティングの本来の目的であるため、 予測分布\(p(t|x,\boldsymbol{{\rm x,t}})\)を考える。\(\alpha\)\(\beta\)は一先ず放置すると、予測分布は \[p(t|x,\boldsymbol{{\rm x,t}}) = \int p(t|x,\boldsymbol{{\rm w}}) p(\boldsymbol{{\rm w | x,t}}) d \boldsymbol{{\rm w}}\] となる。これは\(\boldsymbol{{\rm x,t}}\)が与えられた時にとある\(\boldsymbol{{\rm w}}\)が起こった場合(\(p(\boldsymbol{{\rm w | x,t}})\))に、更に\(x\)が起こった時に\(t\)が発生する確率(\(p(t|x,\boldsymbol{{\rm w}})\))を、全ての\(\boldsymbol{{\rm w}}\)について和を取っている。

これをガウス分布の式に直すと、 \[p(t|x,\boldsymbol{{\rm x,t}}) = N(t|m(x),s^2(x))\] となり、この分布の平均と分散は \[\boldsymbol{{\rm S}}^{-1} = \alpha \boldsymbol{{\rm I}} + \beta \sum _{n=1}^N \phi(x_n)\phi(x_n)^{\rm T}\] として \[m(x) = \beta \phi(x)^{\rm T} \boldsymbol{{\rm S}}\sum_{n=1}^N \phi(x_n)t_n\] \[s^2(x) = \beta ^{-1} + \phi(x)^{\rm T} \boldsymbol{{\rm S}}\phi(x)\] となる。分散の第一項は目標変数tの予測値に乗るノイズによる不確実性を反映しており、最尤推定における\(\beta_{ML}^{-1}\)に対応する。第二項はベイズにより発生する、パラメータ\(\boldsymbol{{\rm w}}\)の不確実性を反映している。