物理攻略Wikiにインスパイアされたタナカは,今こういうのを試作中なんですけど,需要ありますかね.
いや需要無くても作りますけど$\omega\omega\omega$ https://mathtod.online/media/BnNmcHeFXEXCdC4OLc8
とりあえず離散分布の共役事前分布を用いたベイズ学習をやってみました。
ベルヌーイ分布:
https://gist.github.com/tanutarou/ce54e60ffe35ed96de21ec394f30bffb
カテゴリカル分布:
https://gist.github.com/tanutarou/0a8c2b135680d44dda24d36c1af1b534
ポアソン分布:
https://gist.github.com/tanutarou/4f4a37ed9aa97cd441b4fd62be452fdd
https://twin.sci-hub.cc/4aa75f6b9464ffe6c146bc56be0801e7/friel2016.pdf
Investigation of the widely applicable Bayesian information criterion
N. Friel · J. P. McKeone · C. J. Oates · A. N. Pettitt (2017)
WBICについて理解するためにはとてもありがたい新しい文献。
WBICの精度を知りたければ、まず自由エネルギーが手計算で正確に求まる場合で実験すればいいんですね。
変数選択というとlasso(事前分布にラプラス分布)という感じに思っていたけど、Spike-and-slab事前分布というのもあるんですねぇ。ただ、解析的には解けないらしい。
Spike-and-slab priors http://www.suhasmathur.com/the-bayesian-observer/2017/1/7/spike-and-slab-priors
sBICの論文のdiscussionでi-WBICの式が載っているように見えます。
http://onlinelibrary.wiley.com/doi/10.1111/rssb.12187/full
ベイズ情報量規準及びその発展 ~概説編~:
https://goo.gl/4rrFES
前のトゥートでurlがうまく貼れてなかったぽいので、再度貼ります。
実際の問題では、正則条件を満たすような場合にWBICよりBICのほうがうまくいっているケースも見られるという点も興味深い。
WBICの改良版のiWBICというものがあり、それを企業の方が提案しているというのが驚きました。まだ論文は出てないっぽい(?)
MCMCはHMCの時点で、ハミルトン方程式とか出てきて物理感マックスだったけど、ついに相対論まで使ってるのか(?)。。
Relativistic Monte Carlo https://youtu.be/G2ywKbViDcE
渡辺澄夫さんの教科書で使っている方法は本質的に「所謂ラプラスの方法」です。特異モデルのケースでは「所謂ラプラスの方法の一般化」を使っています。
だから、渡辺澄夫さんの教科書を読むためには「ラプラスの方法」に関する数学的教養が必須に近いと思う。
「ラプラスの方法」のような言い方をされると「権威」を感じてしまって、何か特別なことだと勘違いしそうですが、考え方は超簡単で、おそらく誰でも自然に思い付く可能性が高い。
例えば
$$
F=-\frac{1}{\lambda}\log(e^{-\lambda f_1}+\cdots+e^{-\lambda f_N})
$$は $\lambda\to\infty$ のとき、どのように振る舞うでしょうか? $f_i$ 達の最小値を $m$ と書くと
$$
F=m-\frac{1}{\lambda}\log(e^{-\lambda (f_1-m)}+\cdots+e^{-\lambda (f_N-m)}), \\
f_i - m \geqq 0
$$なので $\lambda\to\infty$ のとき $F\to m$ です。続く
http://www.kyoritsu-pub.co.jp/bookdetail/9784320121904
この本の一章を読んでたけど、伝統的な統計学が強調した主観性の排除が、柔軟な発想によるモデルの構築をかえって阻害してきたことと、情報量規準の導入によりモデル構成を自由に行えるようになったことが書かれており、主義主義論争が良くなかったという旨が赤池さんにより完結にまとめられています。
https://mathtod.online/@tanutarou/811267
私は所謂「変分ベイズ」(渡辺澄夫著『ベイズ統計の理論と方法』では物理っぽく「平均場近似」と呼んでいる)については須山敦志さんの解説が結構好きです。
理由:既存のライブラリの使い方の解説よりも、数学の解説を優先していること。そして、 #JuliaLang を使っていること(笑)。
以下のリンク先からさらにリンクをたどれば読めます。
http://machine-learning.hatenablog.com/entry/2016/01/23/123033
http://machine-learning.hatenablog.com/entry/2016/07/06/200605
http://machine-learning.hatenablog.com/entry/2017/08/19/200841
最近出版された単行本の方は未見