黒木玄 Gen Kuroki is a user on mathtod.online. You can follow them or interact with them if you have an account anywhere in the fediverse. If you don't, you can sign up here.
黒木玄 Gen Kuroki @genkuroki

mathtod.online/@genkuroki/7656
(の下の方)で

* 渡辺澄夫さんの意味での「ベイズ検定」(2つの確率分布のあいだの単純な尤度比検定の特別な場合)

* 多数派の意味での「ベイズ検定」

の意味が全然違っており、数学的な利点が明瞭なのは「2つの確率分布のあいだの単純な尤度比検定」だという話をしました。

そこでは、多数派の意味での「ベイズ検定」に従うと通常の仮説検定では簡単に棄却される帰無仮説が95%で信頼されてしまう数値例も紹介しています。

多数派の意味での「ベイズ検定」は、通常の仮説検定に慣れた人にとって使い気になれる代物ではないと思う。

そして、渡辺澄夫さんの意味での「ベイズ検定」は、二項分布モデルの場合には通常の仮説検定を含んでいることも紹介しました。

誤解し易い点はこれだけではありません。続く

· Web · 0 · 1

続き。さらにややこしいことに、渡辺澄夫さんの教科書の意味での「ベイズ検定」で使っている尤度比は、いわゆる「ベイズファクター」と完全に一致しています。

ベイズファクターによるモデル選択は、渡辺澄夫さんの教科書の意味での「ベイズ検定」とは全く異なる手続きです。

出て来る数式が同じであってもやっていることは全然違います。

渡辺澄夫さんの教科書の意味での「ベイズ検定」では、$$
p_0(x) = \int p(x|w)\varphi_0(x)\,dx,\\
p_1(x) = \int p(x|w)\varphi_1(x)\,dx
$$と定義された確率分布 $p_0(x)$ を帰無仮説、$p_1(x)$ を対立仮説とするとき、帰無仮説のもとで$$
L(x) = \frac{p_1(x)}{p_0(x)} > a
$$となる確率が $\alpha$ になるように $a$ を定め、その不等式が成立するときに、有意水準 $\alpha$ で帰無仮説を棄却するという手続きを採用します。

尤度比 $L(x)$ はベイズファクターとも呼ばれているようです。続く

渡辺澄夫さんの教科書の意味での「ベイズ検定」では、尤度比=ベイズファクター $L(x)$ の大きさそのものを問題にするのではなく、帰無仮説のもとで $L(x)>a$ となる確率(有意水準)を問題にします。

要するに渡辺澄夫さんの教科書の意味での「ベイズ検定」は通常の仮説検定と全く同じ考え方をしているということです。

それに対して、「ベイズファクターによるモデル選択」は尤度比=ベイズファクター $L(x)$ にサンプル $X$ を代入した値 $L(X)$ の大きさを問題にします。

例えば「$L(X)$ が $1$ より小さいなら帰無仮説の方がもっともらしい」のように考えます。

これはこれで一理ある考え方です。

同じ統計量 $L(X)$ であっても、「$L(X)>a$ ならば帰無仮説を棄却する」という使い方と、「$L(X)$ が1より大きいか小さいかでどちらの仮説がもっともらしいかを判断する」という異なる使い方があるわけです。

続く

続き

帰無仮説の確率分布 $p_0(x)$ のもとで$$
L(x) = \frac{p_1(x)}{p_0(x)} > a
$$となる確率(有意水準)は $\alpha$ だとしましょう。

通常の仮説検定の意味での(渡辺澄夫さんの教科書の意味での)「ベイズ検定」では、現実世界から得らえたサンプル $X$ について$$
L(X) = \frac{p_1(X)}{p_0(X)} > a
$$が成立することが、帰無仮説を有意水準 $\alpha$ で棄却するための必要十分条件になります。p値の定義は、$x$ が確率分布 $p_0(x)$ に従う確率変数であるという帰無仮説のもとで$$
L(x)\geqq L(X)
$$が成立する確率(帰無仮説のもとで現実に得られたサンプル $X$ 以上の偏りが生じる確率)になります。

この場合に注意するべきことは、対立仮説 $p_1(x)$ のもっともらしさがどんなに低くても、帰無仮説が棄却されることがありえることです。

続く

続き

なぜならば、サンプル $X$ に関する対立仮説の尤度 $p_1(X)$ がどんなに小さくても、$x$ が確率分布 $p_0(x)$ に従うという帰無仮説のもとで$$
\frac{p_1(x)}{p_0(x)} \geqq \frac{p_1(x)}{p_0(X)}
$$となる確率が小さくなることはありえるからです。

例えば、通常の二項検定(両側検定)は、 $p_0(x)$ を $x=0,1,\ldots,n$ に関する二項分布とし、 $p_1(x)$ を $x=0,1,\ldots,n$ に関する有限一様分布 $p_1(x)=1/(n+1)$ (確率は $x$ によらず一定)にすればよいです。$n$ が大きいとき $p_1(x)$ の値は常に小さくなります。しかし、その値は一定なので、$c=1/(a(n+1))$ とおくと$$
L(x)\geqq a \iff p_0(x)\leqq c
$$となり、右辺は両側二項検定における帰無仮説棄却のための条件の形になります。

帰無仮説の棄却は対立仮説の尤度の高さを意味しません。

続く

続き

現実はさらに話が込み入っています。以上では

* 二項分布の場合には通常の仮説検定を含む渡辺澄夫さんの教科書の意味での「ベイズ検定」

* 多数派の意味での「ベイズ検定」

* ベイズファクターによるモデル選択

の3つを区別しなければいけないことを説明しました。そして、渡辺澄夫さんの教科書の意味での「ベイズ検定」(二項分布の場合の通常の仮説検定を含む)では、帰無仮説の棄却は対立仮説の尤度が高いことを意味しないことも説明した。

さらにややこしいことに、

* 最尤法による尤度比検定

も別にあって、これもまた以上で説明した検定とは区別されなければいけません。

Wilksの定理は最尤法による尤度比検定でカイ二乗近似が使えるという内容の定理です。

ただし、モデルがちょっと複雑になると最尤法は不適切な方法になります。それでも適用できる場合は結構多いので、最尤法を使う場合には事前に注意して使えばよいと思います。(そういう類の数学的注意を払えない人達は計算が重くなる犠牲を払ってベイズ統計を使った方が無難かも。)

続く

続き

最尤法による尤度比検定では、仮説はモデルのパラメーターの動ける範囲を指定することによって決まります。

帰無仮説は「パラメーターは集合 $W_0$ の要素のどれかである」であるとし、対立仮説は「パラメーター $w$ は集合 $W_1$ の要素のどれかである」という条件で決まっているとします。

最尤法ではパラメーターが動ける範囲内で、サンプル $X$ の尤度 $p(X|w)$ を最大にする $w$ から予測分布を作ります。

だから、尤度比検定で採用される尤度比函数の定義は$$
\widehat{L}(x) = \frac
{p(x|\hat w_1(x))}
{p(x|\hat w_0(x))}
$$になります。ここで$$
p(x|\hat w_\nu(x)) = \max_{w\in W_\nu} p(x|w).
$$
渡辺さんの意味でのベイズ検定の尤度比函数は$$
L(x) = \frac
{\int p(x|w)\varphi_1(w)\,dw}
{\int p(x|w)\varphi_0(w)\,dw}
$$でした。これと上は異なる。

最尤法が有効であるという仮定のもとで(この仮定は成立していないことが結構ある)、$W_1$ が $r$ 次元で $W_0$ が $s$ 次元のとき、$W_0$ の中にサンプルを生成する確率分布のパラメーターが含まれているならば、サンプルサイズ $n\to\infty$ で対数尤度比$$
2\log\widehat L(X)
$$が漸近的に自由度 $r-s$ のカイ二乗分布に(近似的に)従うというのが、所謂Wilksの定理です。

例えば、二項分布で確率 $0<\theta<1$ のパラメーターの動く範囲を $W_0=\{\theta_0\}$ (1点集合), $W_1=\{0<\theta<1\}$ とした場合に、対数尤度比は漸近的に自由度1のカイ二乗分布に従います。

そのケースでは中心極限定理より$$
-2\log p(x|\theta_0) - 2\pi n\theta_0(1-\theta_0)
$$も自由度1のカイ二乗分布に漸近的に従います(これは通常の仮説検定の場合)。

漸近的には、最尤法での尤度比検定と通常の仮説検定は同じ結果を与えます。

二項分布のような単純な指数型分布族を扱う場合には、最尤法はとてもうまく行きます。

しかし、ちょっとモデルを複雑にすると(例えば外れ値が生成される仕組みをモデルに組み込んだりすると)、理論的には最尤法がうまく行くケースであっても、最大尤度を計算する過程で極大点にトラップされて、真の最大値が求まったかどうかが不明になることが普通に出て来ます。

そういうケースでは最尤法による推定は簡単ではないです。この事実はもっと強調されてしかるべきことだと思う。

こういうことには、私も実際にコンピューターに計算させるまで本当のところをよく理解していませんでした。

単純な指数型分布族による確率モデルは極めて特殊なので(もちろん特殊だが非常に役に立つ)、その場合だけを扱うだけで何かわかったつもりになるのは極めて危険。

あと、微妙に異なる概念の区別もたぶんそういうことに慣れていない人たちにはほとんど不可能に近いほど大変なことだと思います。

色々、大変だなと思いました。