ベイズの定理

俺がITで学んだこと

スパムメールかどうかの判定に使われてみたり、する。

なぜベイズの定理がもてはやされているか、というと、Aの起きた後、Bの起きる確率という「条件付き確率」の説明だからである。スパムの例ならば、Aがスパムかも知れない確率。Bはスパムだった確率。人間はBを0,1で当初は判断してくれるから、Aの「スパムかもしれない」という事前確率がわかるようになる。

本を買って読んだんだが、ウェブ上のブログのほうが、最初のイメージをつかむには、はるかに分かりやすい。
取りあえず自分なりに覚え書き。

■三囚人問題
3人の囚人が明日処刑されることになっている。
しかし特別に1人だけ恩赦で助かることになった。誰が恩赦になるのかは決定されたが、囚人達はまだ誰が助かるのかは知らない。

すると結果を知っている看守に、囚人Aが言った。
「3人のうち2人は必ず処刑される。仮に俺が処刑されるとしても、BかCのいずれかは必ず死ぬ。俺が処刑されなければ、BもCも死ぬ。少なくともBかCのどちらが処刑されるか教えてくれないか。」

看守は気の毒になり、「囚人Bは処刑されることになっている」と教えた。

すると囚人Aは、「最初私の助かる確率は1/3だった。いまでは助かるのは私かCのいずれかだから、助かる確率は1/2になった」
と喜んだ。

この囚人Aの考え方は正しいだろうか。

確率の乗法定理

まずこれを理解できないとベイズの定理にたどり着かないようだ。

ベイズの定理は、事象Aが起きた後での事象Bの起きる確率をいう。これを以下のように記述する。
事象Bが発生する確率:P(B)=事前確率
事象Aが起きた後での、事象Bの確率:P(B|A)=事後確率
(この書き方が気に入らんが覚える。|Aで、Aが起きた後の、というらしい)
Aが起きた事象のうちのAとBが起きた事象数。
P(B|A) = n(A∩B) / n(A)
全体をあらわす N=n(U) で分母・分子を割ると

P(B|A) = ( n(A∩B) /N ) / ( n(A) / N) = P(A∩B) / P(A)

となる。
さらに、
P(B|A) = P(A∩B) / P(A)
分母を払うと、
P(A∩B) = P(A) * P(B|A)

例えば:袋の中に当たりくじが2個、はずれくじが3個の合計5個がはいっています。太郎くんと次郎くんがこの順番でくじを一個ずつ引きました。ひいたくじは袋にもどしません。この時、太郎くんが当たり、次郎くんが外れる確率は?
太郎くんが当選する確率は、P(太郎) = 2/5
太郎くんが当たりくじを引いたとき、残り4個ののくじのなかに当たりくじは1個、はずれくじは3個。したがって
P(次郎|太郎) = 3/4

P(A∩B) = P(A) * P(B|A) = 2/5 * 3/4 = 3/10

一般的ベイズの定理

第一段階で起こりうる結果 e1,e2, e3,,,,ek
第二段階で起こりうる結果 o1,o2, o3,,,,om
ここでkとmは同じではない。
e1,e2,,,ekが互いに背反とすると、
p(o1) = p(e1∩o1) + p(e2∩o1) + p(e3∩o1) + …+ p(ek∩o1)
上の式を使うと、
p(o1) = p(e1) * P(o1|e1) + P(e2)*P(o1|e2)+…+P(ek)*P(o1|ek)

beiz1

以上より、

beiz2

ベイズの定理は、ある前提条件の下で結果が生まれたことを見て、逆に結果から前提条件がどのような確率で起こっていたかを推測する方法として使われることが多い。

簡単に表せば、
何も情報がないままの確率=P(B)=事前確率
Bが起こったのでAの起こった確率も再評価=P(A|B)=事後確率
ということになります。

さて、ここで囚人の問題を考えてみよう。
最初に情報がない場合、あきらかにAの助かる確率は1/3である。P(A助かる)=1/3と記述する。
ベイズの定理は、P(A|B) = P(A∩B) / P(B)

P(A助かる Bが処刑されて) = P(Aが処刑され、

コメント