第一章: ベイズの定理¶
ここでは,すべてのベイズ統計の裏にある基本的なアイディアである ベイズの定理 に関して説明していきます.
要点のみをまとめると, ベイズの定理 とは以下の式で表される発想です.
この式は大雑把に言えば, ある現象が起きた際に, その現象の元になったものから, その 現象が起きる確率を計算できるというものになります.
以下の議論では, このベイズの定理に行くために必要になる確率論 の基本事項を説明し, 例題を使いながらベイズの定理に関して説明をしていこうと思います.
条件付き確率: Conditional probability¶
まず, 大前提として確率とは何かという話をすると, 確率 とは (両端を含めた) 0 ~ 1 の 間の数値であり, 事実または予測に対する信念の程度を示します. 単純に言えば, ある予測が正解する確率が 1 であるとは, 100% 必ずこの予測が真である ということであり, 0 であれば必ずこの予測が外れるということです. 中間の値は確からしさの度合いで, 例えば, コインを投げて, 裏が出るか, 表がでるかは 一般には 0.5 になります.
で, ある現象一つだけを考える場合には, いわゆる中学生の時に習った確率の話でよいの ですが, 実際の現象はもう少し複雑な例, つまり,背景情報に基づいた確率が多いです. 例えば, ある人間が心臓発作を起こす確率は, アメリカの場合, 0.3% だそうですが, これは別に, すべてのアメリカ人が平等に 0.3% の確率で心臓発作を起こすわけではあり ません. 例えば,食生活や喫煙習慣など,様々な背景情報によって,各個人が心臓発作を起 こす確率は変化します. このような場合の確率(上の例の場合は心臓発作を起こす確率)は, 条件付き確率 と呼ばれます. ここで目標とする確率には,様々な「条件」が付与されているからです.
条件付きは一般に \(p(A|B)\) と書きます. 条件B の場合に 事象A が起きる確率と いう意味です.
結合確率: conjoint probability¶
さて, 続いては 結合確率 について整理しておきます. 結合確率とは2つの事象が共に真である場合の確率です.
例えば, コイントスやサイコロの問題の場合, 結合確率は以下の式が成り立ちます.
つまり, A かつ B が同時に起きる確率は \(p(A)\) と \(p(B)\) との積となり ます.
上記の式が成り立つのは, 事象 A, B が互いに独立の場合のみです. これは, 数式で書くと以下のように示されます.
世の中の大抵の問題の場合, 2つの事象が独立である保証はない場合も多いです. 例えば, 今日, 雨が振る確率を A とし, 明日, 雨が振る確率を B とします. ここで, 今日雨が降っていることが分かっていれば, 明日雨が振る確率もやっぱり高いです. こういう場合, \(p(B|A) > p(B)\) となります.
- つまり, 今日の状態が何も考慮しない確率が \(p(B)\), これよりも,今日の状態を考慮したほうが雨が振る確率が高くなると説明しているので,数式上,不等号になるというだけの話です.
クッキー問題¶
さて, 確率の基本的な話を済ませたので(結構荒いですが), ベイズの定理に行きましょう. ここで, ベイズの定理ができることを明確にするために, クッキー問題という問題を紹介 しておきます.
注釈
クッキー問題
クッキーの入ったボウルが 2 つあるとします. ボウル1 には 30 枚のバニラクッキーと 10 枚のチョコレートクッキーが入っています. 同様にボウル2 には, それぞれ 20 枚ずつクッキーが入っています. ここで, どちらかのボウルをランダムに選び, そこからクッキーを一枚ランダムに選択します.
この時, 選択されたクッキーがバニラクッキーだった場合に, それがボウル1から選ばれたクッキーである確率はどのくらいなのかを求めなさい.
これは上で説明した, 条件付き確率の問題です. ここで求めたいものは \(p(ボウル1|バニラクッキー)\) です.
この問題がもし, 「ボウル1からバニラクッキーを取り出す確率を求めなさい」だったら話は簡単です.
ただ, クッキー問題では, 条件と目的が逆になっているのです.
当然 \(p(A|B)\) と \(p(B|A)\) は同じではありません. しかし, \(p(A|B)\) を使って, \(p(B|A)\) を, あるいはその逆を求めていく方法があります.
それが ベイズの定理 なのです.