“確率の見方”が変わる!? ベイズの定理をやさしく解説します。

ベイズの定理のサムネ

ベイズの定理というと、「条件付き確率に関する公式でしょ?」そんなイメージを持ちがちなのではないかと思います。

実は、ベイズの定理の計算式が表しているのは、単なる“確率の計算手順”ではありません。

ベイズの定理はなぜこれほどまでに注目され、重宝されているのか?

この記事を読めば、その理由がわかります!

目次

ベイズの定理とは

ベイズの定理とは、事前確率と事後確率の関係を表すこの式のことを指します。

と言われても、ちょっとピンとこないですよね。

なので、具体的な事例を使って“ベイズの定理が何を計算しているのか”を直感的に理解していきましょう。

ベイズの定理の意味

袋① or 袋②を選び、1つ取り出した玉が赤玉だったとき、その袋が袋①である確率は?

袋①②ともに10この玉が入っており、袋①は、7こが赤玉、3こが白玉で、袋②は、1こが赤玉、9こが白玉。

袋①と袋②は外見は全く同じで見分けがつかない。

どちらかの袋を選んで、1つ玉を取り出して、その玉が赤玉だった。という状況です。

直感的には、「袋①なんじゃないかな?」と思いますよね?

これを数学的に考えるには、取り出した玉が赤だったときに、その袋が袋①である確率と、袋②である確率のどちらが高いか?ということを考えればよさそうですよね。

ということで、選んだ袋が袋①である確率を考えてみましょう!

袋①と袋②は、見た目では見分けがつかないわけなので、袋①を選んでいる確率は0.5とおくのが自然ですよね。

袋①を選んだという条件の下での、赤玉が出る確率は0.7、白玉が出る確率は0.3ですよね。

袋②を選んだという条件の下での、赤玉が出る確率は0.1、白玉が出る確率は0.9ですよね。

ここまでで、図中の→の部分の数値(確率)が全部埋まりました。

袋①を選んで、かつ、赤玉を引く確率は、0.5×0.7=0.35、白玉をひく確率は、0.5×0.3=0.15となります。

この2つを足すと 0.35+0.15=0.5 になり、これは「袋①を選んでいる確率0.5」に対応しています。

袋②を選んで、かつ、赤玉を引く確率は、0.5×0.1=0.05、白玉をひく確率は、0.5×0.9=0.45となります。

この2つを足すと 0.05+0.45=0.5 になり、これは「袋②を選んでいる確率0.5」に対応しています。

つまり、この4つを全部足すと1になり、「すべての可能性を4つに分解した」状態になっているわけです。

さて、今、取り出した玉が赤玉だったという状況です。

ということは、この4つの可能性のうち、この赤枠の2つのどちらかに絞られた、ということになります。

今求めたいのは、「赤玉が出たという条件のもとで、袋①を選んでいた確率」です。

つまり、赤玉が出たというケースの中で、どれだけの割合が“袋①だったケース”なのかを見ればよいわけです。

赤玉が出る確率は この赤枠の2つを足せばよく、0.35+0.05です。

そのうち袋①を選んでいるケースは 0.35 です。

よって、0.35÷(0.35+0.05)=0.875となります。

これは、袋①を選んでいる確率が、何も情報がない状態では0.5だったものが、「赤玉が出た」という情報を得たことで、0.875に更新されたということです。

2回連続で赤玉が出た時、その袋が袋①である確率は?

ここで、さきほど選んだ玉を袋に戻して、再度1つ玉を取り出したら、また赤玉が出たとします。

この時、どういう考え方をするのかと言うと、1回目の結果を持って、袋①である確率は0.5から0.875に更新されているので、これをスタートにします。

そして、さきほどと全く同じ計算をします。

袋①を選んでいる確率は 0.875、袋②を選んでいる確率は 0.125 からスタートするわけですね。

選んだ玉は袋に戻しているので、袋①or②を選んだ条件での赤玉と白玉が出る確率は、1回目と全く同じになります。

袋①を選んで、かつ、1回目が赤玉で2回目も赤玉を引く確率は、0.875×0.7=0.6125、1回目は赤玉で2回目は白玉を引く確率は、0.875×0.3=0.2625となります。

この2つを足すと 0.875 になり、これは「袋①を選んでいる確率」に対応しています。

袋②を選んで、かつ、1回目が赤玉で2回目も赤玉を引く確率は、0.125×0.1=0.0125、1回目は赤玉で2回目は白玉を引く確率は、0.125×0.9=0.1125となります。

この2つを足すと 0.125になり、これは「袋②を選んでいる確率」に対応しています。

これで、先ほどと同じように「すべての可能性を4つに分解」できたわけです。

さて、今回は2回目も赤玉が出たという状況です。

ということは、この4つのうち、この2つのどちらかに絞られます。

求めたいのは、「2回目も赤玉が出たという条件のもとで、袋①を選んでいた確率」です。

赤玉が出る確率は、この赤枠の2つを足せばよく、0.6125+0.0125です。

そのうち袋①を選んでいるケースは 0.6125 です。

よって、0.6125÷(0.6125+0.1125)=0.98となります。

つまり、袋①を選んでいる確率は、2回連続で赤玉が出たことで、0.875から0.98 にさらに更新されたというわけです。

何も情報がない状態では、袋①を選んだ確率は0.5だったものが、「袋から玉を1つ取り出したら、それが赤玉だった」という情報を得たことで、0.875に更新され、「もう一回玉を1つ取り出したら、また赤玉だった」という情報を得たことで、0.98にさらに更新されたわけですね。

ここで、この2つの計算式を見比べてみましょう。

どちらも、袋①を選んでいる確率に、袋①という条件のもとで赤玉をひく確率をかけて、赤玉が出る確率で割っていますよね。

このように、まったく同じ構造で表せるというところが、ベイズの定理のポイントなんです。

つまり、事前の予想を、観測されたデータによって更新するという操作を、何回繰り返しても同じ形で計算できるようになっているわけです。

さて、ここまでの話を聞いて、事後確率と事前確率がそれぞれどれなのか、想像がつきますよね?

更新される前の袋①を選んでいる確率が事前確率で、更新された後の袋①を選んでいる確率が事後確率です。

もし、3回目も赤だったとしたら、0.98が事前確率になって、また同じ形で計算して更新された確率が事後確率になるわけです。

この式を詳しくみていきましょう。

事象Aを「袋①を選ぶ」、事象Bを「赤玉が出る」としたとき、求めたいのは、赤玉が出たという条件のもとでの袋①である確率、つまりP(A|B)です。

袋①を選んでいる確率P(A)袋①という条件のもとで赤玉が出る確率P(B|A)、そして赤玉が出る確率P(B)です。

すると、この計算式はこのような形になっていて、これはまさに最初に示したベイズの定理そのものだとわかります。

つまり、ベイズの定理は、単なる計算式ではなく、事前の予想を“観測データ”によって更新して、より確からしい方向へ導いていくための枠組みであるわけです。

ベイズの定理の価値

さて、ベイズの定理は「事前の予想を“観測データ”によって更新して、より確からしい方向へ導いていくための枠組み」であるわけですが、その本質的な価値はどこにあるのでしょうか?さまざまな場面で重宝されているのはなぜでしょうか?

結果から原因を推測できる

その理由の1つに、結果から原因を推測できることがあります。

そもそも私たちが知りたいことの多くは「原因」です。

先ほどの例では、赤玉が出やすい袋①と、赤玉がでにくい袋②がある、という状況で、赤玉が出やすい袋①を選んだから赤玉が出たわけです。

つまり、「赤玉が出た」は結果で、「袋①を選んだ」は原因、という構造になっており、「赤玉が出た」という結果から、どちらの袋を選んだのか?と言う原因を推測することをやっていたわけです。

この“結果から原因を推測する”という構造は、日常のあらゆる場面で頻繁に登場します。

例えば、スマホの充電が急に減ったら、アプリの暴走か?バッテリー劣化か?と原因を考えますよね。
高熱、倦怠感、頭痛、関節痛といった症状があれば、インフルエンザかな?と推測したりもしますよね。

このように現実の多くの問題は、「結果は観測できるけれど、原因は直接見えない」という構造になっていることが多いです。

このような、観測できる結果から見えない原因を推測する場面で、ベイズの定理がとても役に立ちます。

情報が入るたびに正しい方向に補正できる

そしてもう1つ重要なのが、情報が入るたびに推測を補正できるという点です。

さきほどの袋の例、何も情報がない状態では、選んだ袋が袋①である確率は、0.5と置くのが自然ですが、仮に、最初に「袋①である確率は0.1」と仮定していたとしましょう。

つまり、ほとんど袋②だろう、と考えてスタートしたとします。

1回目に赤が出て、2回目も赤が出て、3回目も赤が出た場合、袋①を選んだ確率はこのように更新されていきます。

最初に、袋①である確率は0.1、と大きく偏った仮定を置いていたとしても、赤が2回連続で出るという強い証拠が入ると、一気に 0.84まで跳ね上がり、さらに赤が3回連続で出るという、より強い証拠が入ると、袋①である確率は 0.97にまで上がり、「もうほぼ袋①だろう」というところまで一気に修正されます。

私たちは、状況を完全には把握できないまま、とりあえず「こんな感じかな」と仮の前提を置いて考え始めることが多いですよね。

その前提が正しいとは限らないし、時には大きく外れていることもあるでしょう。

それでも、ベイズの定理を使えば、実際の観測結果が入ってくるたびに、その仮定をより正しい方向へ更新できます。

繰り返しになりますが、私たちは普段、結果から原因を推測したり、不確実な状態から考え始めたりすることがとても多いですよね。

そして、この2つの状況に、ベイズの定理は驚くほどよくフィットします。

結果から原因を推測できる情報が入るたびに、正しい方向に補正できる、だから、ベイズの定理は現実の問題と相性がよく、さまざまな場面で重宝されているんです。

まとめ

ベイズの定理とは、事前確率と事後確率の関係を表すこの式のことです。

これは、予想を“観測データ”によって更新して、より確からしい方向へ導いていくための枠組みです。

そして、この仕組みは現実の問題によくフィットするため、さまざまな場面で重宝されています。

この記事のYouTube動画はこちら

この記事を書いた人

データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事が役に立ったらシェアしてね
  • URLをコピーしました!
目次