これ一本で二項分布の基礎をマスター!確率の計算、期待値および分散の計算。

二項分布のサムネ

確率の世界には、身近な現象をうまく説明してくれる便利なモデルがいくつもあります。

その中でも特に登場頻度が高いのが 二項分布 です。

「成功か失敗か」「当たりかハズレか」など、 2つの結果が出る試行を何度も繰り返すときに現れる確率の形です。

高校数学で学ぶ内容ですが、統計やデータ分析の基礎としてもとても重要です。

この記事では、 確率の計算方法、期待値・分散の求め方とその証明、さらに例題まで 二項分布の基礎を一本でしっかり身につけられるようにまとめました。

目次

二項分布とは

二項分布とは、「ベルヌーイ試行をn回行った時の、片方の事象の発生回数Xが従う分布」のことを言います。

ベルヌーイ試行とは、これら3つの条件を満たす試行のことを言います。

  • 試行の結果が2種類であること
  • 各試行が独立であること
  • 2種類の事象の発生確率は常に一定であること

ベルヌーイ試行では、一般に、2種類の結果のうちの一方を『成功』とし、その成功する回数をXとします。

ベルヌーイ試行の例としては、コイントスがあります。

例えば、コインを投げた時の結果は、表か裏かの2通りなのでベルヌーイ試行の条件を満たしています。

また、コインを投げて表が出るかどうかは、前のコイントスの結果に左右されることはないので(つまり、各試行は独立なので)、ベルヌーイ試行の条件を満たしています。

また、コインを投げて表が出る確率は常に1/2で、裏がでる確率も1/2で、常に一定なので、ベルヌーイ試行の条件を満たしています。

他にも、例えば、「サイコロを投げて出る目が1かどうか」というのも、この3つの条件を満たしているのでベルヌーイ試行です。

二項分布における確率変数は、片方の事象の発生回数Xで、その発生確率がpで、試行回数がn回の時、Xが従う分布はこのように表現されます。

Bは、二項分布(Binomial Distribution)の頭文字です。

例えば、コイントスを10回行い表が出る回数Xは、試行回数nが10成功確率pが1/2の二項分布に従います。

nは試行回数なので10pはコインを投げて表が出る確率なので1/2ですね。

Xがとる範囲は、「10回中表が一回も出ない0」から「10回中10回とも表が出る10」までですね。

そして、10回とも表(X=0)、10回とも裏(X=10)というのは、起こりにくいという感覚かと思いますが、確率も低い、という状況になっていますね。

Xの確率の計算方法を説明します。

まずはX=0の場合ですが、これは全てが裏である確率ですよね。

表が出る確率が1/2なら、裏が出る確率は1-1/2=1/2なので、確率は、裏の確率(1/2)の10乗ですね。

続いて、X=1の場合ですが、これは10回中1回が表で、9回が裏の確率なので、表の確率(1/2)の1乗×裏の確率(1/2)の9乗、さらに、10C1をかけます。

10C1をかける意味は、「10回中の何回目で表が出るのか?」という組み合わせがあるからです。

「1回目が表で2~10回目が裏の確率」は、この式で計算できます。

「2回目が表で他が裏の確率」「3回目が表で他が裏の確率」も同じ式で計算できますね。

1回表が出る場合というのは、1回目で表が出る場合~10回目で表が出る場合の、全部で10通りありますよね。

だから、10C1をかけるんです。

同じようにして、X=2の場合ですが、表の確率(1/2)の2乗×裏の確率(1/2)の8乗、これに10C2をかけます。

このようにして計算した結果をグラフで表すとこのようになるというわけです。

二項分布の期待値と分散

二項分布の期待値と分散は、この式で計算されます。

なぜこの式で計算できるのかは、比較的簡単に証明できます。

E[X]=npの証明

1回の試行の結果が、成功または失敗の2種類であるとします。

まずは、一回の試行での成功回数の期待値を考えます。

一回の試行で成功する回数は、0回か1回かですね。

成功する確率はpなので、1回の試行で1回成功する確率はpで、1回の試行で0回成功する確率は1-pですね。

期待値の定義は、「確率変数の実現値と、その実現確率の積の総和」(つまり、成功する回数に各確率をかけたものの総和)なので、この式を計算し、成功回数の期待値はpとなります。

次は、複数回の試行での成功回数の期待値を考えます。

1回目の試行で成功する回数をX1、2回目の試行で成功する回数をX2、n回目の試行で成功する回数をXnとします。

X1からXnは、1回の試行で成功する回数なので、期待値は、全てpとなりますね。※今ほど求めましたよね!

ここで、Xはn回の試行で成功する回数なので、この式が成立します。

例えば、1回目と2回目に成功してそのほかが全て失敗した場合は、n回の試行で成功する回数Xは2になるはずです。

これはつまり、X1X2での成功回数が1でその他では全て0の場合ということなので、X1からXnを全て足したXは確かに2になりますよね。

あたりまえのことですが、そのあたりまえのことを式で示すとこうなるということです。

ここで、確率変数の期待値には加法性という性質があります。

よって、Xの期待値は、X1からXnまでの期待値を全て足したものと等しくなるので、Xの期待値はnpになる、というわけです。

V[X]=np(1-p)の証明

同じく、1回の試行の結果が、成功または失敗の2種類であるとします。

まずは、一回の試行での成功回数の分散を考えます。

一回の試行で成功する回数は、0回か1回かですね。

成功する確率はpなので、1回の試行で1回成功する確率はpで、1回の試行で0回成功する確率は1-pですね。

先ほどの期待値を求める際と、同じところから考えはじめるわけですね。

分散の定義は、「確率変数の実現値と期待値の差の二乗と、その実現確率の積の総和」(つまり、成功する回数ひく期待値の二乗に各確率をかけたものの総和)なので、この式を計算し、成功回数の分散はp(1-p)となります。

次は、複数回の試行での成功回数の分散を考えます。

1回目の試行で成功する回数をX1、2回目の試行で成功する回数をX2、n回目の試行で成功する回数をXnとします。

X1からXnは、1回の試行で成功する回数なので、分散は、全てp(1-p)となりますね。※今ほど求めましたよね!

ここで、Xはn回の試行で成功する回数なので、この式が成立します。

ここで、確率変数の分散は、各確率変数が独立の時、加法性があります。

よって、Xの分散は、X1からXnまでの分散を全て足したものと等しくなるので、Xの分散はnp(1-p)になる、というわけです。

例題①

赤玉が2こ、白玉が8こ入った袋から1つ取り出して、色を調べてから戻すということを5回繰り返したとき、赤玉が出た回数をXとする。

(1) Xが従う分布は?

袋の中からボールをとるという試行をしたとき、その結果は赤か白の2種類ですね。

また、とったボールは元に戻すので、毎回、赤をひく確率と白をひく確率は一定ですし、前の試行の結果は次の試行の結果に影響を与えない、つまり独立ですね。

よって、この試行はベルヌーイ試行であるので、Xは二項分布に従います。

試行回数nが5、成功確率p(ここでは赤が出る確率)は2÷5=0.2ですね。これを記号で書くとこうなります。

(2) Xの期待値および分散は?

nが5、pが0.2なので、これを使って期待値と分散を計算すれば求まりますね。

(3) P(X=3)は?

5回中赤玉が3回、白玉が2回出る確率は、赤玉が出る確率(0.2)の3乗×白玉が出る確率(0.8)の2乗に、5C3(赤玉が何回目と何回目と何回目に出るかという組み合わせの数)をかけて求めます。

例題②

不良率1%の製造工程において、抜き取った製品100個の中に不良品が2個以上含まれている確率を求めよ。

1つ抜き取って良品か不良品か判断する、ということを100回繰り返したときの不良品の個数を議論する問題になりますので、不良品の個数が確率変数Xということになりますね。

製品を1つ抜き取った時、その製品は良品か不良品かという二択しかありません。

また、連続的に生産されている製品の中から抜き取った製品が良品か不良品かの確率は常に一定ですし、前に抜き取った製品が良品か不良品か、は、次に抜き取る製品が良品か不良品かには影響を与えません、つまり独立ですね。

よって、これはベルヌーイ試行であると考えることができるので、Xは二項分布に従います。

100回抜き取るので試行回数は100、不良品である確率は1%なので、不良品の個数Xが従う分布はB(100,0.01)ですね。

ここで、不良品が2個以上含まれる確率は、このように、不良品が2個含まれる確率から100個含まれる確率までを全て足したものになりますよね。

この計算、手計算ではとてもできませんよね。

そこで、「不良品が2個未満の確率を求めて、それを1からひく」という考え方で答えを導きます。

不良品が2個未満の確率は、良品が1つ含まれる確率と不良品が0こである確率を足して求めることができます。

よって、この計算をすれば答えが求まります。

まとめ

二項分布とは、結果が2種類で、その2種類の結果の発生確率が常に一定であるような試行を独立にn回行ったときに、片方の事象の発生回数が従う分布のことを言い、記号B(n, p)で示されます。

X=kである確率は、この式で計算されます。

二項分布の期待値と分散は、この式で計算されます。

この記事のYouTube動画はこちら

この記事を書いた人

データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事が役に立ったらシェアしてね
  • URLをコピーしました!
目次