なぜ大事?分布の王様『正規分布』。

統計学を勉強する上での基礎中の基礎である正規分布についてわかりやすく解説します。

もし、公式に数字を当てはめて、型通りになんとなく問題を解いている方がいらっしゃったなら、この記事を読めば、本質を理解した上で、何を計算しているのかをイメージしながら解答できるレベルにステップアップできますよ!

目次

正規分布とは

正規分布は、このような釣鐘型の分布をしています。

横軸の確率変数とは、例えば長さや重さなど計量できる変数をイメージしてください。

縦軸が確率ではなく確率密度なのは、計量値は連続的な変数であるため、ある特定の値の発生確率は求められないからです。

例えば、重さが1である確率は計算できません。

なぜなら、重さが1.0001や重さが1.00001であっても、それは重さが1ではないためです。

つまり、正規分布で知ることができるのは、ある特定の値の発生確率ではなく、ある範囲の発生確率です。

正規分布が重要なのは、統計学では、よく正規分布を前提にするからです。

つまり、統計学を理解する上で、正規分布の性質の理解が重要であるということです。

製造工場において、ある値を狙ってものづくりをすると、その出来栄えは正規分布に従うことがわかっています。

ということは、製造工場のデータは統計的に分析できるということです。

このため、製造工場においては統計的データ分析技術が必須となっています。

正規分布の性質

正規分布には、次に示す2つの重要な性質があります。

平均と分散の2つがわかれば、分布が一意に決まる

正規分布は、平均分散の2つがわかれば、分布が一意に決まります。

だから、どのような分布であるかを示す時には、平均と分散の2つの数値で表現します。

例えば、N(1,3) こんなかんじです。

Nは、正規分布 “NormalDistribution” の頭文字で、カッコ内の最初の数字が平均、2つ目の数字が分散です。

つまりこれは、平均1、分散3の正規分布を示しているわけですね。

平均が異なる場合、分布は左右に動きます

分散が異なる場合、分布が伸び縮みします

平均と分散が異なる場合に、分布がどのように異なるのかのイメージを持っておくことは非常に重要です。

これをイメージできれば、様々な統計手法を取り扱う際の理解の腹落ち具合に違いが出ますよ!

全ての正規分布は標準正規分布に変換できる

全ての正規分布は標準正規分布に変換できます。

標準正規分布とは、”平均0、分散1の正規分布” のことです。

標準正規分布に変換できると何が嬉しいのでしょうか?

標準正規分布においては、確率変数と確率密度の関係を全て計算してリスト化した標準正規分布表というものが存在しています。

標準正規分布は、こんなやつです。

だから、正規分布を標準正規分布に変換してから、標準正規分布表を使用することで、どんな発生確率でもわかってしまうんです。

どんな正規分布でも、標準正規分布に変換するとぴったりと重なるというのは、とても面白いですよね!

例題

確率変数XがN(1,4)に従う時、P(2≦X≦3)を求めよ

これは、確率変数Xが平均1,分散4の正規分布に従う時、Xが2から3の範囲内の発生確率を求めよということです。

これを図で示すと、こういうことです。赤の部分の面積が答えになります。

発生確率を求めたいときには、まずは、全ての発生確率があらかじめ計算されている標準正規分布に変換します。

標準正規分布への変換のことを標準化と言いますので覚えておきましょう!

この式に当てはめることで標準化できます。

今回は、μには1、σには4の平方根である2が入ります。

   x=2をこの式で変換すると、z=0.5になります。

   x=3をこの式で変換すると、z=1になります。

つまり、正規分布を左右の移動と伸び縮みで標準正規分布の形にフィットさせた時に、元の正規分布での2と3は、変換後の標準正規分布の0.5と1に対応するということです。

元の正規分布も標準正規分布も、面積(全区間の積分値)は1なので、元の正規分布の赤の部分の面積と標準正規分布の赤の部分の面積は等しくなります

ここまで出来れば、あとは標準正規分布表から、𝑷(𝟎.𝟓≦𝒁)と 𝑷(𝟏≦𝒁) を読み取り、その差を計算すれば、赤い部分の面積が求まります。

𝑷(𝟎.𝟓𝒁)𝑷(𝟏𝒁)=0.3085380.158655=0.14988𝑷(𝟎.𝟓≦𝒁)− 𝑷(𝟏≦𝒁)= 0.308538− 0.158655 = 0.14988

まとめ

正規分布は、平均分散で分布が決まるという性質と、標準正規分布に変換できるという性質があります。

標準正規分布においては、確率変数と確率密度の関係が全てわかっています。

よって、全ての正規分布は、標準化してから標準正規分布表を参照すれば、発生確率がわかり、事象のおこりやすさを数値で示すことができます。

*****************この記事のYouTube動画はこちら*****************

目次