【正規分布とは?】平均と分散で形が決まる確率分布の基礎|性質・特徴・確率の考え方をまとめる

正規分布のサムネ

正規分布は、平均を中心に左右対称の“釣鐘型”の形をした確率分布です。

名前だけ聞くと難しそうに感じますが、実際には 「平均と分散という2つのパラメータで形が決まる」 という、とてもシンプルな考え方に基づいています。

この記事では、正規分布の特徴や確率密度の考え方、標準正規分布への変換(標準化)を、図解を使って直感的に理解できるように解説します。

特に、正規分布の理解で重要になるのが 「標準化」 です。

どんな正規分布も 1 つの共通の形に変換できるため、確率計算が一気にシンプルになります。

正規分布は統計学の基礎として多くの手法の前提となっており、品質管理、データ分析、自然現象のモデリングなど幅広い場面で使われます。

正規分布は高校数学で扱う基本的な確率分布で、理解に必要な前提知識も「平均」や「分散」などの基礎的なものなので、初学者でも無理なく学び進められるテーマです。

この記事を読むと次のことがわかります。

  • 正規分布とは何か
  • 平均と分散が形をどう決めるか
  • 確率密度と面積の考え方
  • 標準正規分布と標準化の意味
  • 例題を通した確率計算の流れ

統計検定・QC検定・データ分析の実務にも役立つ内容です。

目次

正規分布とは

正規分布は、このような釣鐘型の分布をしています。

正規分布

横軸の確率変数とは、例えば長さや重さなど計量できる変数をイメージしてください。

縦軸が確率ではなく確率密度なのは、計量値は連続的な変数であるため、ある特定の値の発生確率は求められないからです。

例えば、重さが1である確率は計算できません。

なぜなら、重さが1.0001や重さが1.00001であっても、それは重さが1ではないためです。

つまり、正規分布で知ることができるのは、ある特定の値の発生確率ではなく、ある範囲の発生確率です。

正規分布が重要なのは、統計学では、よく正規分布を前提にするからです。

つまり、統計学を理解する上で、正規分布の性質の理解が重要であるということです。

製造工場において、ある値を狙ってものづくりをすると、その出来栄えは正規分布に従うことがわかっています。

ということは、製造工場のデータは統計的に分析できるということです。

このため、製造工場においては統計的データ分析技術が必須となっています。

正規分布の性質

正規分布には、次に示す2つの重要な性質があります。

平均と分散の2つがわかれば、分布が一意に決まる

正規分布は、平均分散の2つがわかれば、分布が一意に決まります。

だから、どのような分布であるかを示す時には、平均と分散の2つの数値で表現します。

例えば、N(1,3) こんなかんじです。

Nは、正規分布 “NormalDistribution” の頭文字で、カッコ内の最初の数字が平均、2つ目の数字が分散です。

つまりこれは、平均1、分散3の正規分布を示しているわけですね。

平均が異なる場合、分布は左右に動きます

平均の大小による正規分布の形状の違い

分散が異なる場合、分布が伸び縮みします

分散の大小による正規分布の形状の違い

平均と分散が異なる場合に、分布がどのように異なるのかのイメージを持っておくことは非常に重要です。

これをイメージできれば、様々な統計手法を取り扱う際の理解の腹落ち具合に違いが出ますよ!

全ての正規分布は標準正規分布に変換できる

全ての正規分布は標準正規分布に変換できます。

標準正規分布とは、”平均0、分散1の正規分布” のことです。

標準正規分布に変換できると何が嬉しいのでしょうか?

標準正規分布においては、確率変数と確率密度の関係を全て計算してリスト化した標準正規分布表というものが存在しています。

標準正規分布は、こんなやつです。

標準正規分布表

だから、正規分布を標準正規分布に変換してから、標準正規分布表を使用することで、どんな発生確率でもわかってしまうんです。

どんな正規分布でも、標準正規分布に変換するとぴったりと重なるというのは、とても面白いですよね!

例題

確率変数XがN(1,4)に従う時、P(2≦X≦3)を求めよ

これは、確率変数Xが平均1,分散4の正規分布に従う時、Xが2から3の範囲内の発生確率を求めよということです。

これを図で示すと、こういうことです。赤の部分の面積が答えになります。

N(1,4)におけるP(2≦X≦3)の領域

発生確率を求めたいときには、まずは、全ての発生確率があらかじめ計算されている標準正規分布に変換します。

標準正規分布への変換のことを標準化と言いますので覚えておきましょう!

この式に当てはめることで標準化できます。

標準化の式

今回は、μには1、σには4の平方根である2が入ります。

x=2をこの式で変換すると、z=0.5になります。

x=3をこの式で変換すると、z=1になります。

つまり、正規分布を左右の移動と伸び縮みで標準正規分布の形にフィットさせた時に、元の正規分布での2と3は、変換後の標準正規分布の0.5と1に対応するということです。

元の正規分布も標準正規分布も、面積(全区間の積分値)は1なので、元の正規分布の赤の部分の面積と標準正規分布の赤の部分の面積は等しくなります

ここまで出来れば、あとは標準正規分布表から、𝑷(𝟎.𝟓≦𝒁)と 𝑷(𝟏≦𝒁) を読み取り、その差を計算すれば、赤い部分の面積が求まります。

𝑷(𝟎.𝟓𝒁)𝑷(𝟏𝒁)=0.3085380.158655=0.14988𝑷(𝟎.𝟓≦𝒁)− 𝑷(𝟏≦𝒁)= 0.308538− 0.158655 = 0.14988

まとめ

この記事では、正規分布の基本的な考え方と、 平均と分散という2つのパラメータで分布の形が決まる仕組みを解説しました。

  • 正規分布は平均を中心に左右対称の釣鐘型の分布
  • 連続分布なので確率は「面積」で考える
  • 平均と分散が位置と広がりを決める
  • 標準化によってどんな正規分布も標準正規分布に変換できる
  • 標準正規分布表を使って確率を求めることができる

正規分布は多くの統計手法の前提となる重要な分布であり、その仕組みを理解しておくことで、確率の考え方がよりクリアになり、統計解析全体の理解がスムーズに進むようになります。

この記事を書いた人

データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事が役に立ったらシェアしてね
  • URLをコピーしました!
目次