『偏差値』の考え方を通して、正規分布の標準化の有用性の理解を深めよう。

偏差値のサムネ

偏差値は学力を測る指標の1つとしてよく知られていますが、その偏差値の計算には正規分布の標準化が利用されていることはご存知でしょうか?

一見すると特別な計算をしているように見える偏差値ですが、実際には 「点数を平均からの距離としてとらえ、それを共通の尺度に変換する」 という、とてもシンプルな考え方に基づいています。

この記事では、偏差値の仕組みを、図や例を使いながら直感的に理解できるように解説します。

偏差値は教育分野だけでなく、データ分析や統計的な比較にも応用できる考え方であり、 背景が異なる集団を同じ基準で評価する際に役立ちます。

高校数学で学ぶ「平均」「標準偏差」「ばらつき」などの知識だけで理解できる内容なので、統計を初めて学ぶ人や、数学の基礎を確認しながら進めたい人にも取り組みやすいテーマです。

この記事を読むと次のことがわかります。

  • 偏差値とは何か
  • 点数をそのまま比較できない理由
  • 偏差値の計算式の構造
  • 標準化との関係
  • 偏差値を使うメリット

統計検定・QC検定・データ分析の実務にも役立つ内容です。

目次

優秀さを評価するには?

Aさんは、期末テストで英語の勉強をいつもよりも頑張りました。

中間テストの英語の点数が70点だったのに対して、期末テストの英語の点数が65点だったとします。

勉強の成果が表れているでしょうか?

点数だけ見ると、期末テストのほうが5点下がっていますが、通常、テストの点数だけを比較することはしませんよね。

テストの問題が違うので、難易度がたまたま期末テストのほうが難しかった可能性がありますもんね。

テストの成績は、全体の中で自分の点数がどの程度の位置にあるのか?という考え方をするかと思います。

中間テストは100人中40位、期末テストは100人中20位だったとすると、

「期末テストのほうが優秀な成績であり、テスト勉強の成果が表れている」という風に考えることができますよね。

「全体の中で自分の点数がどの程度の位置にあるのか?」は、順位の他に『偏差値』でも知ることができます。

例えば、中間テストの偏差値は52、期末テストの偏差値は58だったとすると、期末テストのほうが優秀な成績であると評価することができますよね。

実は、この『偏差値』『上位何パーセントか?』というのは、テストの点数が正規分布していると仮定した際には、同じことを示しているんです。

つまり、『偏差値』がわかれば、自分が上位何パーセントなのかがわかるということです。

正規分布

正規分布とは、このような左右対称の釣鐘型の分布で、世の中の多くの事象は正規分布に従うことが分かっています。

テストの点数もその1つです。

テストの点数で考える場合、横軸がテストの点数で、縦軸は確率密度を示します。

確率密度とは、「その得点を取る人が、全体を100%とした時に何%くらいいるのか?」ということです。

山の頂点の部分が平均点で、このあたりの点数を取る人数が最も多く、平均点から点数が離れていくほど、人数はだんだん少なくなっていきます。

実感としても、平均点あたりに人が集中して、点数が極端に高い人や低い人は少ないですよね。

例えば、テストAとテストBの点数の分布がこうだったとしましょう。

テストAは、平均点が50点で、0点付近の人もいれば100点付近の人もいる、というテストの点数のばらつきが多い状況です。

テストBは、平均点は同じく50点ですが、平均点付近に人数が集中しており、平均点から大きく離れた点数の人はあまりいないような状況です。

この2つのテストで70点を得点したとします。

テストAで70点以上を得点した人数よりも、テストBで70点以上を得点した人数のほうが少ないことは明らかです。

ということは、テストBで70点を得点した時のほうが、テストAで70点を得点した時よりも、優秀な成績であると言うことができますよね。

ここで、このように、テストBの分布にテストAの分布が重なるようにテストAの分布を変換したときに、点数もこのように一緒に伸び縮みして、同じ70点でもテストBでの70点のほうが右にきますよね。

正規分布では中心から離れるほど発生確率が低くなっていくので、より右に位置している「テストBでの70点」のほうが、発生しにくい=得点するのが難しい=優秀ということですね。

このように、分布が重なるように変換することで、テストの点数の分布が異なる場合でも、テストの得点を同じ土俵で評価することができます。

この考え方で計算される指標が『偏差値』です。

正規分布を重ね合わせるには?

分布を重ね合わせるにはどうするかと言うと、平均をそろえるために分布をスライドして、ばらつきをそろえるために分布を伸び縮みさせます。

つまり、正規分布を変換するためには平均ばらつきの2つの要素が必要ということですね。

平均点は、全員の点数を足して、人数で割れば求まりますね。

では、点数のばらつきはどのように考えましょうか。

ばらつきとは「平均からどれだけずれているか?」ということなので、まずは各自の点数から平均点を引きます。

そして、それを二乗して、全員分足して人数で割ります。

このままだと、単位が点数の二乗になってしまっているので、平方根をとります。

このように計算した指標を「点数のばらつき」と考えます。

この式で計算される指標は、標準偏差と呼ばれる指標です。

この2つの要素、平均と標準偏差がわかればどんな正規分布でも「ある決まった正規分布」と同じ形に変換することができます。

「ある決まった正規分布」として定義されているのが、標準正規分布です。

標準正規分布とは、平均が0、標準偏差が1の正規分布です。

テストの点数がx点だったとします。xはもとの正規分布上での横軸の値になりますね。

まずは、平均0にするために、分布全体をスライドさせたいので、ここから平均μを引きます。

これで、平均値が0になりました。

そして、標準偏差1にするために、分布全体を伸び縮みさせたいので、これを標準偏差で割ります。

これで、標準偏差が1になりました。

この式で計算された値は、「任意の正規分布を標準正規分布に変換したとき、元の正規分布上での値xが標準正規分布上ではいくつに相当するのか?」を示しています。

この式で変換された値のことをzスコアと言い、この計算でzスコアを求めることを標準化と言います。

偏差値はこれをもとに計算されます。

偏差値の計算方法

偏差値は、平均点をとった時が50、そこから標準正規分布上で”1”プラス側にはなれた点数を取った時が60、”2”プラス側にはなれた点数を取った時が70、”3”プラス側にはなれた点数を取った時が80、逆に”1”マイナス側に離れた点数を取った時が40、”2”マイナス側に離れた点数を取った時が30、”3”マイナス側に離れた点数を取った時が20、という定義です。

+50というのは、標準正規分布上での値を一律50底上げすることで、平均点を取った時の偏差値を50にするという操作です。

×10というのは、標準正規分布上で”1”平均から離れると偏差値が10変動させるという操作です。

なぜこのような操作をするのかと言うと、標準正規分布上での値そのままだと、偏差値がマイナスになったり、1.1や1.8など小数点が出てくる形になり、わかりにくいですよね。

そこで、10倍してスケールを大きくして扱いやすいわかりやすい数字にし、さらに、50を足してマイナスにならないようにしているんです。

50を足しているのは、我々はよく物事を0から100で考えるため、真ん中が50というのが感覚的にわかりやすいからです。

偏差値の計算式における、50とか10とかには本質的な意味はなく、単なるわかりやすくするための操作にしかすぎず、本質的に意味があるのは、標準化の計算の部分であるわけですね。

標準化によって、標準正規分布上での値を求めて、それに10をかけて50を足して、わかりやすい数字に変換した結果の値が偏差値ということですね。

偏差値と発生確率の関係

さてここで、記事の冒頭で、『偏差値』と『上位何パーセントか?』というのは、テストの点数が正規分布していると仮定した際には、同じことを示していると説明しましたが、それがどういうことなのかを説明します。

こちらは、標準正規分布表というものです。

これには、標準正規分布における発生確率が全て記されています。

例えば、1よりも大きい値が発生する確率は、赤枠の部分を見ればわかります。

標準正規分布表の一番左の縦の数字は整数部分と小数点以下1桁目で、一番上の横の数字は小数点以下2桁目です。

このように、標準正規分布に変換すれば、標準正規分布表を使って全ての発生確率がわかります。

偏差値は、点数を標準化してから、×10して+50するという操作を行って計算されるのでしたね。

ということは、偏差値がわかる=標準正規分布上での値がわかるということなので、標準正規分布表と照らし合わせて、自分が上位何パーセントなのかがわかるわけです。

偏差値50は標準正規分布での0のことなので、確率は50%(上位50%、ちょうど真ん中の順位)です。

偏差値60は標準正規分布での1のことなので、確率は15.87%(上位15.87%の順位)です。

偏差値70は標準正規分布での2のことなので、確率は2.28%(上位2.28%の順位)です。

このように、偏差値は、正規分布の標準化を利用して計算される指標で、「全体の中で自分の点数がどの程度の位置にあるのかを、テストの難易度の影響であったり、テストの点数の分布の影響を受けずに判断できる指標」ということですね。

偏差値を扱う上での注意点

ここで、注意しなければいけないのは、母集団が異なる場合には、偏差値が変わるということです。

偏差値は、”その母集団の中で上位何パーセント”といったように、その母集団の中での相対的な位置を示しているわけなので、同じ学力であったとしても、母集団が変わると偏差値は変わるんです。

例えば、ある高校の3年生の数学のテストで80点だったとします。

3年生全体での平均点が60点、標準偏差が20点だったとすると、偏差値は60ですね。

理系クラスのみだと、平均点が70点、標準偏差が20点だったとすると、偏差値は55ですね。

このように、偏差値を計算する母集団が異なると、同じ学力であったとしても、偏差値の計算結果は異なるんです。

同じ理論で、高校の偏差値と大学の偏差値というのは偏差値を計算する母集団が異なるので、偏差値60の高校に通っているから、偏差値60の大学に合格できる学力である、とはなりません。

高校の偏差値を計算する母集団は、高校進学を目指す受験生であるのに対して、大学の偏差値を計算する母集団は、大学進学を目指す受験生であり、受験生のレベルが異なるため、同じ偏差値60だったとしても、その難しさは異なるんです。

また、自分の高校内のテストで偏差値が60だったとして、偏差値60の大学に合格できる学力がある、ともならないです。

自分の高校内でのテストでの偏差値でわかるのは、あくまでも、自分の高校内での自分の位置なので、大学の偏差値と直接比較することはできないんです。

最初の例のように、同じ学校の同じ学年の生徒が受けた中間テストと期末テストであれば、母集団は、学年全体で同じなので、中間テストの偏差値と期末テストの偏差値を比較して、 期末テストのテスト勉強を頑張った成果があったかどうかを評価するというのは、有効な方法であると言えますね。

偏差値は0以下になる?100以上になる?

最後に、偏差値が取りうる値について説明します。

テストの点数は、通常0点から100点までの間の値をとりますが、偏差値はどうなのでしょうか?

偏差値は0を下回ることがあるのでしょうか?また100を上回ることはあるのでしょうか?

答えはYes、ありえます。

偏差値の計算は、標準正規分布上での値に10をかけて50を足して計算するのでしたよね。

つまり、偏差値が0を下回る場合というのは、標準正規分布上での値が-5を下回る時で、偏差値が100を上回る場合というのは、標準正規分布上での値が5を上回る時ということですね。

-5を下回る確率、および、5を上回る確率というのは、ともに2.87×10の-7乗という低い確率ですが0%ではありません。

ということは、偏差値が0を下回ることも、100を上回ることも、可能性としてはあるということですね。

ただし、これは、1000万人中の上位3名が偏差値100以上、1000万人中の下位3名が偏差値0以下であり、かなり低い確率です。

テストの点数は満点より上の点数になることはなく、0点より下の点数になることはないので、例えば、偏差値100となるには、平均点が30点とかのテストで、まわりが10点から50点くらいの点数をとっている中で、自分だけが100点をとる、といったシチュエーションです。

通常、テスト問題は、ある程度テストの点数にばらつきが出るように作成されると思いますので、偏差値がマイナスになったり、100を超えたりといったケースは、極めて稀で、普通は起こりえないと思います。

しかし、理論上は、偏差値が0以下になることも、100以上になることもありえます。

まとめ

偏差値は、テストを受けた集団の中で自分の成績がどれくらいの位置にあるかを表す指標です。

偏差値の計算式はこうです。

自分の得点を標準化して、標準正規分布上ではいくつに相当するのかを計算し、それを10倍して50を足して計算します。

平均点を取った時の偏差値が50となり、そこから1σ離れるごとに偏差値は±10されるということです。

注意点としては、偏差値は学力を示す絶対的な指標ではないということです。

偏差値で評価できるのは、あくまでも、テストを受けた集団の中での自分の成績の位置であり、同じ学力であったとしても、母集団が異なれば偏差値も変わります。

母集団の違いが原因で、偏差値が上がったり下がったりすることもあるので、偏差値の数字だけを追いかけて、一喜一憂することなく、偏差値の性質をよく理解したうえで、学力を測る1つの指標として、うまく活用していけば良いのではないかと思います。

この記事のYouTube動画はこちら

この記事を書いた人

データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事が役に立ったらシェアしてね
  • URLをコピーしました!
目次