Q-Qプロットとは?|ヒストグラムよりも優れた分布の視覚的な確認方法

QQプロットのサムネ

データが正規分布に従っているかどうかは、多くの統計手法を使う上で欠かせない前提です。

標本データの分布の視覚的なチェック法で有名なのはヒストグラムですが、ヒストグラムでは各データ区間の度数を集計してグラフ化するため情報が損失してしまいます。

例えば、「1.1と1.2が同じ”1.0~2.0″の区間に集計されてしまう。」というのが情報損失のイメージです。

Q-Qプロットの目的も、分布の視覚的なチェックなのですが、情報損失がゼロであるという点でヒストグラムよりも優れています。

この記事を読むと次のことがわかります。

  • Q-Qプロットが分布の違いをどのように可視化しているか
  • 仕組み(2つの分布の分位を比較する)
  • 任意の分布で使える(正規分布だけに限らない)
  • Q-Qプロットの読み取り方

Q-Qプロットは読み解きが難しいですが、情報量が多く有能なので、使いこなしたいツールの1つです!

目次

Q-Qプロットとは

Q-Qプロットでは、2つの分布が似ているかどうかがを視覚的に確認することができます。

QQプロット

判断基準は、直線になっているかどうかです。

直線になっていれば、2つの分布が似ている、ということを示しています。

Q-Qプロットがよく使われるのは、あるデータが正規分布に従っているかどうか?を確認したいという場面です。

Q-Qプロットが直線の場合、あるデータは正規分布に従っており、直線でない場合には、あるデータは正規分布に従っていない、という視覚的な判断ができます。

Q-QプロットのQ-QとはQuantile-Quantileのことです。

Quantileとは分位点のことです。

分位点とは、データの相対的位置をみるのに用いる数値のことです。

よく使われるのは四分位点です。

例えば、これらのデータの四分位点を求めてみましょう。

四分位数の説明のためのデータ

まずはデータを小さい順に並び変え、そして、それを四等分したときの、その分割する位置の値が四分位点です。

データを四等分するためには、仕切りが3つ必要なので、四分位点は3つあることになりますね。

四分位数の説明

三つの四分位点は、小さい順に『第1四分位点(Q1)』『第2四分位点(Q2)』『第3四分位点(Q3)』と言います。

五分位点は、五等分する位置にある四つの値のことで、十分位点は、十等分する位置にある九つの値のことです。

このように、データを小さい順に並べ替えた上で、等分した位置にある値分位点です。

Q-QプロットのQは片方の分布の分位点、もう一つのQはもう片方の分布の分位点のことで、2つの分布の分位点を散布図上にプロットして、分布の類似具合を確認するのがQ-Qプロットです。

QQプロット

Q-Qプロットの仕組み

例えば、このような正規分布があったとします。

正規分布

ここからデータを9つとってくることを考えましょう。

平均付近の値が選ばれる確率が最も高く、平均から離れた値が選ばれる確率は低いですよね。

ただし、いくら平均付近が選ばれやすいからと言って、9つのデータ全てが平均付近にはなりませんよね。

正規分布をはじめとした、確率密度関数の全体の面積は1です。

この面積を10等分してみましょう。9つの仕切りが得られますね。

標準正規分布の10分位点

これが、正規分布の10分位点です。

この9つのしきりによって面積が10等分されているので、各仕切り間の面積は、全てが0.1ですね。

ここで、実際に9つとってきたデータがこうだったとします。

10このデータ

これを小さい順に並べるとこうなります。

小さい順に並び替えた10このデータ

さて、みえてきましたね!

正規分布の10分位点と、実際に得られた9つのデータの10分位点(データが9こなので、10分位数=小さい順に並べた値に相当します)は、理論的には同じ値をとるはずですよね。

同じ値をとっているなら、散布図上にプロットしたときに、直線関係が得られるはずです。

正規分布の理論分位点と標本データの分位点の対応

上下の値が1セットで、合計9点が散布図上にプロットされることになります。

実際にプロットした結果がこのように直線関係だった場合、正規分布の理論的な10分位点と、実際のデータの10分位点に差がないことを意味しますので、「実際のデータは正規分布に似ている」ということが言えます。

逆に直線関係ではなかった場合は、「実際のデータは正規分布と似ていない」ということが言えます。

その場合、「実際のデータは正規分布ではない別の分布に従っていそうだ」と考えることができますね。

このように、データが正規分布に似ているかどうか判断する目的で、片方の軸を標本データの分位点、もう片方の軸を正規分布の分位点として描いたQ-Qプロットのことを、正規Q-Qプロットと言います。

正規Q-Qプロットでは、理論分布として標準正規分布の分位点を使うのが一般的です。

どんな正規分布であっても、標準化すれば標準正規分布と同じ形になりますよね。

そのため、実際のデータを標準化して、標準正規分布の分位数と比較するのが慣例になっています。

実際のデータを標準化せずに、任意の正規分布の分位数と比較する方法でも問題ありません。

軸のレンジが変わるだけで、散布図の見た目は同じになるので、同じ結果になります。

理論分布からの分位点の選択

ここで、さきほどは、正規分布の分位点を、確率分布の面積を10等分する9つの値としましたが、理論分布からの分位点の選択に関しては、他の手法も存在します。

比較対象の標本データのサイズがnn(つまりデータの数がnnこ)だった場合、各数値と理論分布の分位点を1対1の形でプロットするために、理論分布のnnこの分位点を求めることになりますよね。

nnこの分位点を第i分位点と表現することにします。

この時、分位点の求め方にはいくつかの方法が提案されています。

分位点の選択方法いろいろ

左に示したのは、先ほど説明した、面積を等分して求めるパターンです。

先ほどの例では、標本データのサイズが9だったので、正規分布の面積を10等分する9つの分位点を求めましたよね。

面積をnn+1等分するので、1つの区画の面積は1n+1{\frac{1}{n+1}}です。

第i分位点は、面積(-∞から𝒙\boldsymbol{x}までの積分値)が𝒊𝒏+1\boldsymbol{\frac{i}{n+1}}となる𝒙\boldsymbol{x}の値ということになりますね。

他にも、右に示した考え方もあります。

標本データのサイズがnnだった場合は、正規分布の面積をnn等分します。

この時、両端の部分については、足して1として考えます。

つまり、1つの区画の面積は1n{\frac{1}{n}}で、両端のみ0.5n{\frac{0.5}{n}}です。

そして、第i分位点は、面積(-∞から𝒙\boldsymbol{x}までの積分値)が𝒊0.5𝒏\boldsymbol{\frac{i-0.5}{n}}となる𝒙\boldsymbol{x}の値ということになりますね。

左の例では面積を10等分しているので、全ての区画の面積は等しいですが、右の例では両端をまとめて1区画として考えて面積を9等分しているので、両端以外の区画の面積は等しく、両端は他の区画の面積の半分になっているわけですね。

これらの他にも分位点の選択方法は複数提案されていますが、よく使われているのはこの2つです。

どの方法で分位点を選択しても、nnが大きい場合には大きな違いは見られません。

Q-Qプロットの使い道

標本データがどんな分布に従っているかの確認

Q-Qプロットは、データが正規分布に従っているかどうかを確認する目的で使われることが多いのですが、正規分布ではなく、他の分布に従っているかどうかを確認することもできます。

もし、あるデータが指数分布に従っているかどうかを確認したい場合には、片方の軸には指数分布の理論分位点をとり、もう片方の軸には標本データの分位点をプロットすれば良いですね。

指数分布を理論分布とした時のQQプロットのイメージ図

また、もし、あるデータがワイブル分布に従っているかどうかを確認したい場合には、片方の軸にはワイブル分布の理論分位点をとり、もう片方の軸には標本データの分位点をプロットすれば良いですね。

ワイブル分布を理論分布とした時のQQプロットのイメージ図

そして、同じように直線になっているかどうかで、 両者の分布が似ているかどうかを確認することができます。

2群の標本が似ているかどうかの確認

ある標本データともう一つの標本データの分布が似ているかどうかどうかを確認する目的で使用することもできます。

2つの標本が似ているかどうかの確認

ある標本データを小さい順に並び替えて、もう一つの標本データも小さい順にならび変えて、対応する順番のデータをこのようにプロットしていきます。

これらのデータはサンプルサイズが9なので、1つ1つの値がデータの10分位点と考えられるので、小さい順の値のセットは、同じ分位点のセットと考えることができます。

このセットを散布図上にプロットしていけば良いということですね。

そして、同じように直線になっているかどうかで分布が似ているかどうかを確認することができます。

ただし、この場合わかるのは、「ある標本データともう一つの標本データの分布が似ているかどうか」なので、これらの標本データがどんな分布に従っているのかまではわかりません。

この例のように2つの標本データのサンプルサイズが同じ場合は、小さい順のセットがつくれますが、サンプルサイズが異なる場合は、対応する値を推定して補完する必要があります。

その場合のQ-Qプロットの作成は少々難しくなりますが、サンプルサイズが異なる場合でも、Q-Qプロットを作成することは可能です。

まとめ

この記事では、Q-Qプロットについて、基礎から解説しました。

  • Q-Qプロットは、データが特定の分布(多くは正規分布)に従っているかを視覚的に確認するためのグラフ
  • 理論分布の分位点と、実データの分位点を比較して作られる
  • 点が直線上に並ぶほど、データはその分布に従っていると判断できる

Q-Qプロットは、読み解きが難しいですが、仕組みがわかれば、読み取れる情報が非常に多いので、データを分析するにあたり、ぜひ使いこなしたいツールの1つです。

この記事を書いた人

データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事が役に立ったらシェアしてね
  • URLをコピーしました!
目次