データが正規分布に従っているかどうかは、多くの統計手法を使う上で欠かせない前提です。
標本データの分布の視覚的なチェック法で有名なのはヒストグラムですが、ヒストグラムでは各データ区間の度数を集計してグラフ化するため情報が損失してしまいます。
Q-Qプロットの目的も、分布の視覚的なチェックなのですが、情報損失がゼロであるという点でヒストグラムよりも優れています。
この記事を読むと次のことがわかります。
- Q-Qプロットが分布の違いをどのように可視化しているか
- 仕組み(2つの分布の分位を比較する)
- 任意の分布で使える(正規分布だけに限らない)
- Q-Qプロットの読み取り方
Q-Qプロットとは
Q-Qプロットでは、2つの分布が似ているかどうかがを視覚的に確認することができます。

判断基準は、直線になっているかどうかです。
直線になっていれば、2つの分布が似ている、ということを示しています。
Q-Qプロットがよく使われるのは、あるデータが正規分布に従っているかどうか?を確認したいという場面です。
Q-Qプロットが直線の場合、あるデータは正規分布に従っており、直線でない場合には、あるデータは正規分布に従っていない、という視覚的な判断ができます。
Q-QプロットのQ-QとはQuantile-Quantileのことです。
Quantileとは分位点のことです。
分位点とは、データの相対的位置をみるのに用いる数値のことです。
よく使われるのは四分位点です。
例えば、これらのデータの四分位点を求めてみましょう。

まずはデータを小さい順に並び変え、そして、それを四等分したときの、その分割する位置の値が四分位点です。
データを四等分するためには、仕切りが3つ必要なので、四分位点は3つあることになりますね。

五分位点は、五等分する位置にある四つの値のことで、十分位点は、十等分する位置にある九つの値のことです。
このように、データを小さい順に並べ替えた上で、等分した位置にある値が分位点です。
Q-QプロットのQは片方の分布の分位点、もう一つのQはもう片方の分布の分位点のことで、2つの分布の分位点を散布図上にプロットして、分布の類似具合を確認するのがQ-Qプロットです。

Q-Qプロットの仕組み
例えば、このような正規分布があったとします。

ここからデータを9つとってくることを考えましょう。
平均付近の値が選ばれる確率が最も高く、平均から離れた値が選ばれる確率は低いですよね。
ただし、いくら平均付近が選ばれやすいからと言って、9つのデータ全てが平均付近にはなりませんよね。
正規分布をはじめとした、確率密度関数の全体の面積は1です。
この面積を10等分してみましょう。9つの仕切りが得られますね。

これが、正規分布の10分位点です。
ここで、実際に9つとってきたデータがこうだったとします。

これを小さい順に並べるとこうなります。

さて、みえてきましたね!
正規分布の10分位点と、実際に得られた9つのデータの10分位点(データが9こなので、10分位数=小さい順に並べた値に相当します)は、理論的には同じ値をとるはずですよね。
同じ値をとっているなら、散布図上にプロットしたときに、直線関係が得られるはずです。

上下の値が1セットで、合計9点が散布図上にプロットされることになります。
実際にプロットした結果がこのように直線関係だった場合、正規分布の理論的な10分位点と、実際のデータの10分位点に差がないことを意味しますので、「実際のデータは正規分布に似ている」ということが言えます。
逆に直線関係ではなかった場合は、「実際のデータは正規分布と似ていない」ということが言えます。
その場合、「実際のデータは正規分布ではない別の分布に従っていそうだ」と考えることができますね。
このように、データが正規分布に似ているかどうか判断する目的で、片方の軸を標本データの分位点、もう片方の軸を正規分布の分位点として描いたQ-Qプロットのことを、正規Q-Qプロットと言います。
正規Q-Qプロットでは、理論分布として標準正規分布の分位点を使うのが一般的です。
どんな正規分布であっても、標準化すれば標準正規分布と同じ形になりますよね。
そのため、実際のデータを標準化して、標準正規分布の分位数と比較するのが慣例になっています。
実際のデータを標準化せずに、任意の正規分布の分位数と比較する方法でも問題ありません。
軸のレンジが変わるだけで、散布図の見た目は同じになるので、同じ結果になります。
理論分布からの分位点の選択
ここで、さきほどは、正規分布の分位点を、確率分布の面積を10等分する9つの値としましたが、理論分布からの分位点の選択に関しては、他の手法も存在します。
比較対象の標本データのサイズが(つまりデータの数がこ)だった場合、各数値と理論分布の分位点を1対1の形でプロットするために、理論分布のこの分位点を求めることになりますよね。
この分位点を第i分位点と表現することにします。
この時、分位点の求め方にはいくつかの方法が提案されています。

左に示したのは、先ほど説明した、面積を等分して求めるパターンです。
先ほどの例では、標本データのサイズが9だったので、正規分布の面積を10等分する9つの分位点を求めましたよね。
面積を+1等分するので、1つの区画の面積はです。
第i分位点は、面積(-∞からまでの積分値)がとなるの値ということになりますね。
他にも、右に示した考え方もあります。
標本データのサイズがだった場合は、正規分布の面積を等分します。
この時、両端の部分については、足して1として考えます。
つまり、1つの区画の面積はで、両端のみです。
そして、第i分位点は、面積(-∞からまでの積分値)がとなるの値ということになりますね。
これらの他にも分位点の選択方法は複数提案されていますが、よく使われているのはこの2つです。
どの方法で分位点を選択しても、が大きい場合には大きな違いは見られません。
Q-Qプロットの使い道
標本データがどんな分布に従っているかの確認
Q-Qプロットは、データが正規分布に従っているかどうかを確認する目的で使われることが多いのですが、正規分布ではなく、他の分布に従っているかどうかを確認することもできます。
もし、あるデータが指数分布に従っているかどうかを確認したい場合には、片方の軸には指数分布の理論分位点をとり、もう片方の軸には標本データの分位点をプロットすれば良いですね。

また、もし、あるデータがワイブル分布に従っているかどうかを確認したい場合には、片方の軸にはワイブル分布の理論分位点をとり、もう片方の軸には標本データの分位点をプロットすれば良いですね。

そして、同じように直線になっているかどうかで、 両者の分布が似ているかどうかを確認することができます。
2群の標本が似ているかどうかの確認
ある標本データともう一つの標本データの分布が似ているかどうかどうかを確認する目的で使用することもできます。

ある標本データを小さい順に並び替えて、もう一つの標本データも小さい順にならび変えて、対応する順番のデータをこのようにプロットしていきます。
これらのデータはサンプルサイズが9なので、1つ1つの値がデータの10分位点と考えられるので、小さい順の値のセットは、同じ分位点のセットと考えることができます。
このセットを散布図上にプロットしていけば良いということですね。
そして、同じように直線になっているかどうかで分布が似ているかどうかを確認することができます。
ただし、この場合わかるのは、「ある標本データともう一つの標本データの分布が似ているかどうか」なので、これらの標本データがどんな分布に従っているのかまではわかりません。
この例のように2つの標本データのサンプルサイズが同じ場合は、小さい順のセットがつくれますが、サンプルサイズが異なる場合は、対応する値を推定して補完する必要があります。
その場合のQ-Qプロットの作成は少々難しくなりますが、サンプルサイズが異なる場合でも、Q-Qプロットを作成することは可能です。
まとめ
この記事では、Q-Qプロットについて、基礎から解説しました。
- Q-Qプロットは、データが特定の分布(多くは正規分布)に従っているかを視覚的に確認するためのグラフ
- 理論分布の分位点と、実データの分位点を比較して作られる
- 点が直線上に並ぶほど、データはその分布に従っていると判断できる


