相関分析の原理&相関係数を使う際の注意点とその解決策を解説します!

相関分析のサムネ

2変数間の関係性を分析する際に、関連性を数値で示すことができる『相関係数』が非常に便利です。

ただし、『相関係数』は直線でしか機能しない点と外れ値の影響を強く受ける点には注意が必要です。

『相関係数』の数値のみで変数間の関係性を判断してしまうと、本来存在する関係性を見逃してしまうということにもなりかねませんので、この記事を読んで、注意点と解決策を理解して、正しく『相関係数』を使用しましょう!

目次

相関分析とは

2つの変数の間で、片方の変数が変化すると、もう片方もそれに応じて変化する関係のことを相関関係といいます。

この2つの変数間の相関関係を統計的に分析するのが相関分析です。

相関関係には、正の相関関係負の相関関係があります。

正の相関関係とは、片方の変数が大きくなった時にもう片方の変数も大きくなる関係のことです。

負の相関関係とは、片方の変数が大きくなった時にもう片方の変数は小さくなる関係のことです。

2つの変数間の関係が正の相関なのか、負の相関なのかは、2つの変数の共分散で知ることができます。

共分散とは

共分散はこの式で計算されます。各xとxの平均との偏差と各yとyの平均との偏差の積の平均です。

分散の計算方法(各xとxの平均との偏差の二乗の平均)と似ていますよね。

Σの中が、xの偏差×xの偏差なのが分散、Σの中が、xの偏差×yの偏差なのが共分散です。

共分散が正になる時、負になる時はどういう時なのかをこの図を使って考えてみましょう。

横軸がx、縦軸がyで、xの平均とyの平均を中心に4つのエリアに分割された図ですね。

共分散が正になるのは、xの偏差とyの偏差の両方が正または両方が負である、青の部分にデータが多い時です。

これらのデータには、xが大きくなるとyが大きくなる関係がありますよね。

つまり、共分散が正の時は、2つの変数間には正の相関関係があるということですね。

共分散が負になるのは、xの偏差とyの偏差の片方が正で片方が負である、ピンクの部分にデータが多い時です。

これらのデータには、xが大きくなるとyが小さくなる関係がありますよね。

つまり、共分散が負の時は、2つの変数間には負の相関関係があるということですね。

このように、共分散の符号によって、2つの変数間の関係が、正の相関関係なのか、負の相関関係なのかがわかります。

しかし、共分散で、相関関係の正負はわかりますが、その相関関係が強いのか弱いのかはわかりません。

なぜなら、データの「単位」によって値が変化するからです。

例えば、これらの身長と体重のデータの共分散を求める時、体重の単位がkgかgかによって、このように共分散の計算結果は異なります。

この問題を解決したものが、相関係数です。

相関係数の算出方法

相関係数はこの式で計算します。

共分散は、データの単位の影響を受ける指標ですが、xの標準偏差×yの標準偏差)で割ることで無単位になりますよね

ここで、分子の1/nと分母の1/n分は約分することができるので、このように変換できます。

分母はxの偏差平方和の平方根×yの偏差平方和の平方根ですね。

分子のxの偏差とyの偏差の積の総和は、偏差積和と呼びます。

xの偏差平方和はSxx yの偏差平方和はSyy xとyの偏差積和はSxy と記号で示されます。

先ほどの身長と体重の例のデータで、相関係数を計算してみましょう。

このとおり、両方とも同じ相関係数となりました。

共分散は単位の影響を受けますが、相関係数は単位の影響を受けないということですね。

相関係数の特性

相関係数は、-1以上1以下であるという数学的な特性があります。

これは、高校数学で学習する”コーシーシュワルツの不等式”によって証明することができますが、相関係数を扱う上で、詳しい証明までは出来る必要はなく、相関係数は-1から1までの間の値をとるということを把握しておけば十分だと思います。

相関係数は、0の時は相関関係がないことを示し、-1に近いほど負の相関関係が強く、1に近いほど正の相関関係が強いことを示します。

相関係数の目安はここに示した通りで、一般的には、相関係数が0.7以上あると強い正の相関があり、-0.7以下であると強い負の相関があるとされています。

相関係数を扱う際の注意点

相関係数を扱う際には注意すべきことがいくつかあります。

注意点①

相関係数が0であることは無相関であることを意味しますが、相関係数が0だったら、2つの変数は関連していないと言えるでしょうか?

答えはNoです。

これらのデータは、確実に何かしらの関係性があるように見えますよね。

しかし、片方が大きくなると、片方が大きくなったり、小さくなったり、という単純な関係性ではありません。

このような場合、相関係数の絶対値は大きくはなりません。

xとyには何かしらの関係性があるようにみえるのに、相関係数の絶対値は大きくはならない…

なぜこのようなことになるのかと言うと、相関係数が示すのは、2つの変数の直線的なの関係の強さだからです。

これを知らずに、相関係数のみで2つの変数の関係性を判断してしまうのは非常に危険ですよね。

注意点②

相関係数の絶対値が大きいことは相関関係が強いことを意味しますが、相関係数の絶対値が大きかったら、2つの変数は関連していないと言えるでしょうか?

これも答えはNoです。

例えば、下の左の散布図ではxとyには相関関係がないように見えますし、実際に相関係数も0です。

ここに赤の点を1点加えただけの右の散布図では、相関係数が0.8になるんです。

相関係数が大きいですが、これは1点の外れ値に引っ張られているだけですよね。

また、この下の左の散布図はxとyに相関関係があるように見えますし、実際に相関係数は大きいです。

ここに赤の点を1点加えただけの右の散布図では、相関係数が0になります。

相関係数が小さいですが、これは1点の外れ値に引っ張られているだけですね。

つまり、相関係数は外れ値の影響を強く受けるんです。

この例からも、やはり、相関係数のみで2つの変数の関係性を判断してしまうのは非常に危険ですよね。

解決策

このように、相関係数は、相関関係の強さを示す良い指標なのですが、相関係数だけで、2変数の関連性のありなしを判断してしまうのはよろしくないわけですが、ではどうすればいいのでしょうか?

解決策は、相関係数とセットで散布図を確認することです。

でも、たくさんの変数間の関係性を、1つ1つ散布図を作成して確認するのは手間ですよね…

そこで役に立つのが散布図行列です。

散布図行列では、このように複数の変数間の散布図を一度に確認することができます。

ほとんどの統計解析ソフトには、散布図行列を描画する機能が備わっているはずです。

散布図行列を活用すると効率よくデータ解析ができますね!

まとめ

2つの変数の間で、片方の変数が変化すると、もう片方もそれに応じて変化する関係のことを相関関係といいます。

2つの変数間の相関関係の強さを示す指標を相関係数と言い、この式で求めることができます。

相関係数は、直線的な関係を示す指標なので、また、外れ値の影響を強く受けるので、相関係数を使って2つの変数の関係性を評価する際には、散布図とセットで使うようにしましょう。

この記事のYouTube動画はこちら

この記事を書いた人

データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事が役に立ったらシェアしてね
  • URLをコピーしました!
目次