高使用頻度の『回帰分析』を爆速でマスター!

回帰分析はExcelでも簡単に出来るため、よく使われる統計解析手法の一つです。

簡単に出来てしまうからこそ、何をやっているのかをよく知らずに使用している方も多いかもしれません。

回帰係数の計算、式は一見ややこしいんですが、計算自体は割と簡単にできてしまいます。

この記事では、回帰係数の計算式のイメージを図を使ってわかりやすく解説しているので、視覚的に理解できますよ!

目次

回帰分析とは

回帰分析は、予測モデル構築手法の一種です。

予測モデルでは、ある事象を、その事象の原因となっていることで説明します。

予測される側の変数のことを目的変数、予測に使う側の変数のことを説明変数と言います。

説明変数が原因で、目的変数が結果、と表現することもできますね。

例えば、勉強時間(説明変数)とテストの点数(目的変数)、運動した時間(説明変数)と消費カロリー(目的変数)、などです。

どうやって予測するのかと言うと、関数を用いて近似します。

例えば、このような目的変数(y)と説明変数(x)のセットがあったとします。

説明変数(x)が大きいほど目的変数(y)が大きい傾向がありそうです。

右上がりの直線が引けそうなので、予測モデルは、線形の1次関数y=ax+bが適していそうですね。

この例では、線形の1次関数で予測できそうですが、予測モデルは非線形の場合もありますし、線形の場合でも、説明変数の数が1つではなく複数の場合もあります。

回帰分析は大きくわけると線形回帰と非線形回帰があります。

さらに、線形回帰は、予測モデルに1つの変数を使う単回帰と、2つ以上の変数を使う重回帰があります。

今回は、最も簡単な、線形の単回帰分析について解説します。

さて、先ほどのこの例では、右上がりの直線が引けそうですが、どのように直線を引くのが正解なのでしょうか?

これを数学的に導くのが回帰分析です。

最小二乗法

線形回帰分析手法で最もよく知られているのは最小二乗法です。

最小二乗法とは、ある直線を引いたときに、その直線からの距離が最も小さくなるように回帰直線の係数を算出する方法のことを言います。

この直線によって予測される予測値と実際の値の間の距離のことを残差と言います。

ここで、残差とよく似た言葉で、偏差というものがありますね。

偏差とは、平均値からの距離のことを言います。

偏差が大きければ、データのばらつきが大きいことを示し、小さければ、ばらつきが小さいことを示します。

データ全体のばらつきを示したい時には、偏差を二乗して足すということをします。

これを偏差平方和(または、単に平方和)と言います。

偏差平方和が大きければデータ全体のばらつきが大きいことを示し、小さければデータ全体のばらつきが小さいことを示します。

同じように、残差についても、データ全体の残差が大きいか小さいかは残差平方和で表現されます。

残差平方和が最も小さくなるように回帰直線の係数a,bを決めるのが最小二乗法です。

残差平方和が最も小さくなるaとbは、残差平方和をaとbそれぞれに関して偏微分して求めることができます。

この連立方程式を解くと、aとbを求めることができます。

詳細なa,bの算出方法は割愛します。

回帰分析を使用する際には、細かい算出方法までを理解している必要はありませんが、やっていることは、残差平方和が最も小さくなるように回帰直線の係数aとbを決めているということについては、理解しておきましょう。

このaとbを求める式を、イメージで理解してみましょう。

まずは、a(回帰直線の傾き)です。

この式の分母は必ず正なので、分子が正の時傾きは正になり、負の時傾きは負になりますね。

ここで、分子が正になる時というのは、xの偏差とyの偏差の両方が正または両方が負の時です。

つまり、青の部分にデータが多い時に傾きは正になります。

逆に、赤の部分が負になる時というのは、xの偏差とyの偏差の片方が正で片方が負の時です。

つまり、ピンクの部分にデータが多い時に傾きは負になります。

青の部分とピンクの部分に均等にデータが散らばっているときには、分子は0になります。

つまり傾きは0になります。

傾きaの符号は、xの平均とyの平均を中心とした、座標上のデータの分布を示すということですね!

続いて、b(回帰直線の切片)です。

回帰直線にこの式を代入して計算してみましょう。

xがxの平均の時、赤枠部分が打ち消しあって0になるので、yはyの平均となりますね。

つまり、最小二乗法で決定した回帰直線は、必ずxの平均とyの平均の座標を通るということですね!

例題

このようなxとyの5組のデータがあったとします。

yを予測する線形回帰直線の係数a,bを算出してみましょう。

STEP
xとyの平均を計算する

xの平均は3、yの平均は7.7です。

STEP
xとyの偏差を計算する

xの偏差はxからxの平均をひいて求めます。

yの偏差はyからyの平均をひいて求めます。

STEP
aの分子を求める

傾きaの分子はxの偏差とyの偏差の積の総和です。

これは、23.8になります。

STEP
aの分母を求める

傾きaの分母はxの偏差の二乗の総和です。

これは10になります。

STEP
aを計算で求める

よって、23.8÷10を計算し、2.38になります。

STEP
bを計算で求める

回帰直線はxの平均とyの平均をとおるので、aが求まればbが求まります。

b =(yの平均)ー(傾きa)×(xの平均)なので、7.7ー2.38×3を計算し、0.56になります。

まずはaを求める。そしてbを求める。の順番ですね!

まとめ

回帰分析は、モデル構築手法の一種です。

回帰線の係数a,bは、最小二乗法で決定します。

どのように決定するかと言うと、残差平方和が最小なるように決定します。

この記事を書いた人
データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事のYouTube動画はこちら

目次