回帰分析は、統計学やデータ分析の中でも特に使用頻度が高い基本手法です。
Excel でも簡単に実行できるため、多くの人が日常的に使っていますが、「何をしているのかよくわからないまま使っている」というケースも少なくありません。
この記事では、回帰分析の中でも最もシンプルな単回帰分析を取り上げ、予測モデルの考え方や最小二乗法の意味を、図解を交えてわかりやすく解説します。
高校数学で学ぶ「平均」「偏差」「二乗和」などの知識があれば理解できる内容なので、 統計を初めて学ぶ人や、数学の基礎を確認しながら進めたい人にも取り組みやすいテーマです。
この記事を読むと次のことがわかります。
- 回帰分析とは何か
- 単回帰分析の考え方
- 最小二乗法の意味
- 回帰直線の係数 , の求め方
- 残差・偏差の違い
統計検定・QC検定・データ分析の実務にも役立つ内容です。
回帰分析とは
回帰分析は、予測モデル構築手法の一種です。
予測モデルでは、ある事象を、その事象の原因となっていることで説明します。
予測される側の変数のことを目的変数、予測に使う側の変数のことを説明変数と言います。
説明変数が原因で、目的変数が結果、と表現することもできますね。
例えば、勉強時間(説明変数)とテストの点数(目的変数)、運動した時間(説明変数)と消費カロリー(目的変数)、などです。
どうやって予測するのかと言うと、関数を用いて近似します。
例えば、このような目的変数()と説明変数()のセットがあったとします。

説明変数()が大きいほど目的変数()が大きい傾向がありそうです。
右上がりの直線が引けそうなので、予測モデルは、線形の1次関数 が適していそうですね。
この例では、線形の1次関数で予測できそうですが、予測モデルは非線形の場合もありますし、線形の場合でも、説明変数の数が1つではなく複数の場合もあります。
回帰分析は大きくわけると線形回帰と非線形回帰があります。
さらに、線形回帰は、予測モデルに1つの変数を使う単回帰と、2つ以上の変数を使う重回帰があります。
今回は、最も簡単な、線形の単回帰分析について解説します。

さて、先ほどのこの例では、右上がりの直線が引けそうですが、どのように直線を引くのが正解なのでしょうか?

これを数学的に導くのが回帰分析です。
最小二乗法
線形回帰分析手法で最もよく知られているのは最小二乗法です。
最小二乗法とは、ある直線を引いたときに、その直線からの距離が最も小さくなるように回帰直線の係数を算出する方法のことを言います。
この直線によって予測される予測値と実際の値の間の距離のことを残差と言います。

ここで、残差とよく似た言葉で、偏差というものがありますね。
偏差とは、平均値からの距離のことを言います。
偏差が大きければ、データのばらつきが大きいことを示し、小さければ、ばらつきが小さいことを示します。
データ全体のばらつきを示したい時には、偏差を二乗して足すということをします。
これを偏差平方和(または、単に平方和)と言います。
偏差平方和が大きければデータ全体のばらつきが大きいことを示し、小さければデータ全体のばらつきが小さいことを示します。
同じように、残差についても、データ全体の残差が大きいか小さいかは残差平方和で表現されます。
残差平方和が最も小さくなるように回帰直線の係数,を決めるのが最小二乗法です。
残差平方和が最も小さくなるとは、残差平方和をとそれぞれに関して偏微分して求めることができます。
この連立方程式を解くと、とを求めることができます。

詳細な,の算出方法は割愛します。
回帰分析を使用する際には、細かい算出方法までを理解している必要はありませんが、やっていることは、残差平方和が最も小さくなるように回帰直線の係数とを決めているということについては、理解しておきましょう。
このaとbを求める式を、イメージで理解してみましょう。
まずは、(回帰直線の傾き)です。

この式の分母は必ず正なので、分子が正の時傾きは正になり、負の時傾きは負になりますね。

ここで、分子が正になる時というのは、の偏差との偏差の両方が正または両方が負の時です。
つまり、青の部分にデータが多い時に傾きは正になります。
逆に、赤の部分が負になる時というのは、の偏差との偏差の片方が正で片方が負の時です。
つまり、ピンクの部分にデータが多い時に傾きは負になります。
青の部分とピンクの部分に均等にデータが散らばっているときには、分子は0になります。
つまり傾きは0になります。
続いて、(回帰直線の切片)です。

回帰直線にこの式を代入して計算してみましょう。

の時、赤枠部分が打ち消しあって0になるので、となりますね。
例題

このようなとの5組のデータがあったとします。
を予測する線形回帰直線の係数,を算出してみましょう。

の平均は3、の平均は7.7です。
の偏差はからの平均をひいて求めます。
の偏差はからの偏差をひいて求めます。
傾きの分子はの偏差との偏差の積の総和です。
これは、23.8になります。
傾きの分母はの偏差の二乗の総和です。
これは10になります。
よって、23.8÷10を計算し、2.38になります。
回帰直線はをとおるので、が求まればが求まります。
なので、7.7ー2.38×3を計算し、0.56になります。

まずはを求める。そしてを求める。の順番ですね!
まとめ
この記事では、単回帰分析の基本的な考え方と、 最小二乗法を使って回帰直線の係数を求める流れを解説しました。
- 回帰分析は予測モデル構築の基本手法
- 単回帰分析は最もシンプルで理解しやすい
- 最小二乗法は「残差平方和を最小にする直線」を求める方法
- 係数 , は数学的に導かれる
- 実務でも広く使われる重要な分析手法


