高使用頻度の『回帰分析』を爆速でマスター!|最小二乗法と係数の意味を整理する

回帰分析のサムネ

回帰分析は、統計学やデータ分析の中でも特に使用頻度が高い基本手法です。

Excel でも簡単に実行できるため、多くの人が日常的に使っていますが、「何をしているのかよくわからないまま使っている」というケースも少なくありません。

この記事では、回帰分析の中でも最もシンプルな単回帰分析を取り上げ、予測モデルの考え方や最小二乗法の意味を、図解を交えてわかりやすく解説します。

単回帰分析は、回帰分析の中で最も理解しやすいテーマであり、 回帰の基本的な仕組みをつかむ最初のステップとして最適です。

高校数学で学ぶ「平均」「偏差」「二乗和」などの知識があれば理解できる内容なので、 統計を初めて学ぶ人や、数学の基礎を確認しながら進めたい人にも取り組みやすいテーマです。

この記事を読むと次のことがわかります。

  • 回帰分析とは何か
  • 単回帰分析の考え方
  • 最小二乗法の意味
  • 回帰直線の係数 𝒂\boldsymbol{a}, 𝒃\boldsymbol{b}の求め方
  • 残差・偏差の違い

統計検定・QC検定・データ分析の実務にも役立つ内容です。

目次

回帰分析とは

回帰分析は、予測モデル構築手法の一種です。

予測モデルでは、ある事象を、その事象の原因となっていることで説明します。

予測される側の変数のことを目的変数、予測に使う側の変数のことを説明変数と言います。

説明変数が原因で、目的変数が結果、と表現することもできますね。

例えば、勉強時間(説明変数)とテストの点数(目的変数)、運動した時間(説明変数)と消費カロリー(目的変数)、などです。

どうやって予測するのかと言うと、関数を用いて近似します。

例えば、このような目的変数(yy)と説明変数(xx)のセットがあったとします。

散布図

説明変数(xx)が大きいほど目的変数(yy)が大きい傾向がありそうです。

右上がりの直線が引けそうなので、予測モデルは、線形の1次関数 y=ax+b{y=ax+b} が適していそうですね。

この例では、線形の1次関数で予測できそうですが、予測モデルは非線形の場合もありますし、線形の場合でも、説明変数の数が1つではなく複数の場合もあります。

回帰分析は大きくわけると線形回帰と非線形回帰があります。

さらに、線形回帰は、予測モデルに1つの変数を使う単回帰と、2つ以上の変数を使う重回帰があります。

今回は、最も簡単な、線形の単回帰分析について解説します。

回帰分析の種類

さて、先ほどのこの例では、右上がりの直線が引けそうですが、どのように直線を引くのが正解なのでしょうか?

直線の引き方

これを数学的に導くのが回帰分析です。

最小二乗法

線形回帰分析手法で最もよく知られているのは最小二乗法です。

最小二乗法とは、ある直線を引いたときに、その直線からの距離が最も小さくなるように回帰直線の係数を算出する方法のことを言います。

この直線によって予測される予測値と実際の値の間の距離のことを残差と言います。

残差平方和と偏差平方和

ここで、残差とよく似た言葉で、偏差というものがありますね。

偏差とは、平均値からの距離のことを言います。

偏差が大きければ、データのばらつきが大きいことを示し、小さければ、ばらつきが小さいことを示します。

データ全体のばらつきを示したい時には、偏差を二乗して足すということをします。

これを偏差平方和(または、単に平方和)と言います。

偏差平方和が大きければデータ全体のばらつきが大きいことを示し、小さければデータ全体のばらつきが小さいことを示します。

同じように、残差についても、データ全体の残差が大きいか小さいかは残差平方和で表現されます。

残差平方和が最も小さくなるように回帰直線の係数𝒂\boldsymbol{a},𝒃\boldsymbol{b}を決めるのが最小二乗法です。

残差平方和が最も小さくなるaabbは、残差平方和をaabbそれぞれに関して偏微分して求めることができます。

この連立方程式を解くと、aabbを求めることができます。

偏微分を使った係数の計算

詳細なaa,bbの算出方法は割愛します。

回帰分析を使用する際には、細かい算出方法までを理解している必要はありませんが、やっていることは、残差平方和が最も小さくなるように回帰直線の係数𝒂\boldsymbol{a}𝒃\boldsymbol{b}を決めているということについては、理解しておきましょう。

このaとbを求める式を、イメージで理解してみましょう。

まずは、aa(回帰直線の傾き)です。

傾きaの求め方

この式の分母は必ず正なので、分子が正の時傾きは正になり、負の時傾きは負になりますね。

傾きaの分子の違いによる散布図の形状の違い

ここで、分子が正になる時というのは、xxの偏差とyyの偏差の両方が正または両方が負の時です。

つまり、青の部分にデータが多い時に傾きは正になります。

逆に、赤の部分が負になる時というのは、xxの偏差とyyの偏差の片方が正で片方が負の時です。

つまり、ピンクの部分にデータが多い時に傾きは負になります。

青の部分とピンクの部分に均等にデータが散らばっているときには、分子は0になります。

つまり傾きは0になります。

傾きaの符号は、(x, y)(\bar{x},\ \bar{y})を中心とした座標上のデータの分布を示すということですね!

続いて、bb(回帰直線の切片)です。

切片bの求め方

回帰直線にこの式を代入して計算してみましょう。

最小二乗法で求めた回帰直線はxとyの平均を通ることの証明

x=xx=\bar{x}の時、赤枠部分が打ち消しあって0になるので、y^=y\hat{y} = \bar{y}となりますね。

つまり、最小二乗法で決定した回帰直線は、必ず(x, y)(\bar{x},\ \bar{y})を通るということですね!

例題

回帰直線を求める例題

このようなxxyyの5組のデータがあったとします。

yyを予測する線形回帰直線の係数aa,bbを算出してみましょう。

回帰直線を求める例題の答え
STEP
𝑥と𝑦の平均を計算する

xxの平均は3、yyの平均は7.7です。

STEP
𝑥と𝑦の偏差を計算する

xxの偏差はxxからxxの平均をひいて求めます。

yyの偏差はyyからyyの偏差をひいて求めます。

STEP
𝑎の分子を求める

傾きaaの分子はxxの偏差とyyの偏差の積の総和です。

これは、23.8になります。

STEP
𝑎の分母を求める

傾きaaの分母はxxの偏差の二乗の総和です。

これは10になります。

STEP
𝑎を計算で求める

よって、23.8÷10を計算し、2.38になります。

STEP
𝑏を計算で求める

回帰直線は(x, y)(\bar{x},\ \bar{y})をとおるので、aaが求まればbbが求まります。

b=yaxb = \bar{y} – a \bar{x}なので、7.7ー2.38×3を計算し、0.56になります。

まずはaaを求める。そしてbbを求める。の順番ですね!

まとめ

この記事では、単回帰分析の基本的な考え方と、 最小二乗法を使って回帰直線の係数を求める流れを解説しました。

  • 回帰分析は予測モデル構築の基本手法
  • 単回帰分析は最もシンプルで理解しやすい
  • 最小二乗法は「残差平方和を最小にする直線」を求める方法
  • 係数 𝒂\boldsymbol{a}, 𝒃\boldsymbol{b}は数学的に導かれる
  • 実務でも広く使われる重要な分析手法

単回帰分析の仕組みを理解しておくと、 重回帰分析や機械学習モデルの理解にもつながります。

この記事を書いた人

データサイエンスLab.

◆製造業で働くデータサイエンティスト
◆データサイエンス系YouTuber
◆QC検定1級ホルダー(成績上位合格)

統計学や機械学習などのデータサイエンス系の知識を発信しています。
初心者でもわかりやすく、かつ、本質の理解が促される解説が強みです。

この記事が役に立ったらシェアしてね
  • URLをコピーしました!
目次