R²（決定係数）の仕組みを理解する｜絶対に1を超えないが0を下回ることがある理由も丁寧に解説

回帰分析には、モデルの当てはまりを評価するための指標がいくつかあります。

その中でも 「決定係数 R²」 は、最もよく使われる基本的な指標のひとつです。

R² は 0〜1の範囲をとり、値が大きいほどモデルの説明力が高いとされます。

しかし、実際には 0 を下回ることがある など、初心者がつまずきやすいポイントも多く、正しく理解しておくことが大切です。

この記事では、決定係数 R²の意味や計算の考え方、0〜1の範囲の理由、そして0を下回るケースについて、初心者でも理解しやすいように図解を交えて丁寧に解説します。

なお、この記事では決定係数 R² の意味と考え方に焦点を当てて解説しているため、必要以上に専門的な数式に踏み込まない構成になっており、統計に詳しくなくてもスムーズに理解できる内容になっています。

この記事を読むと次のことがわかります。

決定係数 R² の意味と役割
R² が 0〜1 の範囲をとる理由
R² が 0 を下回るケースが生じる仕組み
最小二乗法と R² のつながり（概念レベル）
回帰モデルの当てはまりをどのように評価するか
実務で R² を使う際の注意点

統計検定・QC検定・データ分析の実務にも役立つ内容です。

決定係数とは

決定係数は寄与率ともいわれ、予測モデルのあてはまりの良さを示す指標です。

予測モデルにはいろいろありますが、どんな予測モデルであっても、決定係数によって、あてはまりの良さを示すことができます。

決定係数は、誤った認識をされることが多いのですが、これは、決定係数にははっきりとした定義がないからだと考えられます。

決定係数の定義は8つあると言われています。

一般的な定義はこれなので、この式の意味を説明していきます。

一般的なR²

予測モデルにによる予測値を横軸、実測値を縦軸にとります。

ここに、傾き1、切片0の直線をひきます。

傾き1、切片0の直線上にプロットがある場合、その点は予測値と実測値が一致しているということになりますね。

つまり、この直線から実測値までの距離は、予測モデルで予測しきれなかった分を示します。

これを残差と言います。

この残差の大きさの程度を数値化したのが、決定係数R²です。

データ全体の残差の大きさを示すには、残差を二乗して全て足します（これを残差平方和と言います）。

それが、R²の計算式の中の赤字の部分です。

$y_i$ は各データの値（実測値）、 $\hat{y_i}$ は各予測値です。

R²の計算式の中の青字の部分は、実測値yの偏差平方和ですね。

偏差平方和は、予測する前の、あるがままのyのばらつきを示しています。

R²は、1－「残差平方和（予測モデルで𝑦を予測しきれていない分）」÷「偏差平方和（あるがままの𝑦のばらつき）」で計算されているんですね。

ここで、予測モデルは「予測すること」が目的なので、偏差平方和（あるがままの𝑦のばらつき）よりも、残差平方和（予測モデルで𝑦を予測しきれていない分）が大きくなることは通常は考えられませんよね。

よって、通常はこの緑枠の部分は1よりも小さくなります。

また、全ての点が傾き1、切片0の直線上にある時、それは、予測値＝実測値であることを示しています。

この時、残差平方和は0になるため、緑枠の部分の計算結果は0になります。

つまり、この緑枠の部分は通常は0～1の範囲をとるということです。

ここで、決定係数R²は、予測モデルのあてはまりの良さを示す指標なので、よくあてはまっているほど大きい値になります。

よくあてはまっているときというのは、緑枠の部分の計算結果が小さい時ですよね。

1からこの緑枠の部分の計算結果をひいたものが、一般的な決定係数R²の定義です。

緑枠の部分が通常0～1の範囲をとるので、決定係数R²は、通常は0～1の範囲をとります。

”通常は”0から1の範囲をとる、なので、この範囲を外れることもあるということです。

緑枠の部分のは、分子も分母も二乗されているので、必ず0よりも大きくなるので、R²が1を超えることはないのですが、実は0を下回る場合があるのです。

R²＝0になる場合

どういう場合にR²が0を下回るのかを説明するために、まずは、R²が0になる場合とはどんな時なのかを説明します。

最も簡単な単回帰分析を例に説明します。

R²が0になる場合というのは、緑枠の部分の分母と分子が同じになる時ですよね。

予測モデルによって変化するのは分子の残差平方和のほうです。

予測式が「 $\boldsymbol{\hat{y}}$ ＝ $\boldsymbol{\bar{y}}$ 」であったなら、分母と分子は同じになりますよね。

この時、R²は0になります。

傾きがありそうな左の図でも、なさそうな右の図でも、「 $\boldsymbol{\hat{y}}$ ＝ $\boldsymbol{\bar{y}}$ 」という予測モデルの場合には、緑枠の部分の分母の偏差平方和と分子の残差平方和が同じになるので、R²は0になる、ということです。