「Studentのt検定」「Weltchのt検定」の違いも含めて、対応のない2標本t検定を完全解説！

対応のない2標本t検定を学ぶとき、多くの人ぶつかる壁は「計算式の意味がつかみにくい」という点なのではないかと思います。

特に、StudentとWelchのどちらを使うべきかで迷ったり、t値を計算する際に、 $n$ で割るんだったか？ $n$ -1で割るんだったか？と悩んだり、などがあるのではないでしょうか？

これらの混乱の多くは「式を丸暗記しようとすること」が原因であることが多いのではないかと思います。

逆に、なぜこの式になるのか、StudentとWelchにはどういう前提の違いがあるのかを理解すれば、計算そのものは驚くほどスッキリ整理できます。

この記事では、対応のない2標本t検定を理屈から理解することに焦点を当て、計算式の背景や自由度の考え方まで丁寧に解説します。

読み終える頃には、あなたの中のモヤモヤが一本の線でつながるはずです！

標本とは？

統計学における『標本』とは、母集団の分布を推測するために選ばれた一部の集団のことです。

2標本t検定とは、その名のとおり、2つの標本を使って検定する手法なので、その背後には、2つの母集団が存在しているんですね。

この2つの母集団の母平均に差があるどうかを検定するのが、2標本t検定です。

2標本t検定の説明をする前に、1標本t検定について簡単におさらいしておきましょう。

1標本t検定

1標本t検定は、標本平均がある特定の値 $μ$ と等しいかどうかを調べる手法です。

よって、帰無仮説は「母平均は $μ$ である」になりますね。

t検定は、母分散未知の場合の母平均の検定であるわけですが、t検定を理解するには、まずは、母分散が既知だった場合からスタートすると、スムーズにいくと思います。

母平均 $μ$ 、母分散 $σ^2$ の正規分布から $n$ 個とったとった標本平均は、平均 $μ$ 、分散 $\frac{\sigma^2}{n}$ の正規分布に従います。

これは帰無仮説が正しいと仮定したときの分布です。

実際の標本平均が $\bar{x}$ だったとしたとき、この $\bar{x}$ 以上に極端な観測結果が得られる確率、 $p$ 値を求めて、 $p$ 値が小さい場合には、レアなことが発生したと判断するのではなく、そもそもの前提である帰無仮説が間違っていた、という風に考えます。

$p$ 値を求めるために、 $\bar{x}$ を標準化して、 $z$ スコアを求め、標準正規分布表を読み取るのが、母分散既知の場合の母平均の検定です。

2標本t検定

2標本t検定は、2つの標本データを使うので、その背景にある2つの母集団の分布の比較を行います。

$x_A$ が従う、平均 $μ_A$ 、分散 $σ_A^2$ の正規母集団と、 $x_B$ が従う、平均 $μ_B$ 、分散 $σ_B^2$ の正規母集団の比較を行うとしましょう。

$x_A$ が従う分布から $n_A$ ことった標本平均 $\bar{x_A}$ と、 $x_B$ が従う分布から $n_B$ ことった標本平均 $\bar{x_B}$ は、それぞれ「平均 $μ_A$ 、分散 $\frac{\sigma_A^2}{n_A}$ の正規分布」と「平均 $μ_B$ 、分散 $\frac{\sigma_B^2}{n_B}$ の正規分布」ですね。

ここで、帰無仮説は「母平均が同じ」なので「 $μ_A$ ＝ $μ_B$ 」ですよね。

つまり、 $μ_A$ ー $μ_B$ =0です。

だから、 $\bar{x_A}$ ー $\bar{x_B}$ が従う分布を考えて、実際の標本で計算した標本平均の差が0であるかどうかをチェックすれば良いですね。

そこで、 $\bar{x_A}$ ー $\bar{x_B}$ が従う分布を考えましょう。

$\bar{x_A}$ ー $\bar{x_B}$ が従う分布の平均は、 $μ_A$ ー $μ_B$ ですよね。

$\overline{x_{A}}$ ー $\overline{x_{B}}$ が従う分布の分散は、分散の加法性により、 $\frac{\sigma_A^2}{n_A}$ + $\frac{\sigma_B^2}{n_B}$ になりますね。

$\bar{x_A}$ ー $\overline{x_{B}}$ が従う分布がわかったら、次は、ここでもやはり、母分散が既知だった場合をまずは考えてみましょう。

「実際の観測値－母平均÷母標準偏差」で、実際の観測値が標準正規分布ではいくつに相当するのかがわかるのでしたよね。

ここで、問題なのが、 $μ_A$ 、 $μ_B$ 、 $σ_A$ 、 $σ_B$ が未知なことですよね。

$μ_A$ と $μ_B$ については、帰無仮説が $μ_A$ ＝ $μ_B$ なので、 $μ_A$ － $μ_B$ は0になるので、未知のままで問題ありません。

$μ_A$ － $μ_B$ の部分を消すと、だいぶ計算式がスッキリしましたね。

問題は、 $σ_A$ と $σ_B$ です。

この部分についてどうするかについては、 $σ_A$ と $σ_B$ が等しいと考えられる場合と、 $σ_A$ と $σ_B$ が等しいかどうかがわからない場合で異なります。

$\boldsymbol{σ_A}$ と $\boldsymbol{σ_B}$ が等しいと考えられる場合は、Studentのt検定、 $\boldsymbol{σ_A}$ と $\boldsymbol{σ_B}$ が等しいかどうかわからない場合は、Welchのt検定を使います。

ある決まった値である母分散を標本で計算した推定量に置き換える場合は、計算結果は、標準正規分布ではなく、t分布に従うのでしたよね。

Studentのt検定

まずは、Studentの検定です。

$σ_A^2$ の推定値と、 $σ_B^2$ の推定値は、標本データを使って不偏分散（偏差平方和S÷データ数n-1）を計算すればいいですよね。

ここで、このように、 $σ_A^2$ の部分と $σ_B^2$ の部分をそれぞれの推定値で置き換えたくなると思いますが、Studentのt検定では、このようにしてははいけないんです。

Studentのt検定では、 $σ_A^2$ と $σ_B^2$ が等しいと考えるので、 $σ_A^2$ の推定値と $σ_B^2$ の推定値をプールした推定値を計算する必要があります。

分子の偏差平方和を足して、分母の自由度も足して、平方和の和÷自由度の和を計算したものがプールされた分散になります。

母分散が同じであると仮定できる場合には、このように、2つの不偏分散を1つにまとめることができます。

2標本のデータを1つにまとめることで、母分散の推定精度を高めることができます。

母分散をプールした分散に置き換えるので、この式で計算されるt値はt分布に従います。

自由度は、分散の推定値の分母の部分にあたるので、プールされた分散の分母である、 $n_A$ ＋ $n_B$ －2ですね。

この計算式で計算されるt値が、自由度 $n_A$ ＋ $n_B$ －2のt分布に従う、ということになりますね。

あとは、この計算式に実際の観測値をあてはめてt値を計算し、それが、自由度 $n_A$ ＋ $n_B$ －2のt分布上でどこに位置するのかをチェックし、それがレアかどうかで、帰無仮説を受容するか棄却するかを判断すれば良いですね。

Welchのt検定

続いて、Welchのt検定です。

Studentのt検定では、 $σ_A^2$ と $σ_B^2$ が等しいと考えられる場合だったので、プールした分散を使って計算しましたが、Weltchのt検定は、 $σ_A^2$ と $σ_B^2$ が等しいかどうかわからない場合なので、分散のプールはできません。

だから、しょうがなく、 $σ_A^2$ と $σ_B^2$ をそれぞれの推定値で置き換えます。

さて、この時、自由度はどうなるのか？という問題がありますよね。

自由度は、この式で求めます。

この式で計算される自由度は、等価自由度と呼ばれます。

Welchのt検定では、t値と自由度をこのように計算するのですが、実はこれは近似なんです。

つまり、Welchのt検定におけるt値は、この式で計算される等価自由度のt分布に近似的に従うんです。

あとは、この計算式に実際の観測値をあてはめてt値を計算し、それが、自由度Φ^*のt分布上でどこに位置するのかをチェックし、それがレアかどうかで、帰無仮説を受容するか棄却するかを判断すれば良いですね。

例題

果樹園Aのいちごは、果樹園Bのいちごと同じ重さと言えるか？　

母分散は等しいと考えられるとして、有意水準5％で検定せよ。

果樹園Aから9このイチゴを無作為にサンプリングして重さを計り、果樹園Bから10このイチゴを無作為にサンプリングして重さを計ったデータを使って、果樹園Aのいちごと果樹園Bのイチゴの重さが同じと言えるかどうか有意水準5％で検定します。

有意水準というのは、レアと言えるかどうかの $p$ 値のしきい値のことです。

有意水準5％というのは、p値が5％よりも小さい場合にレアと言える、ということです。

果樹園Aのイチゴの重さが従う分布の母分散と果樹園Bのイチゴの重さが従う分布の母分散は等しいと考えられるとしているので、Studentのt検定を使います。

STEP

平均、偏差平方和、データ数、自由度を計算する。

A,Bそれぞれの、平均値、偏差平方和、データ数、自由度が必要です。

STEP

プールされた分散を計算する。

Studentのt検定を使うので、プールされた分散の計算が必要です。

AとBの偏差平方和を足して、それをAとBの自由度の和で割ります。

STEP

t値を求める。

分子はAとBの平均の差、分母は、「プールされた分散÷Aのデータ数」と「プールされた分散÷Bのデータ数」の和の平方根ですね。

t分布は左右対称なので、t値を求める際には絶対値がわかればいいですよね。

STEP

𝑝値が0.05となる時のt値をt分布表から読み取り、実際のデータで計算したt値と比較する。

自由度が17のt分布において、𝑝値が0.05となる時のt値をt分布表から読み取ります。

「果樹園Aと果樹園Bのイチゴの重さが同じかどうか」が知りたいので、両側検定を行うことになりますので、

右の裾と左の裾、あわせて0.05になる時のt値を読み取ります。

t分布表の読み取りは割愛しますが、これは2.11になります。

赤の部分がレアと判断できる領域ということですね。

2.11よりも2.19のほうが大きいので、2.19は赤の領域に含まれます。

よって、2.19はレアと判断できるので、そもそも帰無仮説が誤っていたと考えます。

よって、帰無仮説を棄却して、対立仮説を採択します。

つまり、「果樹園Aのいちごと果樹園Bのイチゴは同じ重さとは言えない」という結論になります。

まとめ

2標本t検定とは、2つの母集団の母平均の差に関する検定です。

2つの母集団の母平均の差に関する検定を行う際に、2つの母集団の母分散が等しいと考えられる場合は、Studentのt検定、2つの母集団の母分散が等しいかどうかわからない場合は、Welchのt検定を使います。

t値を計算する式の分母と自由度が異なりますが、検定の進め方は同じです。

この記事のYouTube動画はこちら

この記事が役に立ったらシェアしてね

URLをコピーしました！