重回帰分析の手法について分子生物学的な事例をもとにして考えてみます。
ある時刻の遺伝子Mの発現量exp_mが、一時間前の遺伝子n及び遺伝子lの発現量(それぞれexp_n, exp_l)によりどのよう説明されるかというモデルを立てます。
具体的には、
というモデルを想定します。
aを切片、b_1、b_2を偏回帰係数、eを残差と呼びます。
それでは、Rを用いて重回帰分析を行ってみます。
#データの入力
> exp_m <- c(45, 46, 47, 57, 78, 89, 99, 89, 101, 108)
> exp_n <- c(102, 106, 109, 120, 124, 130, 146, 178, 190, 196)
> exp_l <- c(56, 57, 58, 50, 52, 61, 43, 63, 64, 60)
#exp_mを目的変数、exp_n, exp_lを説明変数として重回帰分析を行う
> summary(lm(exp_m~exp_n+exp_l))
Call:
lm(formula = exp_m ~ exp_n + exp_l)
Residuals:
Min 1Q Median 3Q Max
-11.530 -5.954 -3.900 3.842 24.637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.3470 34.7881 1.045 0.330842
exp_n 0.6858 0.1221 5.618 0.000801 ***
exp_l -1.0022 0.6710 -1.494 0.178918
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 11.91 on 7 degrees of freedom
Multiple R-squared: 0.822,Adjusted R-squared: 0.7712
F-statistic: 16.16 on 2 and 7 DF, p-value: 0.002379
exp_nのp値が有意となっているということは、冒頭の式のb_1が有意に0よりも大きい値であるということができます。また、exp_nを用いれば、各値の全体平均からのばらつきを有意に説明するとも言い換えることができます(ANOVAの考え方と同じです)。一方で、exp_lのp値は有意ではありませんでした。
R-squaredとは、決定係数と呼ばれ、「説明変数を用いてどの程度、目的変数の分散を説明できるか」という説明力を意味しています。のR-squaredは0.8と1に近いため、まずまずのモデルと言えるでしょう。
次に、exp_lの寄与は有意ではなかったため、exp_lをはずして、exp_mを説明することを試みます。
#exp_mを目的変数、exp_n, exp_lを説明変数として重回帰分析を行う
> summary(lm(exp_m~exp_n))
Call:
lm(formula = exp_m ~ exp_n)
Residuals:
Min 1Q Median 3Q Max
-10.069 -8.693 -6.009 8.438 19.493
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -9.7452 17.2506 -0.565 0.587616
exp_n 0.6113 0.1197 5.107 0.000921 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 12.8 on 8 degrees of freedom
Multiple R-squared: 0.7653,Adjusted R-squared: 0.736
F-statistic: 26.08 on 1 and 8 DF, p-value: 0.0009215
#散布図に回帰直線を重ねて描写
> plot(exp_n, exp_m)
> abline(lm(exp_m~exp_n)
R-squredは0.06程度低下しましたが、依然として良いモデルと言えます。
実際の研究ではもっと多くの変数の組み合わせを検討してモデル探索を行い、決定係数をもとに独立変数の数を絞ります。
【参考文献】
山田剛史ほか『Rによるやさしい統計学』オーム社 2008 191 - 198pp