多変量解析の概略

多変量解析とは、一つの目的変数(従属変数)に対して複数の説明変数(独立変数)からなる多変量データを扱うデータ解析のことです。

統計学学習の最初の方で登場する単変量解析(一つの従属変数を一つの独立変数により説明する)の一般化と考えても差し支えないと思います。

疫学の研究で多変量解析を使用する目的としては、交絡因子の影響の除去と、従属変数の予測があります。

疫学でよく用いられる多変量解析は、重回帰分析、ロジスティック・モデル、コックスの比例ハザード・モデル、ポアソン回帰分析の4つであると言われています。

下に、多変量解析の種類と従属変数の性質及びその適用についての表を示します。



#どのような独立変数を選んだよいのか
一見すると独立変数は多ければ多いほど良いように感じてしまいます。しかし、現実の現象に関わるであろう独立変数は従属変数への寄与の差はあれど、無数にあると考えられます。下に挙げた参考文献の214-215には多変量解析の目的にしたがって二つの考え方を挙げています。
・交絡因子の制御

交絡因子の制御を目的とする場合、、交絡すると理論的に考えられる変数はすべてモデル投入するべきであるとされています。
・従属変数の予測

従属変数の予測では、できるだけ少ない変数で妥当性の高い予測を行う必要があります。オーバーフィッティングの問題も無視できません。オーバーフィッティングとは、ある一定期間やある一定範囲(ミクロ)のデータを使って全体的(マクロ)な特徴を捕らえようとするときそのミクロな世界の特徴に過剰に合致(フィット)しすぎてマクロな世界の特徴を表すものではなくなってしまうことを指します。





【参考文献】
中村良一「基礎から学ぶ 楽しい疫学」医学書院 2002 204 - 215pp