決定係数の要因分解

Ryota Mugiyama

2019/9/6

こちらの記事は以下のこちらのウェブサイトに置かれたものです。

決定係数の定義と解釈

$Y$ $K$ $X_k \ (k = 1, \cdots, K)$ で回帰するとき、その式は以下のように定義される。

Y = \alpha + \sum^K_{k=1} \beta_kX_{k} + u,\ \ u \sim N(0, \sigma^2)​

最小2乗法により以下の予測式を得る。

\hat{Y} = \hat{\alpha} + \sum^K_{k=1} \hat{\beta}_kX_{k}

ここで決定係数の定義は以下のとおり表される。

R^2 \equiv \frac{\displaystyle \sum_{i=1}^n (\hat{Y}_i - \overline{Y})^2}{\displaystyle \sum_{i=1}^n (Y_i - \overline{Y})^2} = \frac{\mathrm{Var}(\hat{Y})}{\mathrm{Var}(Y)}

決定係数は回帰式により得られる予測値の分散の従属変数の分散に対する比を意味し、最小値は0、予測分散と従属変数の分散が等しくなるときに最大値1をとる。このような特徴から、決定係数は得られた予測式が観測値の分散とどれほど一致しているかを表しているかを表す指標と読むことができる。

決定係数の特徴であり問題の1つは、決定係数の値が性質の異なる複数の要素によって決まるという点にある。これに関してはすでに複数の指摘があるが（Achen 1977; Achen 1982; King 1986; King 1990）、ここでは数式を使ってそれをみてみよう。決定係数の定義の分子部分に予測式を代入することで以下の式を得る。

R^2 = \frac{\hat{\mathbf{\beta}}'\mathrm{Var}(\mathbf{X})\hat{\mathbf{\beta}}}{\mathrm{Var}(Y)}

\mathbf{\hat{\beta}} = \left[ \begin{matrix} \hat{\beta}_1 \\ \vdots \\ \hat{\beta}_K \end{matrix} \right], \ \ \mathrm{Var}(\mathbf{X}) = \left[ \begin{matrix} \sigma_1^2 & \cdots & \sigma_{1k} \\ \vdots & \ddots & \vdots \\ \sigma_{k1} & \cdots & \sigma_k^2 \end{matrix} \right]

回帰係数 $\hat{\beta}_k$ の値独立変数 $X_k$ の分散および共分散従属変数 $Y$ の分散である。

$\hat{\beta}_k$ の値にある。しかし、決定係数の値はそれとは部分的に関連するもののそれのみを反映しているわけではない。たとえ同じ従属変数と独立変数、同じ関数型からなるモデルを用いたとしても、サンプルが異なれば独立変数の分散・共分散や従属変数の分散は異なる。決定係数だけを比較してもこれら3つのどの要素がどの程度決定係数の多寡に寄与しているのかは分からない。したがって、異なるサンプル間で安易に決定係数を比較するべきではない。

なお以上と同型の議論は相関係数および標準化偏回帰係数についても同様にあてはまる（Kim 1976; Kim 1981）。相関係数にしても標準化偏回帰係数にしても、一見すると標準化によって異なる尺度どうしの比較が可能となるようにみえて、実は独立変数の限界効果のみならず、独立変数の分散や従属変数の分散にその値が左右されるために、その値の高さを即座に効果の強さと読むことができないという点で一致している。

とはいえ、決定係数が異なるサンプル間で異なる場合に、その原因を知りたいときもあるだろう。サンプル間での決定係数がなぜ異なるのか、その原因を知ることはできるだろうか。なお、ここでの原因というのはあくまで統計的な意味においてである。このような場合に役に立つのが要因分解法である。

要因分解によるアプローチ

ここでは、異なるサンプルどうしの決定係数の比に着目し、サンプル間での決定係数の違いがどこから生じているのかを、構造変動（限界効果の違い）、独立変数変動（独立変数の分散および独立変数間の共分散の違い）、および従属変数変動（従属変数の分散）の3つへ要因分解する方法を提示する。

$R^2_1, R^2_2$ とする。両者の比をとった指標は以下のように分解できる。

\begin{eqnarray} \frac{R^2_2}{R^2_1} &=& \frac{\mathrm{Var}(\hat{Y}_2)}{\mathrm{Var}(Y_2)} \times \frac{\mathrm{Var}(Y_1)}{\mathrm{Var}(\hat{Y}_1)} \nonumber \\ &=& \frac{ \hat{\mathbf{\beta}}_2'\mathrm{Var}(\mathbf{X}_2)\hat{\mathbf{\beta}}_2}{\mathrm{Var}(Y_2)} \times \frac{\mathrm{Var}(Y_1)}{\hat{\mathbf{\beta}}_1'\mathrm{Var}(\mathbf{X}_1)\hat{\mathbf{\beta}}_1} \nonumber \\ &=& \frac{\hat{\mathbf{\beta}}_2'\mathrm{Var}(\mathbf{X}_2)\hat{\mathbf{\beta}}_2}{ \hat{\mathbf{\beta}}_1'\mathrm{Var}(\mathbf{X}_2)\hat{\mathbf{\beta}}_1} \times \frac{\hat{\mathbf{\beta}}_1'\mathrm{Var}(\mathbf{X}_2)\hat{\mathbf{\beta}}_1}{\hat{\mathbf{\beta}}_1'\mathrm{Var}(\mathbf{X}_1)\hat{\mathbf{\beta}}_1} \times \frac{\mathrm{Var}(Y_1)}{\mathrm{Var}(Y_2)} \end{eqnarray}

対数を取ることで関数の形状が左右対称となり解釈がしやすくなるため、以下のように両辺の対数をとってもよい。

\begin{eqnarray} \log(R^2_2 / R^2_1) &=& \{\log[\hat{\mathbf{\beta}}_2'\mathrm{Var}(\mathbf{X}_2)\hat{\mathbf{\beta}}_2] - \log[\hat{\mathbf{\beta}}_1'\mathrm{Var}(\mathbf{X}_2)\hat{\mathbf{\beta}}_1]\} \\ && + \{\log[\hat{\mathbf{\beta}}_1'\mathrm{Var}(\mathbf{X}_2)\hat{\mathbf{\beta}}_1] - \log[\hat{\mathbf{\beta}}_1'\mathrm{Var}(\mathbf{X}_1)\hat{\mathbf{\beta}}_1]\} \\ && + \{\log[\mathrm{Var}(Y_1)] - \log[\mathrm{Var}(Y_2)]\} \end{eqnarray}

全体の決定係数の増分のうち、右辺第1項はサンプル1から2にかけての独立変数の係数の違いによって説明される部分を、右辺第2項は決定係数の変化のうち独立変数の分散および共分散の違いによって説明される部分を、右辺第3項は従属変数の分散の違いによって説明される部分を、それぞれ意味する。

もちろんこれら3つの効果のいずれが理論的に重要であるかは、当該の研究分野の文脈によって異なってくる。仮に決定係数の違いのすべてが独立変数変動効果に帰されたならば、当該の決定係数の違いが集団の構成の違いを反映していたということを意味する。

このように要因分解法を用いることの利点は、決定係数の違いを具体的に解釈可能な3つの効果に分解することによって、その違いをもたらすメカニズムの特定に近づくことができるという点にある。

まとめ

決定係数は (1) 独立変数の限界効果、(2) 独立変数の分散および共分散、(3) 従属変数の分散、という複数の要素によって決定する。
したがって、異なるサンプル間で安易に決定係数を比較すべきではない。
もしサンプル間で決定係数を比較する場合には、その違いが何によって生じているかを考えるべきである。
要因分解法はそのために有益な方法である。

表面上異なるサンプル間で決定係数が異なっていたとしても、その裏にある違いの内実は自明ではない。われわれが知りたいのは、観察されるデータの裏にはいかなる構造があり、またそれがいかなる人びとによって構成され、その構成がいかなるマクロ的な帰結をもたらしているのかという社会的メカニズムである。決定係数はモデルのフィッティングを測るうえで便利な指標ではあるが、その値はあくまで複数の社会的メカニズムが混ざった粗い近似にすぎない。決定係数を解釈する場合、回帰分析により推定される回帰係数はもちろんのこと、それらの推定に使用される変数の分布や2変量の関連を可視化しながらその意味を注意深くみなければならない。

文献

Achen, Christopher H, 1977, “Measuring Representation: Perils of the Correlation Coefficient,” American Journal of Political Science,21(4): 805–15.
Achen, Christopher H., 1982, Interpreting and Using Regression,Sage.
Kim, Jae-On and Charles W Mueller, 1976, “Standardized and unstandardized coefficients in causal analysis: An Expository Note,” Sociological Methods and Research,4(4): 423–38.
Kim, Jae-On and G. Donald Ferree, 1981, “Standadization in Causal Analysis,” SociologicalMethods and Research,10(2): 187–210.
King, Gary, 1986, “How Not to Lie with Statistics: Avoiding Common Mistakes in Quantitative Political Science,” American Journal of Political Science,30(3): 666–87.
King, Gary, 1990, “Stochastic variation: A comment on Lewis-Beck and Skalaban’s ‘The R-Squared,’” Political Analysis,2(1): 185–200.