*この記事はこちらのウェブサイトに置かれているものです.
従属変数\(Y_{it}\)を独立変数\(X_{it}\)およびその2乗項\(X_{it}^2\)で回帰する以下のモデルを考える. \[ Y_{it} = \beta_0 + \beta_1 X_{it} + \beta_2X_{it}^2 + u_i + \varepsilon_{it} \tag{1} \]
\(X_{it}\)と\(Y_{it}\)の個人内平均をとった式は,\(X_{it} = \bar{X}_{i.}\),\(Y_{it} = \bar{Y}_{i.}\)を代入して,以下のようになる.
\[ \bar{Y}_{i.} = \beta_0 + \beta_1 \bar{X}_{i.} + \beta_2\bar{X}_{i.}^2 + u_i + \bar{\varepsilon}_{i.} \]
上式から下式をひいて以下を得る.
\[ Y_{it} - \bar{Y}_{i.} = \beta_1 (X_{it} - \bar{X}_{i.}) + \beta_2(X_{it}^2 - \bar{X}_{i.}^2) + (\varepsilon_{it} - \bar{\varepsilon}_{i.}) \tag{2} \]
このように,1乗項と2乗項の両者が同じ変数によって定義されている場合は問題がない.これはたとえばStataを使っているばあいに,xtregの独立変数にc.x##c.xを指定するようなことを意味する.
このように2乗項を投入した固定効果モデルは,連続変数の効果が線形でないことを,個人効果\(u_i\)を統制したうえで取り出すモデルである.たとえば被雇用者(正社員)の賃金カーブは年齢の2乗項で表現できることはよく知られている.この関係は個人効果を統制してもなお見られるのかどうかをこのモデルを使って確認することはできる.
ただしその解釈はクロスセクションの分析とはかなり異なってくることに注意が必要である.というのも,個人内平均からの偏差の意味が人によって異なってくるからだ.\(X_{it} - X_{i.}\)というのは,ある人にとっては30歳からの偏差かもしれないし,ある人にとっては40歳からの偏差かもしれない.なので,先の例で言うと,ここでの係数\(\beta_1\)および\(\beta_2\)を「真の」年齢による賃金カーブとして解釈できるのは,個人内平均\(X_{i.}\)がサンプル内のすべての個人について同一あるいは無視できるくらい小さい場合に限られるだろう.したがってほとんどの場合,固定効果モデルにおいて,\(\beta_1\)と\(\beta_2\)それ自体を積極的に解釈するのは避けたほうがよいと思う.
しかしながら,\(X\)以外の独立変数の係数に関心があり,かつ,母集団における関係が(1)式のように(2次の関係によって)表せる,と想定できるのであれば,当然,\(X_{it}\)と\(X_{it}^2\)のいずれも独立変数として投入すべきである.この点はクロスセクションのときと同じである.
しかし,2乗項を表す変数が別の変数として定義されている場合は問題があるかもしれない.これを確認してみたい.
たとえば,変数\(X_{it}\)を2乗した(あるいは,2乗して100で割ったりした)変数\(Z_{it}\)を作成したとする.
\[ Z_{it} = X_{it}^2 \] これはStataだと,generate xsq = x^2で変数を作成したうえで,xtregの独立変数としてx xsqを指定するようなことを意味する.具体的には独立変数\(X_{it}\)および\(Z_{it}\)で\(Y_{it}\)を回帰するモデルは以下のようになる.
\[ Y_{it} = \beta'_0 + \beta'_1 X_{it} + \beta'_2Z_{it} + u_i + \varepsilon_{it} \]
各変数の個人内平均をとった式は以下のようになる.
\[ \bar{Y}_{i.} = \beta'_0 + \beta'_1 \bar{X}_{i.} + \beta'_2 \bar{Z}_{i.} + u_i + \bar{\varepsilon}_{i.} \]
上式から下式をひいて以下の式を得る.
\[ Y_{it} - \bar{Y}_{i.} = \beta'_1 (X_{it} - \bar{X}_{i.}) + \beta'_2(Z_{it} - \bar{Z}_{i.}) + (\varepsilon_{it} - \bar{\varepsilon}_{i.}) \tag{3} \]
ここで問題かもしれないように感じるのは,\(\bar{Z}_{i.} = \bar{X}_{i.}^2\)は成り立たないということである.一般的にいって,2乗の平均値は平均値の2乗には一致しないからだ.このことを簡単な数値例で確認してみよう.
i | t | X | Z | mean of X | squared mean of X | mean of Z |
---|---|---|---|---|---|---|
1 | 1 | 1 | 1 | 3 | 9 | 11 |
1 | 2 | 2 | 4 | 3 | 9 | 11 |
1 | 3 | 3 | 9 | 3 | 9 | 11 |
1 | 4 | 4 | 16 | 3 | 9 | 11 |
1 | 5 | 5 | 25 | 3 | 9 | 11 |
2 | … |
ここから明らかなように,\(X_{it}\)の平均値の2乗(squared mean of X)と,\(X_{it}^2 = Z_{it}\)の平均値(mean of Z)は異なっている.この事実は,係数の推定値にバイアスをもたらすのだろうか.
(2)式と(3)式では同じ係数を得ることができるのだろうか.(2)式と(3)式をくらべると,以下の条件が成り立っているとき,係数\(\beta_1 = \beta'_1\)および\(\beta_2 = \beta'_2\)となるといえる.
\(X_{it}^2 - \bar{X}_{it}^2 = Z_{it} - \bar{Z}_{it}\)が成り立っている.
\(X_{it}^2 - \bar{X}_{it}^2 = Z_{it} - \bar{Z}_{it} + \alpha\)(\(\alpha\)は定数)が成り立っている.このとき,\(\alpha\)は個人効果\(u_i\)に吸収される(切片になる).
このことをふまえて,先ほどの数値例にあらたに列を追加したものが以下となる.
i | t | X | Z | mean of X | squared mean of X | mean of Z | X^2 - bar(X)^2 | Z - bar(Z) |
---|---|---|---|---|---|---|---|---|
1 | 1 | 1 | 1 | 3 | 9 | 11 | -8 | -10 |
1 | 2 | 2 | 4 | 3 | 9 | 11 | -5 | -7 |
1 | 3 | 3 | 9 | 3 | 9 | 11 | 0 | -2 |
1 | 4 | 4 | 16 | 3 | 9 | 11 | 7 | 5 |
1 | 5 | 5 | 25 | 3 | 9 | 11 | 16 | 14 |
2 | … |
たしかに\(X_{it}\)の平均値の2乗(squared mean of X)と,\(X_{it}^2 = Z_{it}\)の平均値(mean of Z)は異なっているものの,両者を使って計算される\(X_{it}^2 - \bar{X}_{i.}^2\)と\(Z_{it} - \bar{Z}_{i.}\)の間にはつねに\(X_{it}^2 - \bar{X}_{i.}^2 = Z_{it} - \bar{Z}_{i.} +2\)という関係が成り立っている.つまり,先ほどの条件2が成り立ち,\(\beta_1 = \beta'_1\)および\(\beta_2 = \beta'_2\)となる.
したがって,(2)と(3),いずれの式を用いたとしても,\(u_i\)を統制したうえでの係数\(\beta_1\)および\(\beta_2\)が得られることとなる.