固定効果モデルへの誤解と変化を見るための方策の例

固定効果モデルについて

まず簡単に固定効果モデルについて確認します。ここでは、同一個人について複数の観察値を得るパネルデータにおける固定効果モデルを想定して、話を進めます。従属変数 Y_{it}に対して、関心のある独立変数 D_{it}の係数を推定したいとします。今回は簡単のため、Y_{it}は連続変数であるものとします。また i は個人、 tは時点を表します。 Y_{it}を、 D_{it}、その他の時変の独立変数 X_{it}、時不変の独立変数 Z_{it}で回帰する以下のモデルを考えます。

 Y_{it} = D_{it}\alpha + X_{it}\beta + Z_{i}\gamma + e_{it}           (1)

ただし e_{it} \sim Normal(0, \sigma^2_e) とします。 X_{it}および Z_{i}で他の変数を適切に統制できていない場合、\alpha の推定値にはバイアスが含まれます。固定効果モデルはこうした問題に対して、他の変数のうち時不変のもののみを統制するモデルです。すなわち以下のようなモデルを考えます。

Y_{it} = D_{it}\alpha + X_{it}\beta + u_{i} + \varepsilon_{it}          (2)

ただし \varepsilon_{it} \sim Normal(0, \sigma^2) とします。 u_iは、各個人を示すダミー変数です。 u_iを追加することにより、時不変の変数についてはすべて統制できるため、 Z_iを投入する必要はなくなります。推定の際には、上記のモデルをそのまま用いるか、もしくは個人内平均値をとって u_iを消去することでそれぞれの係数を推定します。

 Y_{it} - \bar{Y}_{i.} = (D_{it} - \bar{D}_{i.}) \alpha + (X_{it} - \bar{X}_{i.}) \beta + (\varepsilon_{it} - \bar{\varepsilon}_{i.})           (3)

(2)式においても(3)式においても、各独立変数は、個人間の平均値の差を取り除いた結果残された分散(個人内分散)を説明するものとして捉えることができます。

固定効果モデルについての誤解

上記が固定効果モデルですが、固定効果モデルについてはしばしば以下のような誤解が見られます。

(1) 固定効果モデルは独立変数の変化が従属変数の変化に与える効果を明らかにする手法である。

この誤解は、「変化」を適切に概念化できていないことから生じています。変化は、その日常的な用法からも明らかなように、「ある状態がそれまでとは別の状態に移行すること」を指しています。したがって、ある変数の値の変化は、他の時点との比較をすることによって特定することができます。またそれだけでなく、比較する時点の間に状態の違いが存在するだけでなく、時間的な前後関係についての情報が必要になります。上記のモデルは、あくまで各時点の従属変数の値を各時点の独立変数の値で回帰しているに過ぎず、変化のモデリングにはなっていません。

ここで、(3)式を見て、「固定効果モデルは個人内平均値からの偏差を用いているのだから、変化を扱えているのではないか」という反論があるかもしれませんが、これも正しくありません。このことについて例を使って示してみます。たとえば以下のように、各時点ごとにつぎのようなyの値が得られ、その平均値が4であったとします。

Rplot03

このとき、各時点ごとのyの値の偏差はそれぞれ-3、+3、-1、+1となり、固定効果モデルにおいてはこれが説明される分散を構成することになります。ここでは、各時点の偏差は単に他のすべての時点と比較したときの差を表しているに過ぎず、時間的な前後関係についての情報を用いてはいません。

他方で、各時点間のyの値の差についてみると、t=1からt=2の間では+6、t=2からt=3の間では-4、t=3からt=4の間では+2、となります。時間の前後関係を反映して、値の変化をモデルに組み込むためには、この値を推定に用いる必要があります。より一般的に言えば、 \Delta Y_{it} = Y_{it} - Y_{i,t-1}の値を用いる必要がある、ということです。このことは、独立変数についても同様です。

また、先に述べた誤解の亜種として、以下のような誤解があります。

(2) 固定効果モデルは、他の変数の影響をすべて統制し、変数どうしの因果関係を明らかにすることができる。

これはより初歩的な誤解です。(2)式を見れば明らかですが、時不変の変数を統制したとしても、重要な時変の変数をモデルに含めていなかった場合には\alphaの推定値にはバイアスが生じます。また因果関係が「Xの変化がYの変化をもたらす」という形で表現できるものとした場合、先に述べたように固定効果モデルはこのような変化を問うモデリングではありませんので、やはり因果関係を示すことにはなりません。

変化を明らかにするためには?

それでは、固定効果モデルの枠組みのもとで、独立変数の変化が従属変数の変化に与える影響を明らかにするためには、どのようにすればよいでしょうか。

これを考えるために、まず、以下の2つのタイプの変化を区別します。

  1. 可逆的な(reversible)変化:ある状態Aから別の状態Bへの変化だけでなく、状態Bから状態Aへの変化も起こりうる場合。例えば、所得(多くなったり少なくなったりする)、職業(色々な職業を移動しうる)、配偶者の有無(いたりいなかったりする)など。
  2. 不可逆的な(irreversible)変化:ある状態Aから別の状態Bへの変化は起こり得るが、状態Bから状態Aへの変化は起こり得ない場合。例えば、年齢(年をとることはあるが若返ることはない)、転職回数(増えることはあるが減ることはない)、離家経験(未経験から経験ありにはなるが、逆にはならない)など。

連続変数(カウントデータは除く)の場合、可逆的な変化をするものが多いです。他方、カテゴリカル変数の場合は、可逆的な変化をするものも、不可逆的な変化をするものもあります。

ここでは従属変数として可逆的な変化をする連続変数を想定します(不可逆的な変化をする場合は別の分析手法が適切と考えられます)。問題は関心のある独立変数の変化に関してです。

独立変数に可逆的な変化が想定される場合

例えば、所得の変化が生活満足度の変化に与える影響を明らかにしたいとします。この場合、「ある年の所得が前年と比較してどの程度増減したか」を表す変数を作成し、これを独立変数として投入します。すなわち

 Y_{it} = \alpha_1 \mathrm{income}_{it} + \alpha_2 \Delta{\mathrm{income}}_{it} + X_{it}\beta + u_i + \varepsilon_{it}         (4)

右辺第1項は時点tにおける所得が生活満足度に与える効果、右辺第2項は時点tの所得から時点t-1の所得を引いた値が生活満足度に与える効果を意味します。右辺第2項が、「変化が変化に与える影響」を適切に捉える項となります。

ただしこのアプローチには弱点もあります。第1に、\Delta \mathrm{income}_{it}を求めるためには時点t-1における所得の値がわかっている必要がありますが、最初の調査時点についてはこの値を得ることができないため、推定に用いることの情報が1時点×人数分だけ減ってしまいます。
第2に、ここでは、1単位の所得の増加は\alpha_2分の生活満足度の上昇をもたらし、他方所得の減少は-\alpha_2分の生活満足度の低下をもたらすものと想定されています(効果の対称性の仮定)。この仮定が成り立つかどうかは自明ではありません。こうした場合は、所得が増加(減少)したことを示すダミー変数を作成し、\Delta{\mathrm{income}}_{it}との交互作用項を投入するという戦略が考えられます。

独立変数に不可逆的な変化が想定される場合

独立変数に不可逆的な変化が想定される場合にも、基本的には先に述べたモデリングを適用することで対応することができます。ただし、不可逆的な変化が想定される場合は、効果の対称性の仮定については考える必要はありません(たとえば子ども人数についていえば、1人→2人という方向に変化することはありますが、2人→1人に変化することは例外的です)。したがってこの場合は考えるべき点がより少なくてすみます。

まとめ

固定効果モデルは、「独立変数の変化が従属変数の変化に与える影響=因果関係を明らかにするためのモデル」ではありません。固定効果モデルを用いてこれを見るためにはモデリングに工夫が必要となります。

なお今回紹介したテクニックのほかに、一階差分モデル(First-difference model)を用いるテクニックがあります(有田 2013)。もちろんここで紹介した以外にも、変化が変化に与える影響については、さまざまなパターンがありえます。この点について、周到な理論を準備する必要があると言えます。

間違いなどに気づいた場合は適宜コメントをよろしくお願いします。

参考文献

  • 有田伸,2013,「変化の向き・経路と非変化時の状態を区別したパネルデータ分析 ――従業上の地位変化がもたらす所得変化を事例として」『理論と方法』28(1): 69–85.