Variance Function Regressionの理論・実装・応用例

近年、格差・不平等に関する研究において、Variance Function Regression(分散関数回帰分析、以下VFR)という手法が注目を集めています。この手法は簡単にいうと、通常のOLS回帰分析で発生する残差(residual)に対して寄与する要因を明らかにする手法です。回帰分析では集団間(between group)の従属変数の平均値の差を明らかにすることができますが、VFRではこれに加えて、集団内(within group)の従属変数の値の分散を同時にモデル化することができます。社会学における応用例としては、Western et al. (2008) 、Western and Rosenfeld (2011) 、Zhang (2011) 、Williams (2013) 、瀧川(2013)などが挙げられます。今回は、Wertern and Bloome (2009) にもとづきながら、この手法について簡単にメモをしていきたいと思います。

なお、以下の内容については先日研究会にて報告をしました(ファイルはこちら)。以下のものよりも少し詳しく書いているので、参考にしていただければと思います。

理論|VFRとは何か?

OLS回帰分析では、従属変数の分散を、独立変数の分散によって「説明する」ことが目指されます。

Y_i = \beta_0 + \beta_1 X_i + e_i

ここで、Y_iの分散は、x_iの分散によって説明される分散と、それ以外の残差に分解されます。VFRの用語法では、前者(V(\hat{Y}_i))を集団間分散(variance between-group)、後者(V(\hat{e}_i))を集団内分散(variance within-group)といいます。 VFRのポイントは、前者だけでなく、後者をさらに他の独立変数によって分解することで、分散の大きい集団を特定するという点にあります。たとえば所得の平均値が同じ400万円の集団AとBがあったとして、集団Aの所得の標準偏差が100万、集団Bの所得の標準偏差が300万円だったとしたら、その評価は変わってくるはずです。たとえば、集団Bはより経済的リスクの高い集団であるとか、集団Bは同一の集団としての利害を共有しにくいなどといった解釈が考えられます。

VFRの具体的な推定にあたっては、以下の2つのモデルを同時推定します。

 \hat{Y}_i = X_i \beta    (1)
 \log{\sigma}^2_i = Z_i \lambda    (2)

 {\sigma}^2 は、最初のモデルにおける残差の分散を意味しています。Z_iには、X_iと同じ変数が含まれていてもそうでなくても構いません。

具体的な推定方法として、two-stage, ML(最尤法), REML(制限つき最尤法), Bayesの4つが紹介されています(詳しくは論文を参照ください)が、後者3つのうちのいずれかが推奨されています。REMLおよびBayesは、MLと比較して小さいサンプルサイズでもバイアスの少ない推定量を得られるという点でより優れています。MLは、Stataのglmを使って推定できる点で、ライトユーザーにはとっつきやすいです。今後余裕があったら、REMLおよびBayesのやり方についても勉強してみます。

注意しなくてはならないのは、モデルの特定化についてです。モデル(1)とモデル(2)を同時に推定する分、通常の回帰分析よりもモデルの特定化にはより注意を払う必要があります。モデル(1)とモデル(2)を適切に特定化できていない場合で、生じる影響が異なります。

  • モデル(1)を適切に特定化できていない場合:通常の回帰分析と同様、係数\betaの推定値にバイアスが生じる。加えて、残差{\sigma}^2は真の残差とはならないため、たとえモデル(2)を適切に特定できたとしても、係数\lambdaの推定値にバイアスが生じる。
  • モデル(2)を適切に特定化できていない場合:モデル(1)の標準誤差の大きさにバイアスが生じるが、モデル(1)が適切に特定化されていれば、係数\betaは不偏推定量となる。

実装|Stataを用いて

では、Wertern and Bloome (2009) のAppendixに載っているコードを参考にして、実際にやってみましょう。Stataを使用し、MLで推定を行います。できればREMLまたはBayesで推定量を得るのが望ましいですが、MLはサンプルサイズが大きければREMLおよびBayesと遜色のない推定値を与えますので、とりあえずより分かりやすいこちらでやってみます。

推定の手順は以下のようになります。

  1. y_ix_iで回帰し、係数\hat{\beta}および残差の予測値\hat{e}_iを得る(式(1)にあたる)。
  2. 残差の予測値の2乗をZ_iを用いてガンマ回帰により推定し、係数\hat{\lambda}および\hat{\sigma}^2_iを得る(式(2)にあたる)。
  3. 1/\hat{\sigma}^2_iで重みづけしたうえでふたたび式(1)を推定し、残差の予測値\hat{e}_iの値を更新する。
  4. 以上の手順を尤度の計算が収束するまで繰り返し、最終的な係数\hat{\beta}\hat{\lambda}を得る。

先日使用した車のデータを使って分析してみます。基本的にはWertern and Bloome (2009)のコードをほぼそのまま使用しています。


/*車のデータを利用します。*/
use http://www.stata-press.com/data/r13/auto ,clear

/*local変数を定義します。xは式(1)の、zは式(2)の独立変数にそれぞれ対応しています。*/
local x = "weight mpg foreign"
local z = "weight mpg foreign"
/*priceをxで回帰し、係数(beta)および残差eの予測値を得ます。さらに残差を2乗して残差平方和を得ます。*/
reg price 'x'
predict R, r
gen R2=R^2

/*eの2乗をガンマ回帰し、係数(gamma)およびsigmaの2乗の予測値を得ます。その際、リンク関数としてlogを指定します。*/
glm R2 'z', family(gamma) link(log)
predict S2, mu

/*尤度関数を構築し、これを反復計算の初期値とします。*/
gen LOGLIK = -(1/2)*(ln(S2)+(R2/S2))
egen LL0 = sum(LOGLIK)
display LL0

/*以下、収束するまで計算を繰り返します。*/
gen DLL=1
while DLL > .00001 {
drop R
quietly reg price 'x' [aw=1/S2] 
drop S2
predict R, r
replace R2=R^2
est store BETA
quietly glm R2 'z', family(gamma) link(log)
predict S2, mu
est store LAMBDA
replace LOGLIK = -(1/2)*(ln(S2)+(R2/S2))
egen LLN = sum(LOGLIK)
display LLN
replace DLL=LLN-LL0 
replace LL0=LLN
drop LLN
}

/*無事収束したら、係数を確認します。*/
est tab BETA LAMBDA, b se stat(N r2)

出力は以下のような感じになります。例えばこの場合、foreignダミーがbeta, lambdaともに統計的に有意な正の値を呈しています。外車の場合は価格が平均的に高いだけでなく、価格の分散も高いと言えます。

VFR

ただこの結果だと、価格が高いと価格の分散も高いというのは極めて当たり前の結果のような感じですね。betaの係数とlambdaの係数が逆だったり、もしくはlambdaだけが統計的に有意だったりすると面白い結果と言えるかもしれません。


応用例|VFRを用いた社会学における研究の紹介

以下では、VFRを用いた論文の簡単な要約をまとめます。VFRを使ってこういうことができるんだ、という参考になるかと思います。※読んだら随時更新していきます。

Western, Bruce, Deirdre Bloome, and Christine Percheski, 2008, “Inequality among American Family with Children, 1975 to 2005,” American Sociological Review, 73(6): 903–20.

1975年から2005年にかけてのアメリカでは、子どもをもつ家族の間の所得の分散は6割近く増大した。こうした不平等の趨勢的な拡大は、どのような要因から生じたのだろうか。第1に、労働市場の要因が考えられる。ここではその一因として、高学歴層の賃金プレミアムの上昇(低技能労働者の相対的な賃金減少)が挙げられる。第2に、人口学的要因である。シングルペアレントの増加や、母親の就業の増加がその一因として指摘できる。本研究では、VFRを用いて、こうした要因が集団間・集団内の不平等を変化させることによって不平等の拡大を生じさせたことを示す。

具体的には、VFRの手法に、要因分解の方法をあわせることで、トレンドを以下のように所得効果(income effect)と構成効果(demographic effect)とに分解している。

  • 集団間所得効果:ある集団の所得が他の集団と比較して上昇(低下)することによる変化
  • 集団間構成効果:所得の高い(低い)集団の構成比率が上昇(低下)することによる変化
  • 集団内所得効果:集団内の所得の分散がより大きく(小さく)なることによる変化
  • 集団内構成効果:所得の分散の大きい(小さい)集団の構成比率がより大きく(小さく)なることによる変化

分析の結果は以下の3点に要約される。第1に、学歴による所得の不平等の拡大と単親世帯の増加が所得の不平等を拡大する役割を果たした。第2に、教育拡大と母親の就業率の増加がその分を相殺する役割を果たした。第3に、所得の分散の拡大のうち半分以上は、学歴と家族形態により定義される集団内部の所得の分散の増大によって説明される。

Western, Bruce and Jake Rosenfeld, 2011, “Unions, Norms, and the Rise in U.S. Wage Inequality,” American Sociological Review, 76(4): 513–37.

1973年から2007年にかけて、アメリカでは賃金の不平等が拡大し、さらにそれと並行して、労働組合の加入率が大きく減少した。本稿の目的は、労働組合の退潮と賃金の不平等との関係を改めて問い直すことにある。具体的には、(1)教育および他の要因を統制したうえで、労働組合の退潮が賃金の不平等の拡大に与えた影響を明らかにし、(2)労働組合が労働組合に加入していない労働者の間の賃金の不平等を緩和する効果をもつかどうかを、地域・産業ごとの労働組合率を用いて明らかにする。

労働組合は、加入者にとっては、教育水準の低い・低技能の労働者の賃金を引き上げる(between-group effect)とともに、労使間交渉によって企業・産業内の賃金を平準化(within-group effect)させ、賃金の平等化をもたらす。さらに経験的には、労働組合は文化的・政治的・制度的なチャネルを通して労働組合に加入していない労働者の賃金をも引き上げるという効果も指摘されている。そこで本稿では、労働組合加入率の変化、およびそれとは独立して、労働者の属する地域・産業の労働組合加入率(以下、これを普及率という)の変化、そして教育水準変化がそれぞれ集団間・集団内不平等の変化に対してどの程度寄与しているかをVFRを用いた要因分解の手法によって明らかにする。

分析の結果、男性においては、労組加入率、普及率、教育水準の変化はそれぞれ賃金の不平等の増大に寄与していること、女性においては、うち普及率と教育水準の変化だけが賃金の不平等の増大に寄与していることが示された。普及率が労組加入とは独立して、とくにwithinの不平等を縮小する影響を有していたという点が注目すべき結果として指摘されている。

Williams, Mark, 2013, “Occupations and British Wage Inequality, 1970s-2000s,” European Sociological Review, 29(4):841–57.

1970年代から2000年代にかけてのイギリスでは賃金の不平等が拡大したが、それが職業構造の変化とどのように関連しているかについては十分に明らかになっていない。本稿では、不平等が大きく拡大した1975-1996年と、安定的になった1997-2008年の2つの時期に区分し、職業構造の変化が賃金の不平等にもたらした影響を明らかにする。

職業構造の変化が賃金の不平等の変化に与える影響は、(1)職業の構成比率の変化、(2)職業間賃金の変化、(3)職業内の不平等の変化、という3つのメカニズムに区別できる。たとえばSørensen (2000) など近年の階層理論は、職業により賃金が配分される傾向は弱まり、代わって個人の生産性と賃金との関連が強まっている、すなわち(3)が重要となりつつある、と主張しているという。ただし、職業が階層化の源(source)となっているとすれば、どのような職業の単位がこれに当たるのかという点を考える必要がある。本稿では、Gruskyらのマイクロクラスの考え方(disaggregate stratification)を採用し、より細かい職業分類を用いつつVFRによって賃金の不平等の要因分解を行う。

分析の結果は以下のように要約される。1975-1996年の賃金の不平等の拡大は主に職業間不平等の拡大によるもので、なかでももともと賃金の高い職業においてさらなる賃金の増加が見られたことが原因である。さらに1997-2008年の不平等の趨勢の安定化は、もともと賃金の低い職業のキャッチアップが見られたことが主な原因である。さらにこうした職業間不平等の拡大は、教育や就業年数、公的・私的セクター、労使間交渉のカバレッジの変化、人口学的変化といった職業以外の分布の変化とは独立に影響を有している。

より細かい職業分類を用いることで、賃金の不平等の拡大はおもに職業間の不平等の拡大によるものであることが明らかになったが、他方でGoldthorpeの言うようなより大きな職業分類(big class)で見たときにも職業間不平等の拡大が見られることには注意すべきである。これを踏まえて、今後イギリスにおいて階級および職業がどのように経済的不平等を生じさせているのかを検討していく必要がある。

Zheng, Hui, Yang Yang, and Kenneth C. Land, 2011, “Variance Function Regression in Hierarchical Age-Period-Cohort Models: Applications to the Study of Self-Reported Health,” American sociological review, 76(6):955–83.

Yang and Land (2006) で提唱されたHierarchical Age-Period-Cohort Analysis(以下HAPC)に、VFRの枠組みを取り入れて拡張させた手法(Hierarchical-Age-Period-Cohort-Variance-Function-Regression-Analysis、以下HAPC-VFR)を提案した論文。

HAPCは、Age, Period, Cohortの3変数は同時に考慮すると完全な共線性が生じ(Age = Period - Cohort)、パラメータの推定ができないという問題への対策として提案された手法である(Yang and Land 2006, 2008)。具体的には、反復クロスセクションデータを用い、個人i ( i = 1, \cdots, n_{jk})が出生コホートj ( j = 1, \cdots, J) および時代(調査時点)k (k = 1, \cdots, K)にネストしているものと見なして、マルチレベルモデルを構築するという発想(closs-clasified random-effects model)にもとづく。モデルは以下のようになる。

level 1 (within-cell): Y_{ijt} = \beta_{0jk} + X_{ijk}\beta + e_{ijk}, e_{ijk} \sim N(0, \sigma^2)   (1)

level 2 (between-cell): \beta_{0jk} = \gamma_0 + u_{0j} + v_{0k}, u_{0j} \sim N(0,\tau_u), v_{0k} \sim N(0,\tau_v)   (2)

年齢はlevel 1の共変量として連続変数(2次の項まで考慮)で投入され、コホート・時代の効果はそれぞれlevel 2で、\beta_{0k} = \gamma_0 + u_{0j}\beta_{0k} = \gamma_0 + v_{0k}というランダム効果として考慮される。これによって、共線性の問題を回避してAge, Period, Cohortの各効果を推定することが可能となる。

within-varianceについても同種のモデルを組み立てることで、within-varianceに対するAge, Period, Cohortの寄与を明らかにすることができる。

level 1 (within-cell):  \log(\sigma_{ijk}^2)  = \lambda_{0jk} + X_{ijk}\lambda   (3)

level 2 (between-cell):  \lambda_{0jk} = \pi_0 + \omega_{0j} + \phi_{0k}, \omega_{0j} \sim N(0,\phi_\omega), \phi_{0k} \sim N(0,\psi_\phi)   (4)

推定はREMLでもMLでも可能だが、本稿ではMLを用いて推定が行われている。このモデルを用いた分析の実例として、主観的健康感を従属変数とする分析を行っている(結果については省略します)。


感想

使い所によってはなかなか面白い分析ができそうな手法ではあります。ただ、集団内分散というのは原理的には理解できますが、集団間分散と比べるとその意味はやや分かりにくいです。原理的には従属変数が連続変数であれば何でもVFRで分析することができるわけですが、どのような理論的意義があるのか、どのように解釈できるのか、という点を考えて使う必要がありそうです。

また、モデルの特定化の問題はなかなか難しいところです。モデル(1)が特定化できていない場合、モデル(1)の係数にもモデル(2)の係数にもバイアスが生じるため、モデルの特定化には通常よりもさらに注意を払う必要があります。Western and Bloome (2009)では、繰り返し調査データを用いた分散の要因分解に力点を置いた解説がなされていますし、VFRを用いたWesternらの論文はいずれもこうした不平等の趨勢の要因分解によるものです(Western et al. 2008; Western and Rosenfeld 2011)。趨勢の要因分解の場合、主に興味があるのは係数の推定値ではないので、係数にバイアスがあることはさほど問題にはなりません。その結果、集団内・集団間の分散をそれぞれ推定する、というVFRの強みを出しやすい側面があるのかもしれません。

なお、VFRを使った分析ではないですが、同じく集団間不平等と集団内不平等に関心を置いた研究としてKim and Sakamoto (2008) やMouw and Kalleberg (2010) が挙げられます。所得・賃金の不平等に関する研究には興味があるので、今後こういった分野もフォローしていきたいところです。


参考文献

  • Kim, ChangHwan and Arthur Sakamoto, 2008, “The Rise of Intra-Occupational Wage Inequality in the United States, 1983 to 2002,” American Sociological Review, 73(1): 129–57.
  • Mouw, Ted and Arne L. Kalleberg, 2010, “Occupations and the Structure of Wage Inequality in the United States, 1980s to 2000s,” American Sociological Review, 75(3): 402–31.
  • Sørensen, Arge B., 2000,  “Toward a Sounder Basis for Class Analysis,” American Journal of Sociology, 105(6): 1523–58.
  • 瀧川裕貴, 2013, 「現代日本における所得の不平等――要因の多次元性に注目して」佐藤嘉倫・木村敏明編『不平等生成メカニズムの解明――格差・階層・公正』ミネルヴァ書房.
  • Western, Bruce and Deirdre Bloome, 2009, “Variance Function Regressions for Studying Inequality.” Sociological Methodology, 39(1): 293–326.
  • Western, Bruce, Deirdre Bloome, and Christine Percheski, 2008, “Inequality among American Family with Children, 1975 to 2005,” American Sociological Review, 73(6): 903–20.
  • Western, Bruce and Jake Rosenfeld, 2011, “Unions, Norms, and the Rise in U.S. Wage Inequality,” American Sociological Review, 76(4): 513–37.
  • Williams, Mark, 2013, “Occupations and British Wage Inequality, 1970s-2000s,” European Sociological Review, 29(4):841–57.
  • Yang, Yang and Kenneth C. Land, 2006, “A Mixed Models Approach To the Age-Period-Cohort Analysis of Repeated Cross-Section Surveys, With an Application To Data on Trends in Verbal Test Scores,” Sociological Methodology 36(1): 75–97.
  • Yang, Yang and Kenneth C. Land, 2008, “Age-Period-Cohort Analysis of Repeated Cross-Section Surveys: Fixed or Random Effects?” Sociological Methods & Research, 36(3): 297–326.
  • Zheng, Hui, Yang Yang, and Kenneth C. Land, 2011, “Variance Function Regression in Hierarchical Age-Period-Cohort Models: Applications to the Study of Self-Reported Health,” American sociological review, 76(6):955–83.