イベントヒストリー分析を勉強するための教科書(2017年11月時点)

*それなりに見られているようなので1年(2年?)ぶりに更新しました。

イベントヒストリー分析(生存分析)は、個体の状態の変化を問題とする時に有用な分析手法で、とくにカテゴリカル変数を多く扱う社会学にとっては重要な分析手法の1つと言えます。

この手法を勉強する際におすすめの教科書を載せておこうと思います。書籍と論文とにわけてそれぞれ紹介しています。

書籍

上のほうほど初学者向けで、下のほうに行くほど玄人向けです。

Allison, Paul D., 2014, Event History and Survival Analysis: Second Edition, Thousand Oaks: Sage.

Event History and Survival Analysis (Quantitative Applications in the Social Sciences)

Sageの緑本シリーズです。1984年が初版ですが、2014年に第2版が発売されました。離散時間モデルから始まって、連続変数のモデルに拡張していく、という構成になっています。簡潔で分かりやすく説明してある教科書だと思います。生命表や生存曲線(Kaplan-Meier法)などについては触れていないので注意が必要です。

Applied Longitudinal Data Analysis: Modeling Change and Event Occurrence
Judith D. Singer John B. Willett
Oxford University Press, USA
売り上げランキング: 70,768

これも有名な本です。前半はマルチレベルモデル(成長曲線モデル・階層線形モデル)についての解説、後半がイベントヒストリー分析についての解説になっています。イベントヒストリー分析については生命表・生存曲線のプロット、離散時間モデル(logit model, complementary log-log model)、連続時間モデル(Cox比例ハザードモデル)について解説されています。欧米の教科書らしい(?)丁寧な解説が特徴です。また、数学的なところについてはあまり突っ込んだ解説はされておらず、それがかえってわかりにくさを生んでいるところもあります。

本書は以下の日本語訳(2分冊)も出版されています。ただ、日本語がなぜか丁寧語で書かれていたり、冗長な言葉遣いだったりして、英語のほうが読みやすいかも?と思う場面もちらほら。

縦断データの分析〈1〉変化についてのマルチレベルモデリング
ジュディス シンガー ジョン ウィレット
朝倉書店
売り上げランキング: 489,208
縦断データの分析II: イベント生起のモデリング
ジュディス・D. シンガー ジョン・B. ウィレット
朝倉書店
売り上げランキング: 318,451
Applied Panel Data Analysis for Economic and Social Surveys
Hans-Juergen Andress Katrin Golsch Alexander W. Schmidt
Springer
売り上げランキング: 178,141

個人的に分かりやすいと思ったのは、縦断的なデータの分析手法を(1)従属変数が連続変数かカテゴリカル変数か、(2)従属変数の「水準 level」と「変化 change」のどちらを明らかにしたいか、という2つの観点から手法を整理している点です(時間があったら今度詳しく書こうと思います)。イベントヒストリー分析の位置づけは以下のような感じ。

Multilevel and Longitudinal Modeling Using Stata, Volume II: Categorical Responses, Counts, and Survival, Third Edition
Sophia Rabe-Hesketh Anders Skrondal
Stata Press
売り上げランキング: 104,612

この本では、マルチレベルモデルの枠組みで理解できて論文でよく見るようなモデルはすべて網羅しています。大著なのですべて読むのはしんどいと思いますが、ここに書いてあるようなことを押さえていれば、マルチレベルモデルおよびその枠組で理解できるモデル(縦断データの分析など)にかんする知識はかなり高い水準であると言ってよいと思います。

Event History Analysis (Applied Social Research Methods)
Yamaguchi
Sage Publications, Inc
売り上げランキング: 87,315

今となってはやや古い教科書ですが、これも社会学者にはよく引用されます。SASのコードが載っていたり、計算に時間がかかるのでデータの加工を工夫しなければならないといった旨の議論がなされるあたり、時代を感じます。

これも離散時間モデルから始まって連続時間モデルへと進む、という形式で解説されています。各章に分析の例が載っていますが、この筆者らしく、どれもやや高度な分析ですが、興味深く読めます。また、イベントヒストリー分析と因果関係の話が随所に出てきている点も特徴です。

その他、Introductionで、リスクセットと打ち切りの話を出す際に、データの欠測メカニズムについての話を挟んでいるところも印象的です。普通の教科書ではこういうふうに導入がなされることはめったにないので、興味深く読みました。

Event History Analysis With Stata

Event History Analysis With Stata

posted with amazlet at 16.01.07
Psychology Press (2012-10-12)

Stataのコードを紹介しつつ、イベントヒストリー分析について解説する、というテキストです。どちらかと言うと、教科書についでにStataのコードが載っているというイメージに近いです。一貫して連続時間モデル(exponential model, piecewise constant exponential model, parametric model, semiparametric model)のみ解説しており、離散時間モデルについては解説していない点には注意が必要です。混合分布モデルや、観察されない異質性の問題など、かなり高度な話題にまで触れている点も特徴です。

日本の社会学では実用的な問題から、離散時間モデルが用いられることが多いので、応用を考える際に、連続時間モデルしか解説していないという点はかなりキツいです(多分これを読んでも実際に分析するのは難しいかと…)。

Introductionで因果関係をモデリングする方法や因果関係をめぐるやや哲学的な議論が展開されています。興味がある人には面白いかも。

論文

イベントヒストリー分析にたいする理解をより深めるために役立つ論文を列挙しておきます。

Teachman, Jay D. and Mark D. Hayward. 1993. “Interpreting Hazard Rate Models.” Sociological Methods & Research 21(3):340–71.

ハザード率と生存率を結びつけつつ、結果の解釈のしかたについて数値例を出しながら解説している論文です。著者らは、イベントヒストリー分析(サバイバル分析、ハザードモデル)を行った後に、実際の生存率を予測してみて、実質的な意味を確認することを勧めています。結果の意味をより掴みやすくするためにも、こうしたことは非常に重要と思います。

Steele, Fiona. 2005. “Event History Analysis.” NCRM Methods Review Papers 4:1–37.

離散時間モデルを前提として、イベントヒストリー分析の概略をすっきりと説明してくれています。筆者のSteeleのウェブサイトには、授業の資料などが置いてあり、勉強になります。

Teachman, Jay. 2011. “Modeling Repeatable Events Using Discrete-Time Data: Predicting Marital Dissolution.” Journal of Marriage and Family 73(3):525–40.

離散時間のイベントヒストリー分析において、繰り返しイベント(Repeatable events)を分析するための3つの発展的な方法(固定効果モデル、ランダム効果モデル、GEE)について手短に解説した論文です。ある程度のマルチレベルモデルについての知識を前提とした書き方になっています。SASとStataのコードが載っているところなども親切でよいです。

Wu, Lawrence L. 2003. "Event History Models for Life Course Analysis." Handbook of the Life Course, edited by Jeylan T. Mortimer and Michael J. Shanahan. Kluwer Academic/Plenum Publishers, New York.

ライフコース研究のハンドブックのなかに収録されているイベントヒストリー分析についての解説論文ですが、手法の数理的な解説よりもむしろ、ハザード関数の形状や比例ハザード性の仮定、観察されない異質性(unobserved heterogeneity あるいはshared frailtyとも)といったイベントヒストリー分析に関わる諸概念がライフコース研究にとってどのような実質的意味を持っているのかについての記述が非常に参考になります。

この論文に書かれているようなことを知っておくと、イベントヒストリー分析をたんなる分析手法としてだけでなく、より社会科学的な意味と結びつけて意識できると思います。

Petersen, Trond. 1991. “The Statistical Analysis of Event Histories.” Sociological Methods & Research 19:270–323.

これもイベントヒストリー分析についての解説論文ですが、この論文の8節("Multistate processes")では、アウトカムが複数あるイベントのモデリングについての解説があり、そこの内容は知っておくとモデリングの選択肢が広がります。

アウトカムが複数ある場合のハザードを\(\lambda_z(t | z_j) \)とすると、このハザードをたとえば多項ロジットモデルなどをつかってそれぞれ推定する、いわゆる競合リスクモデル(competed-risk model)がまず想定できます。しかしここで紹介されているモデルはそのように推定するのではなく、イベントが起こるか否かのハザードと、イベントの生起を条件付けたうえでのアウトカムの選択の条件付き確率を別々に推定するというものです。これは本文中の式を使って表すと以下のようになります。

$$ \lambda_z(t | z_j) = \lambda(t | z_j) \times P[Z = z | T = t, z_j] $$

1980~90年頃にアメリカの社会学でイベントヒストリー分析が流行ったときには、こちらのモデルのほうがもしかすると一般的に使われていたのかもしれません。ちなみに以上2つのモデルの想定や解釈上の違いは、Hachen, David S. 1988. “The Competing Risk Model.” Sociological Methods & Research 17(1):21–54. で解説されています。