1 Introduction はじめに


「階層ベイズモデル」という用語は、少なくとも社会学をやっている学生からすると馴染みが薄いですが、これは要するに、「マルチレベルモデル(Multilevel model)」あるいは「階層線形モデル(Hierarchical linear model)」あるいは「混合効果モデル(Mixed effect model)」と呼ばれているモデルを、ベイズ的な方法によって推定することを意味します。数式についてはのちほど。



なお、本ページは麦山のウェブサイトに置かれています。例示に使用したデータはFinch, W. Holmes, Jocelyn E. Bolin, and Ken Kelley. 2014. Multilevel Modeling Using R. CRC Press.で使用されているデータであり、こちらからダウンロードすることができます。Languageというデータがそれです。

2 Preparing Packages パッケージの準備







#dplyrやtidyr, ggplot2など一連のパッケージ

3 Preparing Data データの準備


# データの読み込み
widedata <- read.csv("Language.csv", header = TRUE, sep=",")
widedata2 <- widedata[,c(1:8)]

subdata <- widedata2 %>%
  subset(school != 1 & school != 7 & school != 17 & school != 24 & school != 28 & school != 29) %>%
  sample_n(size = 500)

# wideデータをlongデータに変換し、変数"id"を作成
longdata <- subdata %>%
  gather(time, score, LangScore1:LangScore6) %>%
  rename("id" = ID) %>%

# 文字列の削除
longdata$time <- 

## [1] 3000    4
kable(head(longdata, n = 15))
id school time score
2 4 1 211
2 4 2 213
2 4 3 214
2 4 4 215
2 4 5 211
2 4 6 223
3 4 1 223
3 4 2 229
3 4 3 228
3 4 4 232
3 4 5 232
3 4 6 247
12 4 1 214
12 4 2 216
12 4 3 194

4 Standard Linear Model 通常の線形モデル


# 10ケースを無作為抽出
rand <- sample(unique(longdata$id), 10)

# 無作為抽出した各個体についてスコアの推移をみる 
ggplot(data = longdata[longdata$id %in% rand,], aes(x = time, y = score)) + 
  geom_point() + 
  ylim(150, 250) + 
  geom_smooth(method = "lm", formula = y ~ x) + 



Yij=β0+β1Xij+εij,   εijN(0,σ2)

# 線形モデルの推定
m1 <- lm(score ~ time, data = longdata)

# 結果を出力
## Call:
## lm(formula = score ~ time, data = longdata)
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -50.445 -10.296   1.938  11.704  43.321 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 193.1469     0.6803  283.92   <2e-16 ***
## time          3.3830     0.1747   19.37   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 16.34 on 2998 degrees of freedom
## Multiple R-squared:  0.1112, Adjusted R-squared:  0.1109 
## F-statistic: 375.1 on 1 and 2998 DF,  p-value: < 2.2e-16


5 Multilevel Model マルチレベルモデル

5.1 What is Multilevel Model? マルチレベルモデルとは



これは、切片がグループjによって異なること、および、変数Xijの傾きがグループjによって異なることを認めたモデルとなります。ここで切片および傾きのばらつきは2変量正規分布にしたがうと仮定しておきます(この仮定は後から緩めることもできます)。この場合、新たに投入されたu0j,u1jのことをランダム効果(Random effect)、前者をとくにランダム切片(Random intercept)、後者をとくにランダム傾き(Random slope)といいます。ここではランダム効果の間に相関を認めていますが、これを0に設定することも可能です。



5.2 Maximum Likelihood 最尤法(最適化)での推定

マルチレベルは基本的にはOLSのように解析的に解くことはできず、最尤法などの数値計算によって解くのがふつうです。ここではこの方法の詳細には立ち入りませんが、興味のあるかたはRaudenbush, Stephen W., and Anthony S. Bryk. 2002. Hierarchical linear models: Applications and data analysis methods. Sage. などを参照ください。

5.2.1 Random-Intercept Model ランダム切片モデル



# 切片のみモデルの推定
model0 <- lmer(score ~ 1 + (1 | id),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)

# 推定結果を出力
## summary from lme4 is returned
## some computational error has occurred in lmerTest
## Linear mixed model fit by maximum likelihood  ['lmerMod']
## Formula: score ~ 1 + (1 | id)
##    Data: longdata
##      AIC      BIC   logLik deviance df.resid 
##  23460.7  23478.7 -11727.3  23454.7     2997 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -3.5066 -0.5052  0.0738  0.5800  3.1822 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  id       (Intercept) 206.76   14.379  
##  Residual              93.43    9.666  
## Number of obs: 3000, groups:  id, 500
## Fixed effects:
##             Estimate Std. Error t value
## (Intercept) 204.9873     0.6668   307.4


ちなみに,ICC(Intra-Class Correlation, 級内相関係数)を計算することもできます。ICCとは、総分散のうちレベル2の分散が占める割合がどの程度であるかを示す指標で、0以上1以下の値を取ります。これは以下のように定義されます。



icc <- 206.76/(206.76 + 93.43)
## [1] 0.6887638



# 独立変数timeを追加
model1 <- lmer(score ~ 1 + time + (1 | id),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)

# 推定結果を出力
## Linear mixed model fit by maximum likelihood t-tests use Satterthwaite
##   approximations to degrees of freedom [lmerMod]
## Formula: score ~ 1 + time + (1 | id)
##    Data: longdata
##      AIC      BIC   logLik deviance df.resid 
##  22063.0  22087.0 -11027.5  22055.0     2996 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -3.9193 -0.5075  0.0400  0.5668  5.0363 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  id       (Intercept) 213.43   14.609  
##  Residual              53.38    7.306  
## Number of obs: 3000, groups:  id, 500
## Fixed effects:
##              Estimate Std. Error        df t value Pr(>|t|)    
## (Intercept)  193.1469     0.7207  678.3000  268.01   <2e-16 ***
## time           3.3830     0.0781 2500.0000   43.31   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Correlation of Fixed Effects:
##      (Intr)
## time -0.379

5.2.2 Random-Intercept and Random-Slope Model ランダム切片・ランダム傾きモデル




# timeの係数にランダム効果を認める
model2 <- lmer(score ~ 1 + time + (1 + time | id),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)

# 結果を出力
## Linear mixed model fit by maximum likelihood t-tests use Satterthwaite
##   approximations to degrees of freedom [lmerMod]
## Formula: score ~ 1 + time + (1 + time | id)
##    Data: longdata
##      AIC      BIC   logLik deviance df.resid 
##  21857.7  21893.7 -10922.8  21845.7     2994 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -4.2522 -0.4737  0.0197  0.5210  5.2730 
## Random effects:
##  Groups   Name        Variance Std.Dev. Corr 
##  id       (Intercept) 343.714  18.540        
##           time          2.687   1.639   -0.76
##  Residual              43.971   6.631        
## Number of obs: 3000, groups:  id, 500
## Fixed effects:
##             Estimate Std. Error       df t value Pr(>|t|)    
## (Intercept) 193.1469     0.8739 500.0000  221.03   <2e-16 ***
## time          3.3830     0.1020 500.0000   33.17   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Correlation of Fixed Effects:
##      (Intr)
## time -0.716


# モデル間でLoglikelihood testをして適合度を検定
anova(model0, model1, model2)
## Data: longdata
## Models:
## object: score ~ 1 + (1 | id)
## ..1: score ~ 1 + time + (1 | id)
## ..2: score ~ 1 + time + (1 + time | id)
##        Df   AIC   BIC logLik deviance   Chisq Chi Df Pr(>Chisq)    
## object  3 23461 23479 -11727    23455                              
## ..1     4 22063 22087 -11028    22055 1399.67      1  < 2.2e-16 ***
## ..2     6 21858 21894 -10923    21846  209.31      2  < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


model2nocor <- lmer(score ~ 1 + time + (1 | id) + (-1 + time|id),
               data      = longdata,
               REML      = FALSE,
               na.action = na.omit)

## Linear mixed model fit by maximum likelihood t-tests use Satterthwaite
##   approximations to degrees of freedom [lmerMod]
## Formula: score ~ 1 + time + (1 | id) + (-1 + time | id)
##    Data: longdata
##      AIC      BIC   logLik deviance df.resid 
##  22045.2  22075.2 -11017.6  22035.2     2995 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -4.0925 -0.4872  0.0313  0.5426  5.0025 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  id       (Intercept) 235.08   15.332  
##  id.1     time          1.00    1.000  
##  Residual              48.55    6.968  
## Number of obs: 3000, groups:  id, 500
## Fixed effects:
##              Estimate Std. Error        df t value Pr(>|t|)    
## (Intercept) 193.14693    0.74453 556.10000  259.42   <2e-16 ***
## time          3.38297    0.08689 556.10000   38.94   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Correlation of Fixed Effects:
##      (Intr)
## time -0.300

5.3 Baysian Estimation ベイズでの推定


  • Mac OSを使用している場合:Xcodeというアプリケーションをインストール。
  • Windowsを使用している場合:Rtoolsというアプリをインストール。

5.3.1 Estimation without Prior 事前分布を指定しないで推定

では、先ほどのModel 2をベイズ推定で求めてみましょう。brmsパッケージに含まれているbrmという関数を使います。まずコードは以下のとおりです。モデル部分およびデータの指定の部分は先のlme4と同じで、わかりやすいです。計算の負荷を減らすために繰り返しの回数をちょっと少なめに設定しています。

# brm関数を使って推定
model2b <- brm(score ~ 1 + time + (1 + time | id), 
               data    = longdata,
               prior   = NULL, #事前分布を指定。NULLと記述した場合は一様分布
               chains  = 4, #chainの回数を指定
               iter    = 1000,  #繰り返しの回数を指定
               warmup  = 500 #ウォームアップの回数を指定
# 結果の出力
##  Family: gaussian(identity) 
## Formula: score ~ 1 + time + (1 + time | id) 
##    Data: longdata (Number of observations: 3000) 
## Samples: 4 chains, each with iter = 1000; warmup = 500; thin = 1; 
##          total post-warmup samples = 2000
##     ICs: LOO = NA; WAIC = NA; R2 = NA
## Group-Level Effects: 
## ~id (Number of levels: 500) 
##                     Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sd(Intercept)          18.55      0.67    17.25    19.92        803    1
## sd(time)                1.64      0.10     1.43     1.84        994    1
## cor(Intercept,time)    -0.76      0.03    -0.82    -0.69       1566    1
## Population-Level Effects: 
##           Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## Intercept   193.17      0.86   191.53   194.92       1104    1
## time          3.38      0.10     3.18     3.57       1764    1
## Family Specific Parameters: 
##       Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sigma     6.64      0.11     6.43     6.84       1142    1
## Samples were drawn using sampling(NUTS). For each parameter, Eff.Sample 
## is a crude measure of effective sample size, and Rhat is the potential 
## scale reduction factor on split chains (at convergence, Rhat = 1).


# パラメータの分布を確認

# パラメータとパラメータの標準誤差をプロット

5.3.2 Estimation with Prior 事前分布を指定して推定


  • Gelman, Andrew. 2006. “Prior distributions for variance parameters in hierarchical models (comment on article by Browne and Draper).” Bayesian analysis 1(3) : 515-534.


# brm関数を使って推定
model2b <- brm(score ~ 1 + time + (1 + time | id), 
               data    = longdata,
               prior   = c(set_prior("normal(0,10)", class = "b")), # 係数に正規分布を指定。変数の係数ごとにべつべつに別々に指定することもできる。
               chains  = 4, 
               iter    = 1000,
               warmup  = 500
# 結果の出力
##  Family: gaussian(identity) 
## Formula: score ~ 1 + time + (1 + time | id) 
##    Data: longdata (Number of observations: 3000) 
## Samples: 4 chains, each with iter = 1000; warmup = 500; thin = 1; 
##          total post-warmup samples = 2000
##     ICs: LOO = NA; WAIC = NA; R2 = NA
## Group-Level Effects: 
## ~id (Number of levels: 500) 
##                     Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sd(Intercept)          18.54      0.67    17.30    19.86        802    1
## sd(time)                1.64      0.11     1.42     1.84        648    1
## cor(Intercept,time)    -0.76      0.03    -0.82    -0.69       1190    1
## Population-Level Effects: 
##           Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## Intercept   193.23      0.85   191.54   194.88        622 1.02
## time          3.38      0.10     3.19     3.58       1500 1.01
## Family Specific Parameters: 
##       Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sigma     6.64       0.1     6.44     6.85       1005    1
## Samples were drawn using sampling(NUTS). For each parameter, Eff.Sample 
## is a crude measure of effective sample size, and Rhat is the potential 
## scale reduction factor on split chains (at convergence, Rhat = 1).

6 Three-level Multi-level Model 3レベル・マルチレベルモデル

さらに発展的な分析として、もう1つレベルを追加してみます。このデータは、生徒が複数回観察されているだけでなく、学校で階層化されているという構造を持っています。つまり、学校によって生徒のスコアの平均的な高さが違っていたり、あるいは伸び方が違っていたりする可能性を考えることもできます。先に推定したModel 2はさらに以下のように拡張することができます。




6.1 Random-Intercept Model ランダム切片モデル



model3 <- lmer(score ~ 1 + (1 | id) + (1 | school),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)
## summary from lme4 is returned
## some computational error has occurred in lmerTest
## Linear mixed model fit by maximum likelihood  ['lmerMod']
## Formula: score ~ 1 + (1 | id) + (1 | school)
##    Data: longdata
##      AIC      BIC   logLik deviance df.resid 
##  23419.6  23443.6 -11705.8  23411.6     2996 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -3.4760 -0.5109  0.0688  0.5921  3.1868 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  id       (Intercept) 172.46   13.132  
##  school   (Intercept)  42.72    6.536  
##  Residual              93.43    9.666  
## Number of obs: 3000, groups:  id, 500; school, 29
## Fixed effects:
##             Estimate Std. Error t value
## (Intercept)  204.859      1.435   142.7




model4 <- lmer(score ~ 1 + time + (1 | id) + (1 | school),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)
## Linear mixed model fit by maximum likelihood t-tests use Satterthwaite
##   approximations to degrees of freedom [lmerMod]
## Formula: score ~ 1 + time + (1 | id) + (1 | school)
##    Data: longdata
##      AIC      BIC   logLik deviance df.resid 
##  22021.9  22051.9 -11006.0  22011.9     2995 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -3.9488 -0.5108  0.0418  0.5673  5.0397 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  id       (Intercept) 179.13   13.384  
##  school   (Intercept)  42.72    6.536  
##  Residual              53.38    7.306  
## Number of obs: 3000, groups:  id, 500; school, 29
## Fixed effects:
##              Estimate Std. Error        df t value Pr(>|t|)    
## (Intercept)  193.0185     1.4613   26.2000  132.09   <2e-16 ***
## time           3.3830     0.0781 2500.0000   43.31   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Correlation of Fixed Effects:
##      (Intr)
## time -0.187

6.2 Random-Intercept and Random-Slope Model ランダム切片・ランダム傾きモデル


  1. 生徒レベルの傾きのランダム効果を認めるが、学校レベルの傾きのランダム効果は認めないモデル
  2. 学校レベルの傾きのランダム効果を認めるが、生徒レベルの傾きのランダム効果は認めないモデル


  3. 学校レベルの傾きのランダム効果も、生徒レベルの傾きのランダム効果もどちらも認めるモデル


# Student-level random-slope model
model5 <- lmer(score ~ 1 + time + (1 + time | id) + (1 | school),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)
# School-level random-slope model
model6 <- lmer(score ~ 1 + time + (1 | id) + (1 + time | school),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)
# Student-level and School-level random-slope model
model7 <- lmer(score ~ 1 + time + (1 + time | id) + (1 + time | school),
                     data      = longdata,
                     REML      = FALSE,
                     na.action = na.omit)
anova(model4, model5, model7)
## Data: longdata
## Models:
## object: score ~ 1 + time + (1 | id) + (1 | school)
## ..1: score ~ 1 + time + (1 + time | id) + (1 | school)
## ..2: score ~ 1 + time + (1 + time | id) + (1 + time | school)
##        Df   AIC   BIC logLik deviance   Chisq Chi Df Pr(>Chisq)    
## object  5 22022 22052 -11006    22012                              
## ..1     7 21833 21875 -10910    21819 192.537      2  < 2.2e-16 ***
## ..2     9 21785 21839 -10883    21767  52.651      2   3.69e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
anova(model4, model6, model7)
## Data: longdata
## Models:
## object: score ~ 1 + time + (1 | id) + (1 | school)
## ..1: score ~ 1 + time + (1 | id) + (1 + time | school)
## ..2: score ~ 1 + time + (1 + time | id) + (1 + time | school)
##        Df   AIC   BIC logLik deviance  Chisq Chi Df Pr(>Chisq)    
## object  5 22022 22052 -11006    22012                             
## ..1     7 21903 21945 -10944    21889 122.86      2  < 2.2e-16 ***
## ..2     9 21785 21839 -10883    21767 122.33      2  < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

適合度を見てみると、学校レベル、生徒レベルの傾きのランダム効果まで含んだモデルが最も適合度がよいようです。最も適合度の良かったModel 7の結果は次のとおりとなります。

## Linear mixed model fit by maximum likelihood t-tests use Satterthwaite
##   approximations to degrees of freedom [lmerMod]
## Formula: score ~ 1 + time + (1 + time | id) + (1 + time | school)
##    Data: longdata
##      AIC      BIC   logLik deviance df.resid 
##  21784.7  21838.8 -10883.4  21766.7     2991 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -4.2584 -0.4875  0.0356  0.5258  5.3727 
## Random effects:
##  Groups   Name        Variance Std.Dev. Corr 
##  id       (Intercept) 272.157  16.497        
##           time          1.794   1.339   -0.73
##  school   (Intercept)  89.688   9.470        
##           time          1.124   1.060   -0.86
##  Residual              43.971   6.631        
## Number of obs: 3000, groups:  id, 500; school, 29
## Fixed effects:
##             Estimate Std. Error       df t value Pr(>|t|)    
## (Intercept) 192.6856     2.0205  25.3750   95.37  < 2e-16 ***
## time          3.4584     0.2287  26.0700   15.12 2.02e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Correlation of Fixed Effects:
##      (Intr)
## time -0.823

6.3 Baysian Estimation ベイズ推定

3レベルモデルもやはりベイズで推定することができます。先ほどの最終モデルであるModel 7をベイズ推定で求めてみましょう。

# ベイズモデルを推定
model7b <- brm(score ~ 1 + time + (1 + time | id) + (1 + time | school), 
               data    = longdata,
               prior   = c(set_prior("normal(0,10)", class = "b")), # 係数に正規分布を指定。
               chains  = 4, #chainの回数を指定
               iter    = 1000,  #繰り返しの回数を指定
               warmup  = 500 #ウォームアップの回数を指定
## 推定結果を出力
##  Family: gaussian(identity) 
## Formula: score ~ 1 + time + (1 + time | id) + (1 + time | school) 
##    Data: longdata (Number of observations: 3000) 
## Samples: 4 chains, each with iter = 1000; warmup = 500; thin = 1; 
##          total post-warmup samples = 2000
##     ICs: LOO = NA; WAIC = NA; R2 = NA
## Group-Level Effects: 
## ~id (Number of levels: 500) 
##                     Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sd(Intercept)          16.49      0.62    15.33    17.74        962 1.00
## sd(time)                1.33      0.11     1.11     1.54        909 1.01
## cor(Intercept,time)    -0.73      0.04    -0.81    -0.64       1451 1.00
## ~school (Number of levels: 29) 
##                     Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sd(Intercept)           9.90      1.83     6.86    14.03        604 1.01
## sd(time)                1.10      0.20     0.76     1.56       1250 1.00
## cor(Intercept,time)    -0.81      0.10    -0.94    -0.57       1685 1.00
## Population-Level Effects: 
##           Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## Intercept   192.71      2.07   188.60   196.68       1497    1
## time          3.46      0.23     3.02     3.91       1738    1
## Family Specific Parameters: 
##       Estimate Est.Error l-95% CI u-95% CI Eff.Sample Rhat
## sigma     6.64       0.1     6.45     6.85       1276    1
## Samples were drawn using sampling(NUTS). For each parameter, Eff.Sample 
## is a crude measure of effective sample size, and Rhat is the potential 
## scale reduction factor on split chains (at convergence, Rhat = 1).


# パラメータの分布を確認

# パラメータとパラメータの標準誤差をプロット

7 Appendix: Plotting Results 補足:結果を図示する


         type       = "re",
         facet.grid = FALSE,
         sort.est  = "sort.all",
         y.offset   = .4)


8 Acknowledgement 謝辞

本ページの作成にあたり、2017年ICPSR summer programで受講したMultilevel Model II: Advanced Topicsでの授業内容および演習で使用したコードが大変参考となりました。InstructorのJohn PoeおよびTAのMichael Giordanoに感謝申し上げます。