対数オッズ比って実際どれくらいの違いなのか図示してみる
クロス表と(対数)オッズ比
Yes | No | |
カテゴリA | N11 | N12 |
カテゴリB | N21 | N22 |
オッズ比は、社会学では非常によく使われる指標です。医学・公衆衛生といった分野でもよく見ます。上のような2重クロス表があったとき、オッズ比は
$$\mathrm{odds} = \frac{N_{11} / N_{12}}{N_{21} / N_{22}} =\frac{N_{11} \times N_{22}}{N_{21} \times N_{12}} $$
のように定義されます。
オッズ比の自然対数を取った値のことを、対数オッズ比といいます。対数オッズ比は、ロジスティック回帰分析の係数にあたり、やはり社会学では非常になじみ深い値です。今回は基本的に対数オッズ比について議論します(対数オッズ比は指数をとればオッズ比になるわけなので、オッズ比についても同様の議論が成り立ちます)。
対数オッズ比はいろいろと優れた性質をもった指標ではあるのですが、一方で、クロス表の比率からわれわれが直感的に想起するような関連の強さからはやや離れた値を出すことがあり、対数オッズ比だけを見て分析結果の解釈を行うのは危ないと(個人的には)思っています。今回は、対数オッズ比の性質を見るため、どのようなクロス表からどのような対数オッズ比が算出されるのか、簡単な数値例をつかって視覚的に確認してみたいと思います。
セッティング
以下のような2重クロス表を考えます。
Yes | No | |
カテゴリA | 50 | 50 |
カテゴリB(ref) | P | 100 – P |
値はそれぞれ、行%を示します。このようなクロス表について、カテゴリAの行%を固定したうえで、Pの値を1から99まで動かします。このとき、対数オッズ比はどのように動くのかを図示してみます。
また、カテゴリAの行%についても、以下の6つのパターンを考えてみます。
- パターン1:YesとNoの比率が50 : 50。
- パターン2:YesとNoの比率が60 : 40。
- パターン3:YesとNoの比率が70 : 30。
- パターン4:YesとNoの比率が80 : 20。
- パターン5:YesとNoの比率が90 : 10。
- パターン6:YesとNoの比率が95 : 5。
NoよりもYesのほうが少ない場合に関しては、YesとNoをそのまま入れ替えて読めばいいので、今回は省略します。
結果をプロット
以上の6パターンについて、カテゴリBのYesの比率(P)の値を1から99までの整数で動かした場合の対数オッズ比をプロットしたのが以下の図になります。
図1 6つのパターン別・対数オッズ比の動き
対数オッズ比の定義にしたがい、Pの値が小さくなるほど対数オッズ比は大きくなり、Pの値が大きくなるほど対数オッズ比は小さくなることがわかります。
また、カテゴリAがYesに偏っているほど、対数オッズ比がより極端な値を取る区間が広いことがわかります。具体的に見てみるために、対数オッズ比の絶対値が1未満に収まるようなPの区間を、パターン別にまとめてみると、以下のようになります。
- パターン1: 27 ≦ P ≦ 73
- パターン2: 36 ≦ P ≦ 80
- パターン3: 47 ≦ P ≦ 86
- パターン4: 60 ≦ P ≦ 91
- パターン5: 77 ≦ P ≦ 96
- パターン6: 88 ≦ P ≦ 99
これらの結果は、オッズ比が大きさがもつインパクト(ここではYesの比率の差とします)は、カテゴリAの偏りかたによって異なっているということを意味しています。たとえば、対数オッズ比が0.95くらいであったとすると、パターン1とパターン6はそれぞれ以下のようなクロス表になります。
パターン1 | Yes | No | 対数オッズ比 | パターン6 | Yes | No | 対数オッズ比 |
カテゴリA | 50 | 50 | 0.944 | カテゴリA | 95 | 5 | 0.952 |
カテゴリB(ref) | 28 | 72 | カテゴリB(ref) | 88 | 12 |
パターンAの場合は、Yesの比率は22%違っていますが、パターン6の場合は、Yesの比率は7%しか違っていません。このような場合に、対数オッズ比が近しいことをもって、「独立変数(カテゴリ)の効果が両者でほぼ同じ」であることを結論できるでしょうか。これは「効果」をどのように定義するかによりますが、直感的には不自然な気がしてきます。
対数オッズ比0付近の動きを見てみる
ロジスティック回帰分析などの場合、係数の値は1未満に収まることが多く、大きくてもせいぜい2くらいまでのように思われるので、このあたりをもう少しアップにして見てみます。これが図2にあたります。
図2 6つのパターン別・0付近の対数オッズ比の動き
ここから、対数オッズ比が±0.5くらいとなるようなPの値をそれぞれのパターン別に求めて、クロス表を作ってみました。以下の6つになります。やはり、カテゴリAが偏った分布であるほど、同じ対数オッズ比の場合に、両カテゴリ間の比率の差は小さくなっています。
パターン1におけるクロス表:対数オッズ比 ≒ ± 0.5
Yes | No | 対数オッズ比 | Yes | No | 対数オッズ比 | ||
カテゴリA | 50 | 50 | 0.490 | カテゴリA | 50 | 50 | -0.490 |
カテゴリB(ref) | 38 | 62 | カテゴリB(ref) | 62 | 38 |
パターン2におけるクロス表:対数オッズ比 ≒ ± 0.5
Yes | No | 対数オッズ比 | Yes | No | 対数オッズ比 | ||
カテゴリA | 60 | 40 | 0.486 | カテゴリA | 60 | 40 | -0.490 |
カテゴリB(ref) | 48 | 52 | カテゴリB(ref) | 71 | 29 |
パターン3におけるクロス表:対数オッズ比 ≒ ± 0.5
Yes | No | 対数オッズ比 | Yes | No | 対数オッズ比 | ||
カテゴリA | 70 | 30 | 0.483 | カテゴリA | 70 | 30 | -0.478 |
カテゴリB(ref) | 59 | 41 | カテゴリB(ref) | 79 | 21 |
パターン4におけるクロス表:対数オッズ比 ≒ ± 0.5
Yes | No | 対数オッズ比 | Yes | No | 対数オッズ比 | ||
カテゴリA | 80 | 20 | 0.491 | カテゴリA | 80 | 20 | -0.514 |
カテゴリB(ref) | 71 | 29 | カテゴリB(ref) | 87 | 13 |
パターン5におけるクロス表:対数オッズ比 = ± 0.5
Yes | No | 対数オッズ比 | Yes | No | 対数オッズ比 | ||
カテゴリA | 90 | 10 | 0.463 | カテゴリA | 90 | 10 | -0.554 |
カテゴリB(ref) | 85 | 15 | カテゴリB(ref) | 94 | 6 |
パターン6におけるクロス表:対数オッズ比 ≒ ± 0.5
Yes | No | 対数オッズ比 | Yes | No | 対数オッズ比 | ||
カテゴリA | 95 | 5 | 0.502 | カテゴリA | 95 | 5 | -0.532 |
カテゴリB(ref) | 92 | 8 | カテゴリB(ref) | 97 | 3 |
まとめ
以上から明らかなように、対数オッズ比は、一方のカテゴリにおける分布によって、その値がどの程度の比率の違いと結びついているかが異なっています。そのため、オッズ比の大小は、必ずしも絶対的な率の違いを意味しているわけではない、という点に注意が必要です。
ロジスティック回帰分析、あるいはログリニアモデルなどは社会学では通常のOLS回帰分析よりも頻繁に使われますが、そこに現れる係数がどのような意味を持っているかはよくよく考える必要があると思います。普段から分析しているときに、限界効果や予測値を求めるなどして、係数の実質的なインパクトをつかむようにするとよいと思います。
こうしたトピックに関心のある方は、近藤博之,2001,「オッズ比の変化をどう読むか」『理論と方法』16(2): 245-252. などにも目を通してみると良いと思います。