サンプルの偏りは必ずしも効果量にバイアスを与えないことの例
社会調査の回収率の低下が問題とされて久しい。こうしたなかで、「サンプルが偏っているから分析にはバイアスがある」という言明がしばしばなされる。確かに、サンプルが母集団と比較してなんらかの系統的な偏りがある場合、サンプルから求められた1変量の分布や要約統計量は母集団の値から乖離してしまう。
たとえば、20~60歳の日本に在住する人々を母集団としてサンプリングを行った調査データにおいて、男性の回答率が低かったとする。この調査データを用いて正規雇用比率を求めた場合、その結果には女性の結果が多く反映され、正規雇用比率は母集団よりも低くなるだろう。
一方で、「男性は女性と比較して正規雇用となりやすい(女性は男性と比較して正規雇用となりにくい)」という2変量の関係を見る場合には、以上の偏りは必ずしもバイアスを生じさせるわけではない。このことを具体的な数値例で確認しよう。
母集団では、女性と男性とで、正規雇用・非正規雇用比率が以下のように分布しているとしよう。値は総%を示している。
正規雇用 | 非正規雇用 | |
男性 | 40% | 10% |
女性 | 25% | 25% |
母集団における正規雇用比率は (40 + 25 = ) 65%である。さらに、オッズ比を計算すると、(40/10)/(25/25) = 4となり、男性は女性と比較して4倍正規雇用になりやすい(この表現は若干語弊がありますが、とりあえずオッズ比はそういう指標です)ことがわかる。
この母集団からランダムに抽出した200ケースの個体に対して調査を実施し、90ケースの回答を得た。しかし、調査の過程で、男性があまり回答してくれず、サンプルは以下のような分布となった。値はケース数を示す。
正規雇用 | 非正規雇用 | |
男性 | 32 | 8 |
女性 | 25 | 25 |
この場合の正規雇用比率を計算すると (32+25)/(32+8+25+25) = 0.63333… より、約63.3%であり、母集団と比較すると正規雇用比率を低めに見積もっていることがわかる。しかし、オッズ比は (32/8)/(25/25) = 4であり、先ほどと同様の値となる。
つまり、たんに男性が回答しにくいという傾向は、正規雇用比率にはバイアスを生じさせるものの、性別と正規雇用・非正規雇用との関連には影響しないということを意味している。
これは、「非正規雇用者が回答しにくい」という傾向があった場合にも同様に成り立つ。たとえば、93ケースの回答を得て、以下のような結果となったとする。
正規雇用 | 非正規雇用 | |
男性 | 40 | 8 |
女性 | 25 | 20 |
この場合の正規雇用比率は(40+25)/(40+8+25+20) = 0.69892…より、約69.9%であり、母集団と比較すると値を高めに見積もっている。しかしオッズ比については、(40/8)/(25/20) = 4となり、やはり先ほどと同様の値となる。
問題は、「男性非正規雇用者は(女性非正規雇用者よりも相対的に)回答しにくい」という関係があった場合である。すなわち、以下のようなときである。
正規雇用 | 非正規雇用 | |
男性 | 40 | 8 |
女性 | 25 | 25 |
この場合、オッズ比は (40/8)/(25/25) = 5となり、真の値よりも高くなってしまっている。こういう場合においてはじめて、サンプルの偏りが問題になってくるといえる。
実際の分析では、2変量関連だけでなく、他の変数を統制することによって変数間の関連を取り出すことが目指される。適切に他の変数を統制すれば、目的とする変数間の関連はより真の値に近づくだろう。
もちろん、実際には真の効果量は基本的に未知であるから、サンプルから求められた効果量が真の効果量であるかどうかは判断できない。かといって、「サンプルの偏りがあるからこの推定値はバイアスがある」などと天下り的に批判するのはあまり意味がない。もしバイアスがあると予想されるなら、それが効果量を過大に推定しているのか、過少に推定しているのかということくらいまで落としてコメントできると良いだろう。