BOOK JOURNAL: 9月 2012

前回の続きで、今回はRubin(1985)の提案している「傾向スコアによる重み付け推定法」を導出しようと思います．

$z$：割付け変数
$x$：共変量
$y$：従属変数

IPW推定量は、傾向スコアの逆数の重み付け平均でHorvitz-Thompson型推定量と呼ばれています．この推定量は通常の単純平均とは異なり、共変量を調整した平均です．この推定量のいいところは、平均処遇効果と周辺平均を計算することができることです．

マッチングや重回帰分析による共変量調整は、平均処遇効果を計算することはできますが、割り付け変数ごとに周辺平均を計算することはできません．しかし、この推定量を用いれば、周辺平均を計算することができます．

Horvitz-Thompson型推定量
「強く無視できる割当条件」\[ (y_{0}, y_{1}) \perp z | \mathbf{x} \]が成立するとき、
\[ E\left[\frac{y_{1}z}{e(\mathbf{x})}\right] = E\left[y_{1}\right] .\]

証明
まず傾向スコアの定義から
\[ e_{i} \equiv Pr(z_{i} = 1|\mathbf{x_{i}}) = E(z_{i}|\mathbf{x_{i}}) \]
と書くことができます．以下では対象者番号のｉを省略しています．

\begin{equation*}
\begin{split}

E \left[ \frac{y_{1}z}{e} \right]
&= E_{ \mathbf{x}} \left[ E\left( \frac{y_{1}z}{e}| \mathbf{x} \right) \right] \\
&= E_{ \mathbf{x}} \left[ E\left(y_{1}|\mathbf{x}\right) E\left( \frac{z}{e}|\mathbf{x}\right) \right] \\
&= E_{ \mathbf{x}} \left[ \frac{1}{e} E\left( y_{1}|\mathbf{x} \right) E\left( z | \mathbf{x} \right) \right] = E\left( y_{1} \right)
\end{split}

\end{equation*}

1行目から2行目へは割付が強い意味で無視できるという条件を用いています（$\mathbf{x}$が与えられた下では、$y$と$z$は条件付き独立）Q.E.D.

上の方法と同様にして、$E[y_{0}]$を求めることができます．

\begin{equation*}
\begin{split}

E \left[ \frac{y_{0}(1-z)}{1-e} \right]
&= E_{ \mathbf{x}} \left[ E\left( \frac{y_{0}z}{1-e}| \mathbf{x} \right) \right] \\
&= E_{ \mathbf{x}} \left[ E\left(y_{0}|\mathbf{x}\right) E\left( \frac{1-z}{1-e}|\mathbf{x}\right) \right] \\
&= E_{ \mathbf{x}} \left[ \frac{1}{1-e} E\left( y_{0}|\mathbf{x} \right) E\left( 1-z | \mathbf{x} \right) \right] = E\left( y_{0} \right)
\end{split}

\end{equation*}

つまり、真の傾向スコアがわかっていて、強く無視できる割当ての条件が成立するならば、対照群・処置群それぞれの周辺期待値を求めるには、傾向スコアによって重み付けされた期待値を求めればよい、ということになります．

参考文献

傾向スコアが因果推論でよく使われているということで勉強中…

ということで、「傾向スコアを用いた共変量調整による因果効果の推定と臨床医学・薬学・公衆衛生分野での応用について」の前半部分をまとめました．

共変量の影響を除去しなければならない！

たとえば、ある薬を飲むこと（従属変数）で病気が早く治る（独立変数）か知りたいとき、投薬の有無を操作することができないために、薬を飲んだ人と飲まなかった人に分けて治癒日数の平均の差を調べることになります．しかし、この方法では治癒日数に影響を与えそうな病気の症状や年齢などの共変量の影響が除去されないために、ある薬の病気を早く治す因果効果を知ることができなくなってしまう！
じゃどうすればいいのか？？ということで、共変量の調整方法として以下の３つが考えられてきました．

既存の共変量調整

既存の共変量調整法は３つあります．

均衡化

恒常化・限定

統計的調整

マッチング
層別解析
共分散分析

最後の３．共分散分析は、共変量が独立変数と従属変数に影響を与えてしまうなら、それをモデルに含めて考えればいいという方法になります．

具体例
Cox回帰、パス解析、グラフィカルモデリング、構造方程式モデリング…
問題点
しかし、この方法でもやはり問題点があります。
線形や二次関数など、従属変数と共変量の関係をモデル化しないといけないということです．もし真のモデルが二次関数のときに線形を仮定してしまうと誤った結論が得られてしまいます．また、回帰係数自体が、因果効果と等しくはならないということです．

傾向スコアの利用

そこで、こうした問題点を克服するために、”セミパラメトリックな”共変量調整法として傾向スコアを用いた解析法が注目されています．
定義
今、薬を飲んだ人をz＝１、薬を飲まなかった人をz＝０のようにzを割付変数とします．また共変量ベクトルをxとすると、傾向スコアは群１（薬を飲んだ人）へ割付けられる確率として定義されます．添字のiは第i被験者を表しています．

\[ e_{i} = Pr(z_{i} = 1|\mathbf{x_{i}}) \]

使用のための条件
ただし、この傾向スコアを使うためには条件が必要です．それが、割当てが「強い意味で無視可能」であるという条件です．この条件は次の３つに分けられます．

観測された共変量によって割付が説明できるということ

観測されていない共変量が割付に影響を与えないということ

従属変数の値によって、割付が決定されないということ

傾向スコアの具体的な解析方法
以上のような条件が成立するときに、傾向スコアを用いた解析を行うことができます．
その解析方法は二段階に分かれています．

傾向スコアの推定

傾向スコアを用いた調整

マッチング
層別
共分散分析
重み付き平均

次回は、重み付け平均を考えてみます．

BOOK JOURNAL

2012年9月21日金曜日

【統計】IPW推定量を導出してみる　その１

2012年9月19日水曜日

【統計】傾向スコア

2012年9月21日金曜日

【統計】IPW推定量を導出してみる その１

2012年9月19日水曜日

【統計】傾向スコア

【統計】IPW推定量を導出してみる　その１