2012年9月21日金曜日

【統計】IPW推定量を導出してみる その1

前回の続きで、今回はRubin(1985)の提案している「傾向スコアによる重み付け推定法」を導出しようと思います.


  • $z$:割付け変数
  • $x$:共変量
  • $y$:従属変数


IPW推定量は、傾向スコアの逆数の重み付け平均でHorvitz-Thompson型推定量と呼ばれています.この推定量は通常の単純平均とは異なり、共変量を調整した平均です.この推定量のいいところは、平均処遇効果と周辺平均を計算することができることです.

マッチングや重回帰分析による共変量調整は、平均処遇効果を計算することはできますが、割り付け変数ごとに周辺平均を計算することはできません.しかし、この推定量を用いれば、周辺平均を計算することができます.

Horvitz-Thompson型推定量
「強く無視できる割当条件」\[ (y_{0}, y_{1}) \perp z | \mathbf{x} \]が成立するとき、
\[ E\left[\frac{y_{1}z}{e(\mathbf{x})}\right] = E\left[y_{1}\right] .\]


証明
まず傾向スコアの定義から
\[ e_{i} \equiv Pr(z_{i} = 1|\mathbf{x_{i}})  = E(z_{i}|\mathbf{x_{i}}) \]
と書くことができます.以下では対象者番号のiを省略しています.

\begin{equation*}
\begin{split}

E \left[ \frac{y_{1}z}{e} \right]
&= E_{ \mathbf{x}} \left[ E\left( \frac{y_{1}z}{e}| \mathbf{x} \right) \right] \\
&= E_{ \mathbf{x}} \left[ E\left(y_{1}|\mathbf{x}\right) E\left( \frac{z}{e}|\mathbf{x}\right) \right] \\
&= E_{ \mathbf{x}} \left[ \frac{1}{e} E\left( y_{1}|\mathbf{x} \right) E\left( z | \mathbf{x} \right) \right] = E\left( y_{1} \right)
\end{split}

\end{equation*}


1行目から2行目へは割付が強い意味で無視できるという条件を用いています($\mathbf{x}$が与えられた下では、$y$と$z$は条件付き独立)Q.E.D.

上の方法と同様にして、$E[y_{0}]$を求めることができます.


\begin{equation*}
\begin{split}

E \left[ \frac{y_{0}(1-z)}{1-e} \right]
&= E_{ \mathbf{x}} \left[ E\left( \frac{y_{0}z}{1-e}| \mathbf{x} \right) \right] \\
&= E_{ \mathbf{x}} \left[ E\left(y_{0}|\mathbf{x}\right) E\left( \frac{1-z}{1-e}|\mathbf{x}\right) \right] \\
&= E_{ \mathbf{x}} \left[ \frac{1}{1-e} E\left( y_{0}|\mathbf{x} \right) E\left( 1-z | \mathbf{x} \right) \right] = E\left( y_{0} \right)
\end{split}

\end{equation*}



つまり、真の傾向スコアがわかっていて、強く無視できる割当ての条件が成立するならば、対照群・処置群それぞれの周辺期待値を求めるには、傾向スコアによって重み付けされた期待値を求めればよい、ということになります.

参考文献

2012年9月19日水曜日

【統計】傾向スコア


傾向スコアが因果推論でよく使われているということで勉強中…

ということで、「傾向スコアを用いた共変量調整による因果効果の推定と臨床医学・薬学・公衆衛生分野での応用について」の前半部分をまとめました.

共変量の影響を除去しなければならない!

たとえば、ある薬を飲むこと(従属変数)で病気が早く治る(独立変数)か知りたいとき、投薬の有無を操作することができないために、薬を飲んだ人と飲まなかった人に分けて治癒日数の平均の差を調べることになります.しかし、この方法では治癒日数に影響を与えそうな病気の症状や年齢などの共変量の影響が除去されないために、ある薬の病気を早く治す因果効果を知ることができなくなってしまう!
じゃどうすればいいのか??ということで、共変量の調整方法として以下の3つが考えられてきました.

既存の共変量調整
 既存の共変量調整法は3つあります.
    1. 均衡化
    2. 共変量が同じになるペアを作ること
      例えば、病気の症状を重いと軽いに分けること
    3. 恒常化・限定
    4. 共変量がある値で一緒の被験者のみに限定して分析を行うこと
    5. 統計的調整
      1. マッチング
      2. 層別解析
      3. 共分散分析
最後の3.共分散分析は、共変量が独立変数と従属変数に影響を与えてしまうなら、それをモデルに含めて考えればいいという方法になります.
具体例
Cox回帰、パス解析、グラフィカルモデリング、構造方程式モデリング…
問題点
しかし、この方法でもやはり問題点があります。
線形や二次関数など、従属変数と共変量の関係をモデル化しないといけないということです.もし真のモデルが二次関数のときに線形を仮定してしまうと誤った結論が得られてしまいます.また、回帰係数自体が、因果効果と等しくはならないということです.

傾向スコアの利用
そこで、こうした問題点を克服するために、”セミパラメトリックな”共変量調整法として傾向スコアを用いた解析法が注目されています.
定義
今、薬を飲んだ人をz=1、薬を飲まなかった人をz=0のようにzを割付変数とします.また共変量ベクトルをxとすると、傾向スコアは群1(薬を飲んだ人)へ割付けられる確率として定義されます.添字のiは第i被験者を表しています.
      \[ e_{i} = Pr(z_{i} = 1|\mathbf{x_{i}}) \]
使用のための条件
ただし、この傾向スコアを使うためには条件が必要です.それが、割当てが「強い意味で無視可能」であるという条件です.この条件は次の3つに分けられます.

      1. 観測された共変量によって割付が説明できるということ
      2. 割付は共変量のみから影響を受けるということ
        たとえば、薬を飲むかどうかに割付けられるかは、共変量である病気の症状によって説明できるということです.

      3. 観測されていない共変量が割付に影響を与えないということ
      4. 観測したもの以外に共変量が存在しないということです.
        傾向スコアを用いた解析では、アンケート調査で共変量をもれなく聞いている必要があります.

      5. 従属変数の値によって、割付が決定されないということ
      6. 共変量を与えた下では、病気の治癒日数である従属変数が投薬をするかしないかの割当てには影響を与えないということです.つまり、以下のような条件付き独立が成立していることが必要です.


傾向スコアの具体的な解析方法
以上のような条件が成立するときに、傾向スコアを用いた解析を行うことができます.
その解析方法は二段階に分かれています.
      1. 傾向スコアの推定
      2. ロジスティック回帰かノンパラメトリック回帰で推定されます.

      3. 傾向スコアを用いた調整
        1. マッチング
        2. 層別
        3. 共分散分析
        4. 重み付き平均
        マッチング・層別・共分散分析以後、重み付け平均の方法が提案されていて、次第に利用されてきています.
次回は、重み付け平均を考えてみます.