Alternative approaches to evaluation in empirical microeconomics

Alternative approaches to evaluation in empirical microeconomics
R Blundell, MC Dias - Portuguese Economic Journal, 2002

門外漢なのですが、誘導系の手法が理解できなくて悔しい思いをしたので読んでみた。間違っていたり誤解があったら指摘していただけると助かります。途中あまり理解できなかった部分も多々アリ。

論文の内容は誘導系の評価手法についてのまとめになっている。

どのような手法を用いるかは

答えたい問題
使えるデータの質
各個人がどのようなメカニズムでプログラムや政策(Treatment)に参加するか

に依存する。

代表的な手法として

社会実験（Social Experiments）
自然実験（Natural Experiments）
マッチングメソッド
操作変数法
不連続デザイン？（Dicontinuity Design）
Control Function Methods

の６個が紹介されている。（途中から日本語訳を諦めた。正しい日本語訳があれば教えてください。）

基本的なモデルとして、Treatmentのステータスをｄ（１が参加、０がそのまま）とし、個人ｉがある時ｔの結果ｙが以下のように決まるとする。
$y_{it}^1=\beta + \alpha_i + u_{it}$
$y_{it}^0=\beta + u_{it}$
まとめると、
$y_{it}=d_{it}y_{it}^1 +(1-d_{it})y_{it}^0=\beta+\alpha_i d_{it}+u_{it}$
また、トリートメントをうけるかどうかのセレクションメカニズムは、以下のｄ＊が０より大きければd=1それ以外ならd=0というメカニズムを想定する。
$d^*_{ik}=g(Z_{ik}, v_{it})$
よくみるのは（Probit的な）
$d_{it}=\mathcal{1}(Z_{ik}\gamma + v_{it} \geq 0)$
とか。

以上のようなモデルのもとで、興味の対象となる代表的なパラメータをいくつか紹介する。直感的にはαなわけだが、その値は個人ごとにことなるし、どういう政策変更をするかでどんな人たちのαが意味を持つかも違ってくる。

代表的には

ATE : $\alpha^{\text{ATE}} =E(\alpha_i)$
ATT : $\alpha^{\text{ATT}} =E(\alpha_i | d_{it}=1)$
ATNT: $\alpha^{\text{ATNT}} =E(\alpha_i | d_{it}=0)$
LATE: $\alpha^{\text{LATE}} (Z',Z'')=E(\alpha_i | d_{i}(Z'')=1,d_{i}(Z')=0 )$
MTE : $\alpha^{MTE}(P)=\frac{\partial E(y|P)}{\partial P}$

の５個があるようだ。

ATE（Average Treatment Effect）は直感的だろう。ある政策を全員に適用する場合と、誰にも適用しない場合を比べた時に結果ｙが平均的にどれだけ増えるかという値をを示している。

ATT（Average Treatment Effect for Treated）は政策やプログラムの実際の効果がどの程度であったのかを評価したいときに意味を持つ。

ATNT（Average Treatment Effect for Non-Treated?）は、トリートメントを受けなかった人たちにトリートメントを受けさせることができた場合の平均的な効果を意味している。ちなみに最初の英語は、トリートメントを受けない人はUntreatedな気がするのだけど、ATUTになってしまうので、たぶんNon-Treatedではないかと思い適当に書きました。

LATE(Local Average Treatment Effect)は、補助的な変数ZをZ’からZ''に変化させたときに、Z'のときには受けていなかったがZ''では受けれるようになった人の平均的な効果を表す。単調性みたいな仮定と一緒に扱われるようで、Z'でのTreatment GroupがZ''でのTreatment Groupに含まれるような状況での追加的な効果。

MTE(Marginal Treatment Effect)は、Treatment Groupを限界的に大きくしたときの効果を表していて、LATEとも関係している。

Social Experiments

社会実験で大事なのは、Treatment Groupがランダムに決まっているかどうか。完全にランダムに決まっていると嬉しい性質が成り立つ。たとえば

R1: $E(u_i|d_i=1) =E(u_i|d_i=0)=E(u_i)$
R2: $E(\alpha_i|d_i=1) = E(\alpha_i|d_i=0)=E(\alpha_i)$

といった仮定が成り立っていると分析が楽で嬉しい。
（注：http://d.hatena.ne.jp/econometrica/20100307 によると、メカニズムデザイン使った方がいい時もあるかもしれないらしいけど）

R1&R2のもとでは、基本的にOLSで色々推定できるし、ATEとかATTとかATNTの違いもない。

しかし、実際にはセレクションメカニズムが内生的であることが多く、仮定が成り立たない可能性がある。

Natural Experiments

自然実験では、計画されていないような現象による変化を使って、変化の効果を測る。
もっともよく使われる手法はDifference-in-Difference（DID）である。これはIOでもよく使うから一番僕にも馴染みがある。

データとしては、TreatedとNon-Treatedの両方が、変化の前後で観察されている必要がある。両者の変化前後での結果の違いを比べることで、個人別の固定効果や時間を通じた影響を除くことができる。直感的には変化前後をDifferencing outすることで固定効果を、TreatedとNon-Treatedに共通の部分をみることでマクロショックを除くことができる。

先のモデルにおけるｕを
$u_{it}=E(n_i|d_i) +m_t +o_{it}$
とおく。一項目が個人の固定効果、二項目がマクロショック。
ＤＩＤでは、Ｒ１のような仮定が差にｕの差について成り立っている必要がある。具体的には、
$E(u_{it} -u_{it'} |d_i=1)=E(u_{it} -u_{it'} |d_i=0)=E(u_{it} -u_{it'} )$
のような仮定が必要になる。
しかし、社会実験のときとは異なり、内生的なセレクションメカニズムがあってもよい。たとえば、「個人の固定効果の高い人がTreatment Groupに選ばれやすい」などの状況を許せる。許されないのは、時間とともに変化するような個人効果（transitory individual-specific effects、ｏ変化の部分）に基づくセレクション。

また、ＤＩＤのもとではＲ２のような仮定を置く必要はない。まぁ、Ｒ２なしには、ＤＩＤではＡＴＴしかIdentifyできないが。

このセッティングでＡＴＴは
$\alpha^{\text{ATT}} = \big( E(y_{it} |d=1) - E(y_{it'} |d=0) \big) -\big( E(y_{jt} |d=0) - E(y_{jt'} |d=0) \big)$
になるが、これをサンプルで置き換えたものがＤＩＤ推定量になる。ｄにダミーを置いてFixed Effectリグレッションをするのと解析的には同じになる。

まぁ、ということで、ｏの変化部分に基づくセレクションメカニズムがあったりしたら困るし、ｍの部分（タイムトレンド）がみんなの間で同一でなくても困る感じ。

ＤＩＤは線形だから簡単だが、非線形ＤＩＤになると一気に複雑になる。Fixed Effectのあるパネルデータのアナロジーで考えると難しいこともわかりやすい。

Matching Methods

（おそらく）Matching Methodの基本的な考え方は、
同じObservablesだが、一人はTreatedでもう一人はUntreatedであるような二人をマッチさせる。その差がαになる。
というシンプルなものだと思う。その代わりより複雑なモデルを扱えるようだ。
具体的には以下のようなモデルを考える。（ｔはあまり関係ないので無視する）

$y_{i}^1=\beta + \alpha(X_i) + u(X_i) +\big( \alpha_i-\alpha(X_i) \big) + \big( u_i-u(X_i) \big)$
$y_{i}^1=\beta + u(X_i) + \big( u_i-u(X_i) \big)$

ATTの識別・推定

仮定として大事なのは、Xがy0を説明するのに十分だという点だ。きちんと書くと、
$y^0_i \perp d_i |X_i$
というConditional Independence Assumption(CIA)が必要になる。
上のモデルでいうと、
$\big( u_i-u(X_i) \big) \perp d_i |X_i$
になる。これからImplyされる条件だが、R1に近い
$E(u_i|d_i,X_i) = E(u_i|X_i)$
でもATTを推定するには十分だ。

Untreatedなデータから、Treatedな人と同じキャラクタリスティックでUntreatedであるような人のデータを”作りだし”、それをTreatedとマッチさせその差をみるわけだ。

各Xごとにそれをするために、
$P(d_i|X_i)<1$
という仮定も必要になってくる。

以上より、ATTは以下のように書ける。Xの部分集合Sに関して、
$\alpha{ATT}(S) =E\big( y^1-y^0|d=1, X \in S \big)$
$=\frac{\int_S E\big( y^1-y^0|d=1, X \in S \big) dF_{X|d}(X|d=1)}{\int_S dF_{X|d}(X|d=1)}$
よってこれをSample Analogで置き換えれば推定量になる。

ATEの識別・推定

実際にはATEを知りたいことの方が多いだろう。そのためにはより強い仮定が必要になる。具体的には、
$\big( \alpha_i-\alpha (X_i) \big) \perp d_i |X_i$
が追加的に必要になる。

先と同じようにWeaker Versionで書くと、
$E(\alpha_i|d_i,X_i) = E(\alpha_i|X_i)$

あと、確率についても、どっちのTreatedとUntreatedの両方についてCounter Partを作る必要があるので、
[tex: 0

Propensity Score Matching

マッチングメソッドは基本的にノンパラなようなので、Xの次元が多くなると困ってしまう。そこで、考えられたのがこの方法のようだ。
具体的には、Xで条件をつけるところをXの関数で条件付けをする。この関数としては、Treatmentを受ける確率P(X)を使うのが一般的なようだ。
$P(X)= P(d=1|X)$
として、CIAを以下のようにModifyする。
$y^0_i \perp d_i |X_i \to y^0_i \perp d_i |P(X_i)$
どうやってComparison Groupを作るかで

Nearest Neighbor Matching
Kernel Matching

っていう手法があるみたいだけど、細かい話っぽいので割愛。

Matching Methodsの弱点として、Xの取り方があるようだ。
Xを大きくとりすぎると次元が大きくなりすぎて困るけど、Xが小さすぎてYをきちんと説明していないとConsistentだったりUnbiasedな推定ができなくなる。

MDID（Combining Matching and DID）

マッチングとDIDを組み合わせることもできるようだ。そうすることで個人の固定効果やマクロショックをモデルに入れることができる。

Instrumental Variables(操作変数法)

マッチング法ではUntreatedのOutcomeを作り出すことでパラメータを推定し、セレクションに関しては直接触れていない。一方IVでは直接Unobservableによるセレクションを考慮する。

Outcomeには影響を与えないが、TreatmentのParticipationにだけ影響を与えるような変数Zが存在するとする。これがInstrumental Variableになる。この条件をExclusion Restrictionという。

まずはαが同質的な場合を考える。
直観的には、ｚが変化したときの、ｙの変分をP(d=1)の変分で割ればそれがαになる。きちんと条件を書くと、

$\alpha_i =\alpha$
$P(d=1|z)\not = P(d=1)$

という仮定の下で、IV推定量は

$\hat{\alpha} ^{IV} = \frac{cov(y,z)}{cov(d,z)}$

になる。

IVの弱点として、

IVをどう選ぶ/見つけるか
同質性の仮定なしにはExclusion Restrictionがもっともらしくない

最初の点は触れるまでもないので、二点目について。

IV法で必要なのは誤差項をｚに条件付けると期待値が０（ｚに依存しない）になるという点だ。Heterogeneousな状況下では、誤差項は以下のように書ける。
$e_i =u_i+d_i(\alpha_i-\alpha)$
条件付きの期待値は、
$E(e_i|z) =E(u_i|z)+P(d=1|z)E(\alpha_i-\alpha|d_i=1,z)$
とかける。
同質な場合と同じで、一項目がｚに依存しないという仮定は最もらしいとする。そのうえで、ｅの期待値がｚに依存しないためには、二項目がｚに依存しない必要がある。仮定より、d=1の確率の部分はｚによって変化する。なので、αi-αの期待値の項が０でなければいけない。

これを直観的にいうと、「セレクションメカニズムが各αiと関係なければ問題ない」ということだが、それはもっともらしい仮定とはいいにくい。
例として教育の例が挙げられている。

大学教育の効果を測定するという問題を考える。IVとして、学校と自宅の距離を使う。（距離と能力は無相関だが、大学に行くかどうかという選択には影響を及ぼすので）
個人間の違いが「αは同一だがｕの項が違う」場合、ＩＶを使ったリグレッションでαが求められる。一方、同質性の仮定が成り立たなく「αiは個人ごとに違う」という場合を考える。
この場合、学校に近い人は比較的αが小さくても大学にいくだろうし、遠い人は比較的αが高くないと大学にいかないだろう。そうすると、IV（Z）,dとαの無相関という条件が成り立たず、上のｅの期待値の式の二項目の期待値が０にならない。
そのため、ＩＶではＡＴＥやＡＴＴを識別することができない。

そこでより一般的な状況でも識別・推定できるLATEを考える。
必要な仮定をまず列挙する。

$P(d=1|z)\not = P(d=1)$
$E(u|z) -E(u)$
$(a,v) \perp z$
単調性：ｚ''＞z'　⇒　g(z'',v)＞g(z',v)

という仮定のもとでLATEは識別される。
最後の項は強いようにも思えるが、上の教育の例でも成り立っているので、上の例でもLATEは識別できる。（上の例では、「大学に行ってる＆距離が遠い⇒αiが高い」という関係が生まれてしまっているが、距離とαの関係は独立だと考えられる。）すっかり忘れているかもしれないが、ｖはParticipationの決定する式に出てくる誤差項。
単調性はLATEが意味を持つために必要になってくる。同じ人により高いｚを与えたら、今Participateしてる人はそのままParticipateするし、してない人のうちの何人かはParticipateするようになるっていう感じ。

直観的な説明だけをすることにする。
ふたつのZの値、ｚ''＞z'を考える。両方の値でのｙの期待値の差を、参加率の差で割ると“新しく参加した人たちの平均的なα”が求められる。これがLATEになる。

LATEとはなにか？

この辺の理解に一番時間がかかりました。なぜ単調性が必要なのかも含めて書こうと思います。

LATEはATEやATTとも違い、なんでそんなものに興味があるのかわからないパラメータに見えます。そもそも、ｚ''、z'っていうあるZの値に依存して変化する値だし。まぁ、例えば政府がｚしか変化させられなければLATEもそのままで意味を持つとも言えるけど。

まず、単調性について書く。Zがz'からz''に変化したとき、単調性なしにはｙの変化分/確率の変化分が測るものは曖昧だ。色々な値でLATEを測った時に、“同じ人については一回だけ測る”みたいなことが成り立っていると、最終的にZの色々な値でLATEを測ることで、αiの分布にも言及できる。これが単調性の仮定のもとでは保証されている。

次に、LATEとMTEの関係について書く。LATEでは二つのZの値を使うが、両者の値を０に近づけるとそれがMTEになる。Zの変化による参加確率の変化も０に近づき、MTEの定義のような式になる。

もしデータが十分リッチなら、MTEを積分したりすることでATEやATTを復元することもできる。

以上のように、一見意味不明なLATEも、データのリッチネスなどがあれば実際に興味があるパラメータを測ることに使える。

Discontinuity Design

これは、参加率が補助的な連続変数Zに関して不連続に変化するような場合を扱う。例えば、年収1000万円未満と以上で所得税が不連続に変化する、など。これらの状況でαiの同質性などを仮定しなくても、その不連続点でのαiについて言及することができる。

具体的には、不連続点に上から近づけたときの結果/参加率と下から近づけたときの結果/参加率を比べる。

ｙのｚに関する連続性みたいな仮定が追加的に必要になるが、その分αに関する仮定は緩いように思える。しかし、結局緩い仮定の下では不連続点に関してしか言及できない。

Control Function Methods

IOの構造推定派の僕にとっては一番馴染みやすかった。
セレクションメカニズムを明示的にモデルとして書き、セレクションの部分を含めて推定する。

一番分かりやすい例は、Censored Probitみたいなモデルでヘックマンの二段階推定法だと思う。

以上です。なにか僕の誤解などがあったら指摘してもらえると助かります。