On Subsampling Estimators with Unknown Rate of Convergence

On Subsampling Estimators with Unknown Rate of Convergence.
P Bertail, DN Politis, JP Romano - Journal of the American Statistica


ある統計量(たとえば平均とかOLSで推定した係数とか)があったときに、仮説検定をしたり信頼区間を構成したりしたいというのは自然な欲求だと思う。
多くの場合、モデルから漸近分布を導出して、その漸近分布のQuantileを使って仮説検定・信頼区間の構成を行う。

しかし、

  • 漸近分布の導出が難しい(解析的Or計算的に)
  • あくまで極限で成り立つ性質であり、有限サンプルでのパフォーマンスを保証しない

といった問題がある。

それらを解決する方法としてブートストラップ法(Bootstrap Method)が考え出された。ブートストラップ法では解析的な漸近分布の導出から離れ、統計量の分布を計算的な手段のみで推定する。
ブートストラップ法により、コンピューターコードを書くだけで仮説検定・信頼区間の構成ができるうえ、(一定の条件下では)漸近分布よりも(Higher Order Asymptoticな意味で)”正確に”実際の統計量の分布を推定することができる。


一方ブートストラップ法によって推定された統計量の分布が一致的(Consistent)であるためには、モデルが”スムーズ”である必要がある。スムーズでないようなモデル(パラメータがパラメータ空間の境界にある、一様分布の端を推定するETC)においては一致的でないことが知られている。


この問題を解決したのがSubsampling Methodである。ざっくばらんに言えば、
「統計量が漸近分布を持つならば、サブサンプリングで推定された分布は一致的」
ということが知られている。スムースネスフリーな分布の推定方法として非常に便利であり、漸近分布が導出できなかった論文では、だいたいサブサンプリングで信頼区間を構成している。とりあえずサブサンプリングしておけば間違いないわけだ。


一方で、必ず導出しなければならないのはRate of Convergenceだ。平均ので言うと、√nをかけるから漸近的に正規分布するわけで、たとえば平均にnをかけてしまうと発散してしまうし√√nをかけると点になってしまうので、仮説検定や信頼区間の構成に役立たない。
しかし、複雑な統計量やスムーズじゃないモデルでは自分が扱いたい統計量のRate of Convergenceが自明でないことが多々ある。

例えば、以下の例を考えてみよう。
X1,・・・,Xnが平均μの分布からDrawされたとする。μ^2に興味があるとする。
自然な推定方法は
 T_n= (n^{-1} \sum X_i)^2
でTnからμ^2を推定するものだろう。
μ>0(<0)では、√n(T_n-μ)は正規分布に収束するが、μ=0では√n(T_n-μ)→0である。μ=0のときには√nではなくnをかけなくてはいけない。


前置きが長くなったが、この論文ではRate of ConvergenceがUnknownのときに、それ自体を推定しSubsamplingを実際にするための方法を提示している。

細かい部分を飛ばす。
興味のある統計量のRate of Convergenceがnのα乗だとする。
nのα乗より早く無限に行くようなものを統計量にかけると統計量の分布は発散してしまうし、遅く無限に行くようなものをかけると分布がただのディラック測度になってしまう。

この論文の基本的なアイディアは、データを所与として、サブサンプリングする数を変えてたくさんの分布を推定し、その分布の形状をみることで、ディラック測度でもなく発散するわけでもないようなちょうどいいαを見つけるというものだ。


直感的かつ創造的で面白いとおもった。Implementationも簡単そうでいいと思う。応用の人間にとってはいつ使うのか謎だけど。


やたら前置きが長くなった割に本文が短くてアレですね。。。

Simulation and the asymptotics of optimization estimators

Simulation and the asymptotics of optimization estimators
Pakes, D Pollard - Econometrica: Journal of the Econometric Society, 1989

シミュレーションを使ったGMM的な推定における一般的な状況でも使える漸近理論を提示しているのがこの論文。
 G(\theta)=\int h(x,\theta)P(dx)=0
のユニークな解がθ0だとする。しかし、hが複雑な積分を含むような場合、計算コストが高くなるという問題が生じる。たとえば、
 h(x,\theta))=\int H(x,\xi,\theta)P(\xi|dx)=0
というかたちだとする。ξの分布は既知とする。

たとえば、Coefficientの分布が既知のときのRandom Coefficient Logitを考えよう。係数の値が与えられればLogitなので選択確率は簡単にかけるが、係数がRandomなので各係数の実現値に関してLogitの選択確率を計算してそれを係数の分布で積分するといった作業が必要になる。しかし、その積分は必ずしも簡単ではない。
もっとも直感的かつ簡単そうなのは、係数の分布からいくつか適当に値をドローしてきて、そのシミュレートされた値の平均で積分を置き換えるという方法だ。この論文ではその方法の漸近理論を確立している。

モデルに戻ると、
 \{ \xi_{i1},\cdot \cdot \cdot , \xi_{is} \}
という値を
 P(\cdot|x_i)
から引いてきて、
 \hat{h}(x_i,\theta))=s^{-1} \sum_{j=1}^s H(x_i,\xi_{ij} ,\theta)
でhを置き換えて
 G_n(\theta) = n^{-1}  \sum_{i=1}^n \hat{h}(x_i,\theta))
という目的関数をつくりGMM的な推定をするという方法を提示している。

Gかスムーズであれば、Hが不連続でも(よってその足し算であるG_nが不連続でも)いいってのが何回か書いてあったので、そこが売りなのかもしれない。


基本的にはGMMと同じような条件のもとでいい漸近性質を持つのだが、G_nとGがUniformly Small in all θっていうのが難しく、かつ大事なポイントであるようで、2章はまるまるそのことについて書かれている。
ここでは割愛。


ざっくり定理だけ紹介すると、

一致性
  •  || G_n(\theta_n ) || \leq o_p(1)+ inf || G_n(\theta ) ||
  •   G_n(\theta_0) = o_p(1)
  •  sup _{\theta -\theta_0 > \delta} || G_n(\theta ) ||^{-1} = O_p(1)

という条件のもとで、θ_nはθ_0の一致推定量である。

漸近正規性
  •  || G_n(\theta_n ) || \leq o_p(n^{-1/2})+ inf || G_n(\theta ) ||
  • G is differentiable at θ_0 with a derivative matrix Γ of full rank.
  • G_nとGが近い(論文ではちゃんと条件あり)
  •  \sqrt{n}G_n(\theta_0) \ \ \text{converges in distribution to } \ \ N(0,V)
  • θ_0はパラメタセットの内部

 \sqrt{n}(\theta_n - \theta_0)  \ \ \text{converges in distribution to } \ \  N(0,(\Gamma ' \Gamma)^{-1} \Gamma ' V \Gamma (\Gamma ' \Gamma)^{-1})

以上でめでたしめでたし。
本文ではΓを一致的に推定する方法もちょろっと載ってたけど、基本的にはサンプルモーメントで置き換える感じ。

Tilting the supply schedule to enhance competition in uniform-price auctions

全く定期的に更新ができないので、内容を簡潔にして更新頻度を上げることにしようと思う。自分の興味に依存して内容量を適当に決めます。



Tilting the supply schedule to enhance competition in uniform-price auctions
M LiCalzi, A Pavan - European Economic Review, 2005


分割可能財をUniform Price(一様価格?みんなが同じ価格で買う)なオークションを考える。買い手は、自分の右連続な需要関数を入札する。
具体的なアプリケーションとしては、国債のオークション、IPOオークションなどがある。


この論文で示していることは、
1.オークションにかけられている財の価値vをみんなが知っていて、供給が硬直的な場合、(均衡は複数ありうるが、そのうちの一つとして)実際の価値を大きく下回るような入札をするような対称な均衡が存在する。(Buyerが談合して、みんなで低い価格を入札するような均衡)
2.供給の弾力性が十分高ければ以上のような均衡はOne-Shotの均衡としては維持できなくなる。

という内容。
Underpricing Equilibriumが存在することは、例えば、IPOで株価がUnderpricingであるというような指摘とも整合的だ。

Alternative approaches to evaluation in empirical microeconomics

Alternative approaches to evaluation in empirical microeconomics
R Blundell, MC Dias - Portuguese Economic Journal, 2002

門外漢なのですが、誘導系の手法が理解できなくて悔しい思いをしたので読んでみた。間違っていたり誤解があったら指摘していただけると助かります。途中あまり理解できなかった部分も多々アリ。

論文の内容は誘導系の評価手法についてのまとめになっている。

どのような手法を用いるかは

  • 答えたい問題
  • 使えるデータの質
  • 各個人がどのようなメカニズムでプログラムや政策(Treatment)に参加するか

に依存する。

代表的な手法として

  • 社会実験(Social Experiments)
  • 自然実験(Natural Experiments)
  • マッチングメソッド
  • 操作変数法
  • 不連続デザイン?(Dicontinuity Design)
  • Control Function Methods

の6個が紹介されている。(途中から日本語訳を諦めた。正しい日本語訳があれば教えてください。)

基本的なモデルとして、Treatmentのステータスをd(1が参加、0がそのまま)とし、個人iがある時tの結果yが以下のように決まるとする。
 y_{it}^1=\beta + \alpha_i + u_{it}
 y_{it}^0=\beta  + u_{it}
まとめると、
 y_{it}=d_{it}y_{it}^1 +(1-d_{it})y_{it}^0=\beta+\alpha_i d_{it}+u_{it}
また、トリートメントをうけるかどうかのセレクションメカニズムは、以下のd*が0より大きければd=1それ以外ならd=0というメカニズムを想定する。
 d^*_{ik}=g(Z_{ik}, v_{it})
よくみるのは(Probit的な)
 d_{it}=\mathcal{1}(Z_{ik}\gamma + v_{it} \geq 0)
とか。

以上のようなモデルのもとで、興味の対象となる代表的なパラメータをいくつか紹介する。直感的にはαなわけだが、その値は個人ごとにことなるし、どういう政策変更をするかでどんな人たちのαが意味を持つかも違ってくる。

代表的には

  • ATE : \alpha^{\text{ATE}} =E(\alpha_i)
  • ATT : \alpha^{\text{ATT}} =E(\alpha_i | d_{it}=1)
  • ATNT: \alpha^{\text{ATNT}} =E(\alpha_i | d_{it}=0)
  • LATE: \alpha^{\text{LATE}} (Z',Z'')=E(\alpha_i | d_{i}(Z'')=1,d_{i}(Z')=0 )
  • MTE :  \alpha^{MTE}(P)=\frac{\partial E(y|P)}{\partial P}

の5個があるようだ。

ATE(Average Treatment Effect)は直感的だろう。ある政策を全員に適用する場合と、誰にも適用しない場合を比べた時に結果yが平均的にどれだけ増えるかという値をを示している。

ATT(Average Treatment Effect for Treated)は政策やプログラムの実際の効果がどの程度であったのかを評価したいときに意味を持つ。

ATNT(Average Treatment Effect for Non-Treated?)は、トリートメントを受けなかった人たちにトリートメントを受けさせることができた場合の平均的な効果を意味している。ちなみに最初の英語は、トリートメントを受けない人はUntreatedな気がするのだけど、ATUTになってしまうので、たぶんNon-Treatedではないかと思い適当に書きました。

LATE(Local Average Treatment Effect)は、補助的な変数ZをZ’からZ''に変化させたときに、Z'のときには受けていなかったがZ''では受けれるようになった人の平均的な効果を表す。単調性みたいな仮定と一緒に扱われるようで、Z'でのTreatment GroupがZ''でのTreatment Groupに含まれるような状況での追加的な効果。

MTE(Marginal Treatment Effect)は、Treatment Groupを限界的に大きくしたときの効果を表していて、LATEとも関係している。

Social Experiments

社会実験で大事なのは、Treatment Groupがランダムに決まっているかどうか。完全にランダムに決まっていると嬉しい性質が成り立つ。たとえば

  • R1:  E(u_i|d_i=1) =E(u_i|d_i=0)=E(u_i)
  • R2:  E(\alpha_i|d_i=1) = E(\alpha_i|d_i=0)=E(\alpha_i)

といった仮定が成り立っていると分析が楽で嬉しい。
(注:http://d.hatena.ne.jp/econometrica/20100307 によると、メカニズムデザイン使った方がいい時もあるかもしれないらしいけど)

R1&R2のもとでは、基本的にOLSで色々推定できるし、ATEとかATTとかATNTの違いもない。

しかし、実際にはセレクションメカニズムが内生的であることが多く、仮定が成り立たない可能性がある。

Natural Experiments

自然実験では、計画されていないような現象による変化を使って、変化の効果を測る。
もっともよく使われる手法はDifference-in-Difference(DID)である。これはIOでもよく使うから一番僕にも馴染みがある。

データとしては、TreatedとNon-Treatedの両方が、変化の前後で観察されている必要がある。両者の変化前後での結果の違いを比べることで、個人別の固定効果や時間を通じた影響を除くことができる。直感的には変化前後をDifferencing outすることで固定効果を、TreatedとNon-Treatedに共通の部分をみることでマクロショックを除くことができる。

先のモデルにおけるuを
 u_{it}=E(n_i|d_i) +m_t +o_{it}
とおく。一項目が個人の固定効果、二項目がマクロショック。
DIDでは、R1のような仮定が差にuの差について成り立っている必要がある。具体的には、
 E(u_{it} -u_{it'} |d_i=1)=E(u_{it} -u_{it'} |d_i=0)=E(u_{it} -u_{it'} )
のような仮定が必要になる。
しかし、社会実験のときとは異なり、内生的なセレクションメカニズムがあってもよい。たとえば、「個人の固定効果の高い人がTreatment Groupに選ばれやすい」などの状況を許せる。許されないのは、時間とともに変化するような個人効果(transitory individual-specific effects、o変化の部分)に基づくセレクション。

また、DIDのもとではR2のような仮定を置く必要はない。まぁ、R2なしには、DIDではATTしかIdentifyできないが。

このセッティングでATTは
 \alpha^{\text{ATT}} = \big( E(y_{it} |d=1) - E(y_{it'} |d=0) \big) -\big( E(y_{jt} |d=0) - E(y_{jt'} |d=0) \big)
になるが、これをサンプルで置き換えたものがDID推定量になる。dにダミーを置いてFixed Effectリグレッションをするのと解析的には同じになる。


まぁ、ということで、oの変化部分に基づくセレクションメカニズムがあったりしたら困るし、mの部分(タイムトレンド)がみんなの間で同一でなくても困る感じ。


DIDは線形だから簡単だが、非線形DIDになると一気に複雑になる。Fixed Effectのあるパネルデータのアナロジーで考えると難しいこともわかりやすい。

Matching Methods

(おそらく)Matching Methodの基本的な考え方は、
同じObservablesだが、一人はTreatedでもう一人はUntreatedであるような二人をマッチさせる。その差がαになる。
というシンプルなものだと思う。その代わりより複雑なモデルを扱えるようだ。
具体的には以下のようなモデルを考える。(tはあまり関係ないので無視する)

 y_{i}^1=\beta + \alpha(X_i) + u(X_i) +\big( \alpha_i-\alpha(X_i)  \big) + \big( u_i-u(X_i) \big)
 y_{i}^1=\beta +  u(X_i) + \big( u_i-u(X_i) \big)

  • ATTの識別・推定

仮定として大事なのは、Xがy0を説明するのに十分だという点だ。きちんと書くと、
 y^0_i \perp d_i |X_i
というConditional Independence Assumption(CIA)が必要になる。
上のモデルでいうと、
 \big( u_i-u(X_i) \big) \perp d_i |X_i
になる。これからImplyされる条件だが、R1に近い
 E(u_i|d_i,X_i) = E(u_i|X_i)
でもATTを推定するには十分だ。

Untreatedなデータから、Treatedな人と同じキャラクタリスティックでUntreatedであるような人のデータを”作りだし”、それをTreatedとマッチさせその差をみるわけだ。

各Xごとにそれをするために、
 P(d_i|X_i)<1
という仮定も必要になってくる。

以上より、ATTは以下のように書ける。Xの部分集合Sに関して、
 \alpha{ATT}(S) =E\big( y^1-y^0|d=1, X \in S  \big)
  =\frac{\int_S E\big( y^1-y^0|d=1, X \in S  \big) dF_{X|d}(X|d=1)}{\int_S  dF_{X|d}(X|d=1)}
よってこれをSample Analogで置き換えれば推定量になる。

  • ATEの識別・推定

実際にはATEを知りたいことの方が多いだろう。そのためにはより強い仮定が必要になる。具体的には、
 \big( \alpha_i-\alpha (X_i) \big) \perp d_i |X_i
が追加的に必要になる。

先と同じようにWeaker Versionで書くと、
 E(\alpha_i|d_i,X_i) = E(\alpha_i|X_i)

あと、確率についても、どっちのTreatedとUntreatedの両方についてCounter Partを作る必要があるので、
[tex: 0

  • Propensity Score Matching

マッチングメソッドは基本的にノンパラなようなので、Xの次元が多くなると困ってしまう。そこで、考えられたのがこの方法のようだ。
具体的には、Xで条件をつけるところをXの関数で条件付けをする。この関数としては、Treatmentを受ける確率P(X)を使うのが一般的なようだ。
 P(X)= P(d=1|X)
として、CIAを以下のようにModifyする。
 y^0_i \perp d_i |X_i  \to y^0_i \perp d_i |P(X_i)
どうやってComparison Groupを作るかで

  • Nearest Neighbor Matching
  • Kernel Matching

っていう手法があるみたいだけど、細かい話っぽいので割愛。



Matching Methodsの弱点として、Xの取り方があるようだ。
Xを大きくとりすぎると次元が大きくなりすぎて困るけど、Xが小さすぎてYをきちんと説明していないとConsistentだったりUnbiasedな推定ができなくなる。

  • MDID(Combining Matching and DID)

マッチングとDIDを組み合わせることもできるようだ。そうすることで個人の固定効果やマクロショックをモデルに入れることができる。

Instrumental Variables(操作変数法)

マッチング法ではUntreatedのOutcomeを作り出すことでパラメータを推定し、セレクションに関しては直接触れていない。一方IVでは直接Unobservableによるセレクションを考慮する。

Outcomeには影響を与えないが、TreatmentのParticipationにだけ影響を与えるような変数Zが存在するとする。これがInstrumental Variableになる。この条件をExclusion Restrictionという。

まずはαが同質的な場合を考える。
直観的には、zが変化したときの、yの変分をP(d=1)の変分で割ればそれがαになる。きちんと条件を書くと、

  •  \alpha_i =\alpha
  •  P(d=1|z)\not = P(d=1)

という仮定の下で、IV推定量

  •  \hat{\alpha} ^{IV} = \frac{cov(y,z)}{cov(d,z)}

になる。

IVの弱点として、

  • IVをどう選ぶ/見つけるか
  • 同質性の仮定なしにはExclusion Restrictionがもっともらしくない

最初の点は触れるまでもないので、二点目について。

IV法で必要なのは誤差項をzに条件付けると期待値が0(zに依存しない)になるという点だ。Heterogeneousな状況下では、誤差項は以下のように書ける。
 e_i =u_i+d_i(\alpha_i-\alpha)
条件付きの期待値は、
 E(e_i|z) =E(u_i|z)+P(d=1|z)E(\alpha_i-\alpha|d_i=1,z)
とかける。
同質な場合と同じで、一項目がzに依存しないという仮定は最もらしいとする。そのうえで、eの期待値がzに依存しないためには、二項目がzに依存しない必要がある。仮定より、d=1の確率の部分はzによって変化する。なので、αi-αの期待値の項が0でなければいけない。

これを直観的にいうと、「セレクションメカニズムが各αiと関係なければ問題ない」ということだが、それはもっともらしい仮定とはいいにくい。
例として教育の例が挙げられている。

大学教育の効果を測定するという問題を考える。IVとして、学校と自宅の距離を使う。(距離と能力は無相関だが、大学に行くかどうかという選択には影響を及ぼすので)
個人間の違いが「αは同一だがuの項が違う」場合、IVを使ったリグレッションでαが求められる。一方、同質性の仮定が成り立たなく「αiは個人ごとに違う」という場合を考える。
この場合、学校に近い人は比較的αが小さくても大学にいくだろうし、遠い人は比較的αが高くないと大学にいかないだろう。そうすると、IV(Z),dとαの無相関という条件が成り立たず、上のeの期待値の式の二項目の期待値が0にならない。
そのため、IVではATEやATTを識別することができない。

そこでより一般的な状況でも識別・推定できるLATEを考える。
必要な仮定をまず列挙する。

  •  P(d=1|z)\not = P(d=1)
  •  E(u|z) -E(u)
  •  (a,v) \perp z
  • 単調性:z''>z' ⇒ g(z'',v)>g(z',v)

という仮定のもとでLATEは識別される。
最後の項は強いようにも思えるが、上の教育の例でも成り立っているので、上の例でもLATEは識別できる。(上の例では、「大学に行ってる&距離が遠い⇒αiが高い」という関係が生まれてしまっているが、距離とαの関係は独立だと考えられる。)すっかり忘れているかもしれないが、vはParticipationの決定する式に出てくる誤差項。
単調性はLATEが意味を持つために必要になってくる。同じ人により高いzを与えたら、今Participateしてる人はそのままParticipateするし、してない人のうちの何人かはParticipateするようになるっていう感じ。

直観的な説明だけをすることにする。
ふたつのZの値、z''>z'を考える。両方の値でのyの期待値の差を、参加率の差で割ると“新しく参加した人たちの平均的なα”が求められる。これがLATEになる。

  • LATEとはなにか?

この辺の理解に一番時間がかかりました。なぜ単調性が必要なのかも含めて書こうと思います。

LATEはATEやATTとも違い、なんでそんなものに興味があるのかわからないパラメータに見えます。そもそも、z''、z'っていうあるZの値に依存して変化する値だし。まぁ、例えば政府がzしか変化させられなければLATEもそのままで意味を持つとも言えるけど。

まず、単調性について書く。Zがz'からz''に変化したとき、単調性なしにはyの変化分/確率の変化分が測るものは曖昧だ。色々な値でLATEを測った時に、“同じ人については一回だけ測る”みたいなことが成り立っていると、最終的にZの色々な値でLATEを測ることで、αiの分布にも言及できる。これが単調性の仮定のもとでは保証されている。

次に、LATEとMTEの関係について書く。LATEでは二つのZの値を使うが、両者の値を0に近づけるとそれがMTEになる。Zの変化による参加確率の変化も0に近づき、MTEの定義のような式になる。

もしデータが十分リッチなら、MTEを積分したりすることでATEやATTを復元することもできる。

以上のように、一見意味不明なLATEも、データのリッチネスなどがあれば実際に興味があるパラメータを測ることに使える。

Discontinuity Design

これは、参加率が補助的な連続変数Zに関して不連続に変化するような場合を扱う。例えば、年収1000万円未満と以上で所得税が不連続に変化する、など。これらの状況でαiの同質性などを仮定しなくても、その不連続点でのαiについて言及することができる。

具体的には、不連続点に上から近づけたときの結果/参加率と下から近づけたときの結果/参加率を比べる。

yのzに関する連続性みたいな仮定が追加的に必要になるが、その分αに関する仮定は緩いように思える。しかし、結局緩い仮定の下では不連続点に関してしか言及できない。

Control Function Methods

IOの構造推定派の僕にとっては一番馴染みやすかった。
セレクションメカニズムを明示的にモデルとして書き、セレクションの部分を含めて推定する。

一番分かりやすい例は、Censored Probitみたいなモデルでヘックマンの二段階推定法だと思う。




以上です。なにか僕の誤解などがあったら指摘してもらえると助かります。

池田信夫って確信犯だよなぁ

久しぶりの更新がくだらない内容になってしまうんですが、つい読んでて笑ってしまったので。

http://ikedanobuo.livedoor.biz/archives/51470046.html

2機の戦闘機が同時に敵艦を攻撃する。2機で攻撃すると撃沈できるが、1機だけだと撃墜されてしまうとする。ここで一方の戦闘機が他方に信号を送り、他方がそれを受信したことを確認したら攻撃するが、航空無線にノイズがあって受信できない可能性があるとする。この2機は、どうすれば協調して敵艦を攻撃できるだろうか?


これは協調攻撃(coordinated attack)というゲーム理論の有名な問題で、その答は、少しでもノイズがある限り協調攻撃はできないというものだ。

(中略)

これはRubinsteinの有名な論文で証明され、全員が同じことを知っていることを全員が知っている・・・という共有知識(common knowledge)をもつことがいかにむずかしいかの例としてよく引用される。協調して行動するときは、少しでもノイズがあると協調に失敗するので、全員が完璧に情報を共有しないと行動できないのだ。

この問題はRubinsteinの有名な論文で証明されてないし、むしろRubinsteinの論文では

However, the fact that the generals could not achieve common
knowledge does not exclude the possibility that with positive probability they will both attack at dawn.

と記述されています。
「よくもまぁ、原文と反対のことが書けるものだ」と感心しきりです。


Rubinsteinの論文を詳しく知りたい人は過去の記事を参考にしてください。
http://d.hatena.ne.jp/econometrica/20090514
件の例は、Joseph Halpern (1986, p.10)が出典で、Rubinsteinの論文では比較としてすこし記述されているだけです。

こういうミスリーディングで間違ってるんだけど、全く関係ないわけではないような内容を引用したうえで自説を展開し、その真偽を確かめられない/興味ない層に訴求する力って半端無いよなー、池田信夫って。
普通に見習いたいです。

Moment inequalities and their application

Moment inequalities and their application
A Pakes, J Porter, K Ho, J Ishii - Unpublished Manuscript, 2006

このペーパーはSingle Agentの意思決定問題やゲームの構造推定を、かなりゆるい仮定の下でImplementする方法を提示している。
その仮定の緩さから、Point Identifiedではなく、モーメント不等式を使ったSet Identificationになる。

この論文では、

  • チョイスセットは離散でも連続でもよい
  • 誤差項にパラメトリックな仮定を置かなくてもよい
  • 意思決定者がどんな情報集合を持ってるかについて仮定を置かなくていい
  • 内生的な外生変数があってもよい

という、ほとんど理想的な状況を扱える。もちろん、タダではなく、いくつかの仮定を満たす必要がある。(後述するが、この論文のフレームワークが使える問題のクラスがどれぐらい大きいかはよくわからない。)

この論文の特徴は、「モデルのPrimitiveに仮定をできるだけ置かないで推定する方法を提示する」というものなのだが、そのため、いたるところで定義する変数やら関数がほとんど解釈不能になっている。

実際にアプリケーションで使った人の感想と僕の読んだ感想を総合すると、「自分でモデルを書くときには、適当にこのフレームワークに乗るようにPrimitiveに仮定を置いてモデルを書く!」というのが正しい使い方のようだ。

アイディア

基本的なアイディアは、

  1. 均衡ではNo profitable deviationという性質が成り立っている
  2. 均衡でのPayoffと適当な逸脱からのPayoffの差をとると、各意思決定者の情報集合で条件付けた期待値の意味では≧0である
  3. 「合理的期待」な世界では、実際に実現する期待値と各意思決定者の情報集合で条件付けた期待値は同じなので、実際に実現する期待値の意味でも上の差は≧0である
  4. 上の条件をモーメントコンディションにして、サンプル平均で置き換えて推定

というシンプルなものだ。
彼らいわく
Generalized instrumental variables estimation of nonlinear rational expectations models
LP Hansen, KJ Singleton - Econometrica
の自然な拡張になっているらしい。まぁ、そうかもね。

セッティング

  • Players : i=1,...,n
  • Information Set : \mathcal{J}_i \in \mathcal{I}_i
  • Set of Possible Decisions : \mathcal{D}_i
  • Strategy : s_i: \mathcal{I}_i \rightarrow \mathcal{D}_i
  • Observed Decision : \mathbf{d}_i=s_i(\mathcal{J}_i)
  • Payoff : \pi: \mathcal{D} \times \mathbf{Y} \rightarrow \mathcal{R}
  • Expectation Operator : \mathcal{E}
  • Additional Set of Variables : y\in \mathbf{Y} where \mathbf{y}: \mathcal{D} \times \mathcal{Z} \rightarrow \mathbf{Y}

基本的には不可解なのはyだけだろう。yは誤差項的な役割を果たすわけなのだが、それが果たして何なのか、Zってなんなのか、などといった解釈は不能。他のアプリケーションをみて、「あぁ、YとかZってこれのことね!」と理解するしかない。まぁ、誤差項的なものだと思ってもらえればいいと思う。

仮定1と仮定2

まず、もっとも緩いかつAcceptableな仮定を二つ挙げる。

  • Assumption 1 (Nash Condition)

If s_i is the strategy played by agent i , then
 \sup _{d\in \mathcal{D}_i} \mathcal{E} \big( \pi(d, \mathbf{d}_{-i}, y_i) | \mathcal{J}_i, \mathbf{d}_i=d\big) \leq \mathcal{E} \big( \pi ( \mathbf{d}_i, \mathbf{d}_{-i}, y_i) | \mathcal{J}_i, \mathbf{d}_i=s_i(\mathcal{J}_i)\big)
for i=1,...,n

まぁ、そうだろう。
ポイントは、

  • 複数均衡とか関係ない
  • 均衡選択とか関係ない

ってあたりだろうか。

  • Assumption 2 (Counterfactual Condition)}

The distribution of (\mathbf{d}_{-i},z_i) conditional on \mathcal{J}_i and \mathbf{d}_i=d does not depend on d.

これも、まぁ、そうだろう。
基本的に逸脱しても損っていう条件からモーメントコンディションを作るので、逸脱したときにどんなPayoffが待ってるか計算する必要がある。
仮定2では、各プレイヤーの逸脱はUnexpectedであるという風に解釈することができる。
同時手番ゲームだとかなりJustifiableだし、動学ゲームであったとしても、大事なのは「自分が逸脱したらみんながどんな行動をとるか分かっている」という点なので、適当に別の仮定を置けば問題ない。

Ideal Moment Condition

ここまでのセッティングと、基本的なアイディアを組み合わせれば何をすべきかは自ずと明らかですが、まず、以下の差分を定義する。
  \Delta \pi (d,d',d_{-i},z_i)=\pi (d,d_{-i},y(d,d_{-i}, z_i)) - \pi (d',d_{-i},y(d',d_{-i}, z_i))
Then, for any d' \in \mathcal{D}_i,
 \mathcal{E}\big( \Delta \pi (s_i(\mathcal{J}_i),d',\mathbf{d}_{-i},z_i) |\mathcal{J}_i \big)   \geq 0.
というわけで、ここでモーメント不等式が出てきたので、あとはこれをサンプル平均で置き換えて推定すればよし。
めでたし、めでたし。

ということで、この論文の基本はここまでに尽きます。実際、上のモーメント不等式が使えるようにモデルを書いて、それを使って推定しましょう。


しかし、実際には一般に上の不等式はInfeasibleです。なぜなら、通常観察者はπを完全には観察できないからです。
やめときゃいいのに、そこを一般化しようとしたためこのペーパーは訳分からないことになります。

仮定3

まず、観察者はπの近似としてrというKnown Functionを計算できるとします。また、YやZは観察できないですが(前述しましたが、Yには誤差項も含まれるので)、Z_0を観察できるとします。
Δπの時と同じようにΔrを以下のように定義します。
\Delta r(\cdot ) : \mathcal{D}_i\times \mathcal{D}\times Z^0 \times \Theta \rightarrow \mathcal{R}
これは観察者にも完全に分かっているので、Δrを使って上のような不等式を作ることができると嬉しいわけです。そのために、いくつか変数を定義します。

 \nu _{2,i,d,d'} = \mathcal{E}\big( \Delta \pi (d,d',\mathbf{d}_{-i},z_i) |\mathcal{J}_i\big) - \mathcal{E}\big( \Delta r (d,d',\mathbf{d}_{-i},z^0_i, \theta_0) |\mathcal{J}_i\big)
 \nu _{1,i,d,d'}=\Delta \pi (d,d',\mathbf{d}_{-i},z_i)-\Delta r (d,d',\mathbf{d}_{-i},z^0_i, \theta_0)-\nu _{2,i,d,d'}

これらがなんなのかは解釈が不能です。モデルのPrimitiveが存在しない世界なので、解釈はあきらめましょう。
大事なのは以下の性質です。

  •  \mathcal{E}\big( \nu _{1,i,d,d'} |\mathcal{J}_i, s_i(\mathcal{J}_i)=d\big) =0
  •  \mathcal{E}\big( \nu _{2,i,d,d'} |\mathcal{J}_i, s_i(\mathcal{J}_i)=d\big)\not=0 in general

あと、わりといいのは、このフレームワークでの推定では、

  • need NOT to specify whether  (z_{-i},\nu_{2,-i}) is in  \mathcal{J}_i !

っていうことでしょうか。

これらを定義したうえで、いよいよ解釈不能な仮定3がきます。

  • Assumption 3

Let h be a function which maps x_i into a nonnegative Euclidean orthant. Assume that for an x_i that is both in \mathcal{J}_i and is observed by the econometrician, and a nonnegative weight function \chi ^i _{ d_i, \mathcal{J}_i } : \mathcal{D}_i \rightarrow  \mathcal{R}^+ whose value can depend on the realization of \mathbf{d}_i (and the information set \mathcal{J}_i)
 \mathcal{E} \big( \sum_{i=1}^n \sum_{d' \in \mathcal{D}_i} \chi ^i _{\mathbf{d}_i, \mathcal{J}_i}(d') \nu _{2,i,\mathbf{d}_i,d'} h(x_i) | \mathbf{d}_i = s_i(\mathcal{J}_i) \big) \leq 0
where  \nu _{2,i,\mathbf{d}_i,d'} \sum _{d \in \mathcal{D}_i}\mathbf{1}\{\mathbf{d}_i =d \}\nu _{2,i,d,d'} .


まぁ、要するに天からhとχが降ってきて、それがこの仮定を満たすと嬉しいってことです。hが普通のモデルで言う操作変数的な役割を果たし、χは各Observationにどれだけ重みを置くかを決定するようです。

繰り返しますが、自分でモデルを書くときは、仮定3を満たすようなhとχは・・・なんて考えないで、
 \mathcal{E}\big( \nu _{2,i,d,d'} |\mathcal{J}_i, s_i(\mathcal{J}_i)=d\big)=0
か、似たような仮定3がTrivialに成立するようにモデルのPrimitive(誤差項とか)に仮定を置きましょう。本末転倒ですけど。
Hoのペーパーとかではそうしてます。

Feasible Moment Inequality

とにかく、仮定3を所与とすれば、
 \mathcal{E} \big( \sum_{i=1}^n \sum_{d' \in \mathcal{D}_i} \chi ^i _{\mathbf{d}_i, \mathcal{J}_i}(d')  \Delta r (d,d',\mathbf{d}_{-i},z^0_i, \theta_0 )  h(x_i) | \mathbf{d}_i = s_i(\mathcal{J}_i) \big)
は、以下の参考の和として表せるのですが、仮定1から3までを使うと、不等式を得ることができます。

  •  \mathcal{E} \big( \sum_{i=1}^n \sum_{d' \in \mathcal{D}_i} \chi ^i _{\mathbf{d}_i, \mathcal{J}_i}(d') \Delta \pi (d,d',\mathbf{d}_{-i},z_i) h(x_i) | \mathbf{d}_i = s_i(\mathcal{J}_i) \big)
  •   -\mathcal{E} \big( \sum_{i=1}^n \sum_{d' \in \mathcal{D}_i} \chi ^i _{\mathbf{d}_i, \mathcal{J}_i}(d') \nu _{1,i,\mathbf{d}_i,d'} h(x_i) | \mathbf{d}_i = s_i(\mathcal{J}_i)\big)
  •  -\mathcal{E} \big( \sum_{i=1}^n \sum_{d' \in \mathcal{D}_i} \chi ^i _{\mathbf{d}_i, \mathcal{J}_i}(d') \nu _{2,i,\mathbf{d}_i,d'} h(x_i) | \mathbf{d}_i = s_i(\mathcal{J}_i) \big)

上の三項は0か≧0なので、
 \mathcal{E} \big( &\sum_{i=1}^n \sum_{d' \in \mathcal{D}_i} \chi ^i _{\mathbf{d}_i, \mathcal{J}_i}(d')  \Delta r (d,d',\mathbf{d}_{-i},z^0_i, \theta_0 )  h(x_i) | \mathbf{d}_i = s_i(\mathcal{J}_i) \big) \geq 0
合理的に期待が形成されるゲーム理論の均衡的な世界では、情報集合でコンディションする代わりにリアライゼーションをぶち込んで、
 \mathcal{E} \big( \sum_{i=1}^n \sum_{d' \in \mathcal{D}_i} \chi ^i _{s_i(\mathcal{J}_i), \mathcal{J}_i}(d')  \Delta r (s_i(\mathcal{J}_i),d',\mathbf{d}_{-i},z^0_i, \theta_0 )  h(x_i) \big) \geq 0
をモーメント不等式として推定します。

Estimation

この論文では推定方法・信頼区間の計算方法も提示していますが、彼らがWPであったうちに、Subsamplingや適切な方法でのBootstrap、Generalized Moment Selection Methodなどもっと良い方法が提示されているので、この論文の推定の部分を読む必要はないです。

問題点

実はこれが使える問題のクラスは小さいと思います。
たとえば、

  1. プロビットモデル
  2. Tamer(2003)などの簡単なエントリーゲーム

などでは使えないと思います。仮定3が強すぎるからです。
彼らもそれは認識していて、仮定3のような十分条件ではなく必要条件はなんなのかよくわからないと書いています。
うまい条件が見つかったら論文になるんじゃないかと思うので、興味がある人は探してみてもいいと思います。

「揉みたいぜ おっぱい」

日本の政局は混迷を深め、小党乱立により政党の離合集散ばかりが目立ち、肝心の政策論争は不在のような印象をうけます。
国民は政治への信頼を失い、閉塞感ばかりが漂っているようにも感じます。

現状に危機感を持っている国民も多いと思いますが、僕はこの日本の危機をチャンスと捉え、僕の政治信条を実現するために次の参議院選挙にうってでる決意を固めました。



基本的人権とは、すべての人間が生まれながらにして持ち、人間が一人の人間として人生をおくり、他者との関わりをとり結ぶにあたって、決して侵してはならないとされる権利のことです。
しかし、現代社会において、尊重されることが忘れられ、無残にも踏みにじられ続ける基本的人権が存在することをみなさんご存知でしょうか。
そうです、「おっぱいを揉む権利」です。


原始社会においては自然に存在していた「おっぱいを揉む権利」が、国家の出現とともに制約されています。
ホッブズの「リヴァイアサン」に始まる、自然権≒「おっぱいを揉む権利」をめぐる法哲学論争にも関わらず、一向に自然権復権の兆しが見えません。

僕自身、草の根運動をつづけて自然権の回復に努めてきましたが、やはり国政に訴えないことには埒があかないことに気づきました。



というわけで、次の参議院選挙で
「すべての人に平等におっぱいを揉む権利を!」
をスローガンに、南関東比例ブロックから出馬することにしました。
目玉政策は
「18歳以上の全ての国民におっぱい手当てを交付」
でいこうと思います。財源は事業仕分けで無駄をなくして捻出しようと思っています。子供手当てとか。
ただ、金持ち優遇にならないように、交付にあたって「Dカップ以上のおっぱいを二つ以上」という所得制限を設けることも検討しています。所得制限をDにするかCにするかで揉めそうなので社民党とは連立を組みません。


あと、ゆくゆくは二大政党制の一翼を担うつもりなので、新党結成も視野に入れています。
「今の時代に合っているのはひらがな」らしいので、党の名前は
「揉みたいぜ おっぱい」
でいこうかと思います。
略称は「おっぱい」にしようかと思っているので、みなさま投票用紙には「おっぱい」をお願いいたします。


みなさん、一緒に住みやすい日本を作りましょう!