Identification of Binary Response Models
Charles F. Manski
Journal of the American Statistical Association, Vol. 83, No. 403 (Sep., 1988), pp. 729-738
Published by: American Statistical Association

http://www.jstor.org/stable/2289298


この論文ではBinary Response ModelやThreshold-Crossing Modelと呼ばれるモデルにおける識別問題を扱っている。
(z,x)が観察され、z=1[ x\beta+u\geq 0] が正しいモデルであるときに、(\beta, F_{u\mid x})を識別するための必要/十分条件についてF_{u\mid x}に置いた様々な仮定がどれだけのIdentification Powerを持っているのかということを議論している。

まずIdentificationを定義する。
\Phiを実数上のすべての確率分布の集合とする。Given\Omega \subset R^K\times \Phi ^Kについて、(\beta, F_{u\mid x}) \in \OmegaはKnownだとする。

X(b,G_{u\mid x})\equiv \{ x\in X: P_{1\mid x}\not= \int 1[ xb+u\geq 0 ] dG_{u \mid x} \}

と定義するとき、(\beta, F_{u\mid x})(b, G_{u\mid x})に対して識別される(identified relative to)とは(b, G_{u\mid x}) \not \in \Omega or Pr [ x\in X(b, G_{u\mid x})] >0であることとして定義する。

また、(\beta, F_{u\mid x})が識別されない集合を\Omega _0 \subset \Omegaとする。ある全射の関数 c:R^K \times \Phi ^K \to Cについて、c(\beta, F_{u\mid x})d\in Cに対してIdentifyされるとは、c(b,G_{u\mid x})=dとなるような(b, G_{u\mid x})\in \Omega _0が存在しないということとして定義する。

一致的に推定できる(Consistent estimability)ことと、識別できることは同一ではない。後者は前者の必要条件だが、Consistentlyにestimateされるためには、識別できる+真の値の近傍での"Smoothness"が必要だ。この論文では両者を区別しているが、一般には同一視して問題ない場合が多いと思う。(Trainの本でLogitを扱ったときも"この場合は"同一だみたいなことが書かれていた。)


本題に入るが、この論文では5個の仮定について議論している。また、Xの分布についても条件を分けて考えている。
残念ですけど、Xの分布の条件は6個あるのですが、違いがよくわからなかったです。要するにXのバリエーションが大事ってことだと思うのですが、それぞれの条件の持つ識別力の違いまで理解しきれなかったです。以下の説明は、XはFull Support的な非常にRichなXを前提としていると思ってください。もし、読まれた方で僕より詳しい方がいたらXの条件の部分についてご教授願います。

まず、このモデルはScale and Locationを標準化した形までしかIdentifyされないので、各仮定によってScaleとLocationの標準化を適宜行う。

1.Mean Independence
E(u\mid x)=0 \forall x
2.Quantile Independence
For a given \alpha \in (0,1), Pr(u<0\mid x)=\alpha \forall x
3.Index Sufficiency
F_{u\mid x}=F_{u\mid x\beta} \forall x + ablosutely conitinuous
4. Statistical Independence
5.Known Distribution


1.について。
通常の線形回帰モデルでは、この仮定(+richness of X)があればパラメーターは識別される。しかし、Binary Response Modelでは何の識別力もない。

2.について。
 Q_b\equiv [ x\in X : xb<0\leq x\beta \cup x\beta <0\leq xb ]
としたときに、 \beta  b に対して識別される必要十分条件 Pr(x\in Q_b >0 である。また、パラメタの符号自体はより弱いXの分布の仮定の下でも識別される。
("Smoothness"仮定の下での一致推定量を考えたとき)仮定QIのもとではEstimatorの収束の早さは  n^{\frac{1}{3}} であるが、分布が対称であることを仮定すれば  n^{\frac{1}{2} まで早くなる。(この部分の出典は忘れました。けど、確かな記憶なので、この論文の引用論文を片っ端からあたればどっかに載ってると思います。)
この仮定の問題は「なぜ特定のQuantileがXから独立なのか?なぜそれだけが分かっているのか?」という疑問を逃れない。

3.について。
直感的には  x\beta がuの分布の十分統計量になっているという仮定の下での識別力についてである。
しかし、それだけでは  (b_1, 0,0,\cdot \cdot \cdot ,0) というようなbに対してしか識別力を持たない。絶対連続とXのRichnessを仮定することで、up to signでIdentifyされる。Estimationに関してIchimura(1987)が引用されていてちょっとテンションがあがった。

4.について。
uの分布が統計的に独立であればより強い識別力があることは容易に想像できる。
特に面白いと思った結果はない。
uの分布の仮定とXの分布の仮定を組み合わせて、識別力の強弱をいくつかのパターンで比較している。2の時と同様の必要十分条件も、もちろん示されている。

5.について
実際の応用上(Logit,Probit)はこれが仮定されることが多い。



Xの分布の仮定とuの分布の仮定を様々に変化させて識別力の強弱を比較しているが、もともとはXの分布の仮定が識別力にどういう影響を与えるかに興味があって読み始めたのでちょっと消化不良感は否めない。
もっとXの分布の仮定に絞った識別力を扱った論文を探して読もうと思った。

また、この論文はBinary Responseを扱っているがChoiceが複数のときも同じような議論ができるのかちょっと疑問に思った。特に誤差項が独立じゃない場合の一般のケースでの識別問題、推定など未解決の部分があったと思う。