PANEL DATA MODELS: SOME RECENT DEVELOPMENTS - 経済学論文レビュー

M Arellano, B Honoré - Handbook of econometrics, 2001

なんか読んでしまった。実は何度も同じ内容を読んでるんだけど、読むたびに忘れるので、Nonlinearの部分だけでもまとめておこうとおもう。
Linearの場合は差をとればだいたい解決。

Nonlinearの場合の問題はIndividual SpecificなUnobserved Heterogeneityがあると、それは推定できないのはもちろん、他のパラメータもIdentifyされなかったり、Biasがある推定しかできなかったりするという部分だ。
Random Effect的なモデルを仮定すれば、Unobservedな項の分布をパラメトライズしたりして解決できる部分もあるんだけど、より一般的なFixed Effectにどう対処するかっていうのが問題になることが多いと思う。

Conditional Likelihood

上手いことコンディションすると上手いこといくっていう例を二つ。

まず、ロジット。
T=2の場合を考える。（パネルの縦が２で横が無限に行く場合）
普通のLogit的なモデルでのChoice Probabilityは（y=1,0）
$Pr(y_{jt}=1 | \alpha_j, x_{j1},x_{j2}) = \frac{exp(\beta x_{jt} +\alpha_j)}{1+exp(\beta x_{jt} +\alpha_j)}$
なわけだけど、一期にも二期にも同じチョイスをした人はUnobserved Heterogeneityが＋∞か-∞とすることで説明できちゃう。だから、パラメータの識別や推定に意味を持つデータは
$y_{j1}+y_{j2}=1$
の条件を満たすデータのみ。このとき、
$Pr(y_{jt}=0, y_{j2}=1 | \alpha_j, x,y_{j1}+y_{j2}=1) = \frac{1}{1+\exp(\beta (x_{j1}-x{j2} ) }$
が成り立つので、これを使ってパラメータを推定する。

T>2のときも、（少し工夫が必要だが）同じようにLikelihoodをαなしで書くことができる。ちょっと一般的に言うと、Σyがαの十分統計量になっているということが言える。See：Chamberlain (1980)
Tが大きい場合のコンピュテーションを楽にする方法も少し紹介されてる。

次にポワソン回帰。
$y_{it} \sim Po(\exp(\alpha_i +\beta x_{it}))$
ポワソン分布に従う変数の和は二項分布になるので、その辺をうまく使うと、ロジットと似た感じでαがないLikelihoodを書ける。

Discrete choice models with "fixed" effects

いきなりManski(1987)が引用されててテンションがあがる。maximum score estimator Manski(1975)にFixed Effectを入れた感じなのだが、モデルは以下。
$y_{it}=1\{ x_{it}\beta + \alpha_i +\epsilon_{it} \geq 0 \}$
$P(y_{i2} =1 | x, y_{i1}+y_{i2}=1) \geq \leq 1/2$
の不等号が下の不等号の向きと一致することが示せる。
$(x_{i1}-x_{i2}) \geq \leq 0$
なので、後はマキシマムスコアと同じ方法で推定ができる。

マキシマムスコアはかなり緩い誤差項への仮定の下でもConsistentである一方、ルートｎConsistentではないし、漸近分布も正規分布ではない。Chamberlain (1993)で、PanelのBinary ChoiceではLogit以外の誤差項ではルートｎConsistentなEstimatorはないことが示されているらしい。

Tobit-type models with "fixed" effects

トービットモデルにはあんまり興味ないので省略。
ざっくばらんに言うと、基本的には線形のモデルだから、Differencing outできるように上手いこと考えればいいって感じ。

Models with lagged dependent variables

Lagged Dependent Variablesが説明変数に入ってると、initial conditions problemって呼ばれてる問題が生じる。一番最初の項がUnobservableだからだ。たとえそれが観察された（もしくは最初のデータを使わない）としても、最初の項はUnobserved Heterogeneityにも依存してるし、他の説明変数の分布にも依存してるし、とにかく複雑になってしまう。

解決策として、「対象とするプロセスが始まる時点から観察してる」と仮定して、最初の項はある意味他の要素から”独立”であると仮定するっていう方法がある。Heckman (1981)とか。

それだとつまらないので、他の方法も書かれてるが、
Very little is known about how to deal with general predetermined variables in the models
らしいので、研究の余地まだまだあるのかもね。

たとえば、
$y_{it}=1\{ x_{it}\beta +y_{it-1}+ \alpha_i +\epsilon_{it} \geq 0 \}$
みたいなモデルを考える。そうすると、前に紹介したようなテクニックは使えない。前のテクニックは誤差項のシリアルディペンダンスがあるとうまくいかないから。
まぁ、前回はT=2でうまくいったんだけど、実は今回も上手いこと考えるとT=4より大きければなんとかなるっぽい。
Chamberlain (1978)とか、Magnac (1997)とか、Kyriazidou (2000)とか。同じテクニックはマキシマムスコアにも使える。

Dynamic Tobitとか、Dynamic Sample Selection Modelとかでも少し結果は出てるようだ。

以上、かなり適当になってしまった。細かい話が多くてちょっと読む気がしない部分が多い。