Sequential estimation of dynamic discrete games

V Aguirregabiria, P Mira - Econometrica, 2007

この論文は、動学ゲームの構造推定の手法を提示している。
セットアップは以下。

Basic Setup

N : プレイヤーの数
$x_t\equiv(d_t, x_{1t}, ..., x_{Nt})$ : State Variable。Common Knowledge。ｄは共通の状態変数
$a_t\equiv (a_{1t}, ..., a_{Nt}), a_{it}\in A=\{ 0,1, ...,J\}$ : Decisions
$\epsilon_t \equiv (\epsilon_{1t},...,\epsilon_{Nt})$ Private Information。各戦略、各プレイヤーごとにあるので、次元はN×（J+1)。
$p(x_{t+1},\epsilon_{t+1}|a_t, x_t, \epsilon_t)$ : 移行確率。これもCommon Knowledge
そのもとで、各プレイヤーは以下の目的関数を最大化する。
$E\Bigg( \sum_{s=t}^{\infty} \beta^{s-t} \tilde{\Pi} _i (a_s, x_s, \epsilon_s) | x_t, \epsilon_{it} \Bigg)$
これだけだとどうしようもないので、いつもの仮定を置く。

仮定１：Additive Separability

$\tilde{\Pi} _i (a_s, x_s, \epsilon_s)= \Pi_i(a_t, x_t) +\epsilon_{it}(a_{it})$

仮定２：Conditional Independence

$p(x_{t+1},\epsilon_{t+1}|a_t, x_t, \epsilon_t)= p_{\epsilon}(\epsilon_{t+1})f(x_{t+1}|z_t,x_t)$

仮定３：Independent Private Values

$p_{\epsilon}(\epsilon_{t})=\Pi_{i=1}^N g_i(\epsilon_{it})$

仮定４：x_tのサポートは有限

これらを置くことで、HMとかRustとかで扱ってるような状況と同じになる。

Strategies and Bellman Equations

Game自体がMarkov構造を持っている（という風に仮定している）ので、戦略もマルコフストラテジーに限って分析する。これをしないと、動学は基本的にはなんでもありになってしまうので、どうしようもなくなる。
$\sigma=\{ \sigma_i (x, \epsilon_i) \}$
をストラテジー（状態変数から行動への関数）のセットとする。
戦略をGivenとして、条件確率（Conditional Choice Probability）を以下のように定義する。
$P^{\sigma}_i(a_i| x) \equiv Pr(\sigma_i(x,\epsilon_i)=a_i|x)$
いちいち書くのがめんどいので、以下εが出てこなかったら上のようにIntegrate outしてるか、期待値をとってると思ってください。お察しください。
あと、Πに関しても、相手の戦略を所与とした時の期待値とって
$\pi^{\sigma}_i (a_i,x)$
を定義する。
同じように、
$f^{\sigma}_i (x'|a_i,x)$
も定義できる。
すると、いわゆるベルマン方程式が
$\tilde{V}^{\sigma}_i(x, \epsilon) =\max \left( \pi^{\sigma}_i(x,a_i) +\epsilon (a_i)+\beta \sum_x (\int \tilde{V}^{\sigma}_i(x', \epsilon') g(\epsilon') d\epsilon' ) f^{\sigma}_i(x'|a_i,x) \right)$
とかける。
HMやRustでもやったけど、εにかんして積分して、
$V^{\sigma}_i(x)= \int \max \{ v^{\sigma}_i(a_i, x) + \epsilon(a_i) \} g_i (d\epsilon)$
とかける。ｖは、チョイススペシフィックなバリューファンクション（Choice-Specific value function）
$v^{\sigma}_i(a_i,x) \equiv \pi^{\sigma}_i(a_i,x)+ \beta V^{\sigma}_i(x') f^{\sigma}_i (x'|a_i,x)$

これはコントラクションになってるから、ユニークなバリューファンクションが常に存在する。（σを所与とすれば）

Markov Perfect Equilibria

MPEを定義する。けどめんどいから飛ばす。
$\Lambda _i(a_i| x; P_i) =\int I \left( a_i \text{is the best response}\right) g_i (\epsilon) d\epsilon$
という写像を考えたときに、MPEはこれのFixed Pointになっている。これをBest Response Probability Functionsと呼ぶ。
Browerの不動点定理から、これには不動点があることが言えるが、複数あるかもしれない。

以上より、均衡における選択確率は上の二つの不動点の問題をとく。
Given Pにおいて、N個のValue Functionsが計算できる。それをBRPFにぶちこむことで、P'が出てくる。PがMPEであれば、P=P’となっているということだ。

ただ、これを繰り返していけば均衡でのP*に収束するのだろうか？っていう疑問を持った。どうなんですかね？本文には書いてなかったです、たぶん。そうじゃない方法を提示してる論文だしね。

An Alternative Best Response Mapping

この論文では、N個のValue Functionを計算しなくてもいい方法を提示している。P^*を均衡とすると、それに付随する各プレイヤーのVFは
$V_i^{p^*}(x)=\sum P^*_i(a_i|x)\{ \pi_i^{p^*}(a_i,x)+e_i^{p^*}(a_i,x)\} +\beta \sum V_i^{p^*}(x')f^{p^*}(x'|x)$
とかける。ここで、eの項はε(a_i)のa_iが選択されたという条件付での期待値を表す。HMとかでも出てきた、おなじみの項です。ロジットタイプの誤差項だと、
$e_i^p= \text{Euler's Constant} -\sigma \ln (P_i(a_i|x))$
って簡単に書けることが知られているし、正規分布だったりすると解析的に書ける。

両者の違いを一言でいうと、前者では毎期最適行動するプレイヤーを想定している一方、後者では今期最適に行動する一方次期からはPに沿って行動するプレイヤーを想定している。どちらの場合でも、均衡では不動点になっていて、不動点の集合は一致するっていうのがレンマの内容。

均衡でのCCPを所与とすると、VFは以下の線型方程式の解になっている。
$(I-\beta F^{p^*})V_i^{p^*}=\sum P_i^{p^*}(a_i) * \{ \pi_i^{p^*}(a_i) +e_i^{p^*}(a_i) \}$
F^{p^*}はf^{p^*}の移行確率行列。*はElement by elementの掛け算。
ここで、Γ_i(P^*)をこの解とする。
$\Gamma _i(P^*) \equiv \{ \Gamma_i(x; P^*):x\in X \} , V_i^{p^*}(x)=\Gamma_i(x;P^{p^*})$
同様に、均衡確率でなくても、任意の確率Pに関して以下のようなMappingが定義できる。
$\Gamma_i(P) \equiv (I-\beta F^P)^{-1} \{ \sum P_i(a_i) * (\pi_i^P (a_i)+e_i^P(a_i) )\}$
これは、
全プレイヤーが確率Pに従ってプレイするもとで、状態がｘであったときのプレイヤーiのバリューの期待値
として解釈できる。

これを使うと、MPEを以下で定義する写像Ψの不動点として特徴付けることができる。
$\Psi_i(a_i|x, P) =\int 1\left( a_i=\arg \max \{ \pi_i^P(a,x)+\epsilon_i(a)+\beta \sum \Gamma_i(x':P)f_i^P(x'|x,a)\} \right) dG(\epsilon_i)$

Representation Lemma

仮定１から３が成り立っているとする。
このとき、ΛとΨの不動点の集合は一致する。

このレンマをつかうと、Ψの不動点だけを計算すればいいことになるが、これはPだけに依存しているし、バリューファンクションの不動点を求める代わりに線型方程式を解くだけでいいので、より簡単なもんだいである。

Estimation

M個のマーケット
T期間分各マーケットでObservationがある

ようなパネルデータにおける推定を考える。M→∞、TはSmallっていう普通のパネルのセッティング。

仮定５：

各マーケットで同じMPEが実現している。
プレイヤーは将来にわたっても同じMPEがプレイされると信じている。
Identification Condition
ObservationはIndependent across markets

という仮定を置いて推定する。
ナイーブには
$Q_M(\theta, P) =\frac{1}{M} \sum ^M\sum^T \sum^N \ln \Psi_i (a_{imt}|x_{mt};P, \theta)$
という目的関数を
$P=\Psi(\theta, P)$
という制約の元で最大化するθを推定量としたい。

しかし、これは現実にはかなり難しい最大化問題である。

Presudo Maximum Likelihood Estimation

仮に、実際のPopulation CCPを知ってるとする。（P^0とおく）
その場合、
$\hat{\theta}\equiv \arg\max Q_M(\theta, P^0)$
はルートM一致推定量で、漸近正規性があることが示せる。
しかし、実際にはP^0は未知なので、これはInfeasible。

そこで、P^0の（たとえば、Nonparametricな）一致推定量が存在して、それがルートM一致推定量だとする。
すると、
１．まずP^0の推定量P'を求める。
２．Q_M(θ, P')を最大にするようなθの値を推定量とする
という2-step推定量を考える。制約を考えなくていいから、わりと楽になるってことかと思います。

Proposition 1はその推定量の性質について示している。
結果は、
今までの主な仮定＋p'のルートM-Consistency、漸近正規性を仮定すれば、この二段階推定量の漸近正規性や√M-consistencyが示せる。

Nested Pseudo Likelihood Method

NPLはRecursive Extension of the two-step PML estimatorである。
この方法では、さっきのステップ１で必要だった一致推定量が必要ない。
適当なInitial GuessをP_0とおく。すると、
$\hat{\theta}_k=\arg\max Q_M (\theta, P_{k-1})$
が求められるし、
$P_k=\Psi (\hat{\theta}_k,P_{k-1})$
が定義できる。各Pに関して、θが一意に決まる限り、このシークエンスはWell-definedである。

これを収束するまで繰り返すとする。そこで得られる推定量とPの性質を知りたい。
問題は、

そもそも収束するのか？

収束したとする。それが、Ψの不動点になってるとする。

一致性があるのか？
Initial valueによって、複数不動点が存在するかもしれないが、どう扱うか？

っていうあたりでしょうか。

それらの問いに対する答えは、

収束するかどうかは証明できなかったが、実際にやってみたら必ず収束した
不動点の存在自体は証明できる
複数の不動点は存在しえる
複数存在した場合は、Pseudo Likelihoodを最大にするθ、Pのペアを選ぶ

Proposition 2で、それらの結果をまとめている。
そして、√M-consistencyと漸近正規性を示している。

Unobserved Heterogeneity

ある種の、観察されない異質性をモデルに入れてもこの手法は使える。・・・らしい。
めんどくさくなって読まなかった。

同様の理由で、モンテカルロシュミレーションの部分と、実際のアプリケーション、Exampleは省略。