On Subsampling Estimators with Unknown Rate of Convergence

On Subsampling Estimators with Unknown Rate of Convergence.
P Bertail, DN Politis, JP Romano - Journal of the American Statistica


ある統計量(たとえば平均とかOLSで推定した係数とか)があったときに、仮説検定をしたり信頼区間を構成したりしたいというのは自然な欲求だと思う。
多くの場合、モデルから漸近分布を導出して、その漸近分布のQuantileを使って仮説検定・信頼区間の構成を行う。

しかし、

  • 漸近分布の導出が難しい(解析的Or計算的に)
  • あくまで極限で成り立つ性質であり、有限サンプルでのパフォーマンスを保証しない

といった問題がある。

それらを解決する方法としてブートストラップ法(Bootstrap Method)が考え出された。ブートストラップ法では解析的な漸近分布の導出から離れ、統計量の分布を計算的な手段のみで推定する。
ブートストラップ法により、コンピューターコードを書くだけで仮説検定・信頼区間の構成ができるうえ、(一定の条件下では)漸近分布よりも(Higher Order Asymptoticな意味で)”正確に”実際の統計量の分布を推定することができる。


一方ブートストラップ法によって推定された統計量の分布が一致的(Consistent)であるためには、モデルが”スムーズ”である必要がある。スムーズでないようなモデル(パラメータがパラメータ空間の境界にある、一様分布の端を推定するETC)においては一致的でないことが知られている。


この問題を解決したのがSubsampling Methodである。ざっくばらんに言えば、
「統計量が漸近分布を持つならば、サブサンプリングで推定された分布は一致的」
ということが知られている。スムースネスフリーな分布の推定方法として非常に便利であり、漸近分布が導出できなかった論文では、だいたいサブサンプリングで信頼区間を構成している。とりあえずサブサンプリングしておけば間違いないわけだ。


一方で、必ず導出しなければならないのはRate of Convergenceだ。平均ので言うと、√nをかけるから漸近的に正規分布するわけで、たとえば平均にnをかけてしまうと発散してしまうし√√nをかけると点になってしまうので、仮説検定や信頼区間の構成に役立たない。
しかし、複雑な統計量やスムーズじゃないモデルでは自分が扱いたい統計量のRate of Convergenceが自明でないことが多々ある。

例えば、以下の例を考えてみよう。
X1,・・・,Xnが平均μの分布からDrawされたとする。μ^2に興味があるとする。
自然な推定方法は
 T_n= (n^{-1} \sum X_i)^2
でTnからμ^2を推定するものだろう。
μ>0(<0)では、√n(T_n-μ)は正規分布に収束するが、μ=0では√n(T_n-μ)→0である。μ=0のときには√nではなくnをかけなくてはいけない。


前置きが長くなったが、この論文ではRate of ConvergenceがUnknownのときに、それ自体を推定しSubsamplingを実際にするための方法を提示している。

細かい部分を飛ばす。
興味のある統計量のRate of Convergenceがnのα乗だとする。
nのα乗より早く無限に行くようなものを統計量にかけると統計量の分布は発散してしまうし、遅く無限に行くようなものをかけると分布がただのディラック測度になってしまう。

この論文の基本的なアイディアは、データを所与として、サブサンプリングする数を変えてたくさんの分布を推定し、その分布の形状をみることで、ディラック測度でもなく発散するわけでもないようなちょうどいいαを見つけるというものだ。


直感的かつ創造的で面白いとおもった。Implementationも簡単そうでいいと思う。応用の人間にとってはいつ使うのか謎だけど。


やたら前置きが長くなった割に本文が短くてアレですね。。。