Tail Probabilityが出てくる場面

Empirical likelihood ratio confidence regions
A Owen - The Annals of Statistics, 1990

授業でEmpirical Likelihoodが出てきた。その宿題で、
Let Y_1 ,..., Y_n i.i.d. with EY_i^2<\infty , then  Z_i=\max |Y_i| =o(n^{1/2}) and  \frac{1}{n} \sum |Y_i|^3 =o(n^{1/2}) a.s. .
っていう問題が出たことをきっかけにTail Probabilityについて考えさせられまくったので、まとめておく。ちなみに元ネタは上の論文。
まず、Tail Probabilityの日本語訳がわからん。分布の端の確率?テール確率?誰か正しい日本語訳を教えてください。


Tail Probabilityは上のような状況でも問題になるし、Independent VariablesのCentral Limit Theoremでも問題になる。(Lyapunov conditionとかLindeberg's conditionとか)
例えば、Lindeberg's condition。
Let X_1 ,..., X_n independent with E(X_i)=\mu _i , Var(X_i)=\sigma_i^2 <\infty S_n^2=\sum \sigma_i^2 . And also suppose
 \max \frac{\sigma _i^2}{S_n^2} \to 0 as  n\to \infty. Then
  \lim _{n\to \infty} \frac{1}{S_n^2} \sum \int _{ \{ |X_i-\mu_i| >\epsilon S_n  \}} |X_i-\mu_i|^2 dF_i= 0
if and only if
\frac{\sum(X_i -\mu_i)}{S_n} converges in distribution to standard normal.
など。
Tail Probabilityが十分に早く0に行くことが独立な確率変数の和に中心極限定理を使えるかどうかの必要十分条件になっているわけだ。

Tail Probabilityについての考察

色々考えた結果、密度関数、分布関数の形が分からない以上Markov Inequality以上にタイトに分布の端の確率のバウンドをみつけるのは無理っぽいです。正規分布とか、ガウス分布、単峰の分布などの場合はよりタイトにバウンドできるが、ここでは省略。


いかにタイトにboundできるかはMomentが何次まで存在しているかと深く関係している。


1.モーメントが存在しない場合。(コーシー分布など)
実は考えたことなかった。今ふと思っただけ。この場合は有用な結果が存在してるんだろうか。

2.1次のモーメントが存在する場合。
Markov Inequalityが使える。マルコフ不等式とは以下の関係。
 E(|X|)=\int |x| dF_x\geq \int _{ \{ |x|>a \} } |x| dF_x \geq \int _{ \{ |x|>a \} } a dF_x =aP(|x|\geq a)
よって
 P(|x|\geq a) \leq \frac{E(|X|)}{a}

3.2次のモーメントが存在する場合。
いわゆるチェビシェフの不等式。でも、基本的にマルコフ不等式と一緒。  Y=|X-\mu|^2 と定義すれば、
  Var(X)= E(|Y|)
であるが、|Y|に関して↑と同様に
 E(|Y|) \geq  a P(|Y|\geq a)=a P(|X-\mu | \geq \sqrt{a} ) がマルコフ不等式から導かれるから、  P(|X-\mu | \geq \epsilon ) \leq  \frac{Var(X)}{\epsilon ^2}  でTail Probabilityをバウンドできる。

4.k次のモーメントが存在する場合。
平均0を仮定してざっくばらんに書きます。マルコフ不等式の応用。今度は逆向きに計算してみると、
  P(|x|\geq a)= \int_{ \{ |x|>a \} }  dF_x =  \int_{ \{ |x|>a \} } |x|^{-k}|x|^k  dF_x \leq \int_{ \{ |x|>a \} } a^{-k}|x|^k  dF_x \leq \int a^{-k}|x|^k  dF_x  =\frac{E(|X|^k)}{a^{-k}}
という形でTail Probabilityをバウンドできる。

5.Moment Generating Function(モーメント母関数)が存在する場合。
実はずっと疑問だったのが、全ての次数のモーメントが存在することと、MGFが存在することって同値なのかな?まぁ、いいや。
結局これもマルコフ不等式の応用にすぎないんだけど、非負の確率変数Xについて、MGFが存在するとする。すると、
 P(X>u)=P(e^{X}>e^{u})\leq e^{-su}M(s)
さらにいうと、
 P(X>u)\leq  \inf _s e^{-su}M(s)
これがいわゆるChernoff Inequality。


まとめると、たとえば P(x>n) のバウンドを求めたいとき、k次のモーメントまで分かっていれば、  O(n^k) のオーダーでその確率が減っていくことがわかるし、MGFが存在するなら、 e^{n} のオーダーで0に向かう。


また、モーメントと分布の端の関係は、例えばLindeberg's conditionが成立するための十分条件を求めるのにも使われる。それが
 \lim \frac{1}{S_n^{2+\delta}} \sum E|X|^{2+\delta} =0
になる。(Lyapunov condition)
分布の端で積分するような複雑な条件も、モーメントの存在とマルコフ不等式でやや確かめるのが簡単なモーメントの条件に置き換えることができるのである。上の条件+4.で使った式変形でLindeberg's conditionが成立することが確かめられる。

どうやら一般的な分布のTail Probabilityに関しては、4.で使ったような式変形がよく用いられるみたいだ。



最後に最初の問題に戻ろうと思う。
まず、以下のイベントを定義する。定数cに対して、
 A^{c,i}_n= \{ \omega : |X_i|>c n^{1/2}  \}
を考える。Borel-Cantelli Lemmaから、
 \sum P(A^c_n) <\infty for all cであれば  |X_i| =o(n^{1/2}) が言える。これが言えれば、 \max |X_i| =o(n^{1/2}) もインプライされる。
なぜなら、  |X_n| =o(n^{1/2}) が上からインプライされるが、  B_n^{c} =\{ \omega |  \max |Y_i|> cn^{1/2}  \} とすると、最大値が√nより大きいイベントは各観測値が、√添え字より大きいイベントより小さい。いっぽうで、十分大きな添え字から始めると、後者はa.s.にあり得ない。以上の直観をちゃんと書くと、  p(\lim B_n^c )=0 が導かれる。

 E|X|^2=k とおくとチェビシェフ不等式から
 P(A^c_n) \leq \frac{k/c^2}{n} であるが、  P(A^c_n) =O(n^{1}) だけではボレルカンテリレンマは使えない。
チェビシェフ不等式はマルコフ不等式の応用なわけだが、マルコフ不等式の証明に戻って考えると、期待値の積分計算のところで X>a のところにはaを代入して、X≦a のところには0を代入して証明した。この階段状の積分をより細かくすればより強い結論が導かれるかもしれない、というのがこの問題を解くにあたってのアイディアになっている。
具体的には、  P(A^c_n)=a_n とおくと、
 E|X|^2= \int_{ \{ X> cn^{1/2} \} } X^2 dF_x+ \int _{ \{ c^2n>X^2> c^2(n-1) \} } X^2 dF_x+\int _{ \{ c^2(n-1)>X^2> c^2(n-2) \} } X^2 dF_x+ \cdot \cdot \cdot +\int _{ \{ c^2>X^2> 0 \} } X^2 dF_x
それぞれの積分の中身を各区分の最低値で置き換えると、
E|X|^2> c^2n a_n +c^2(n-1)(a_{n-1}-a_n)+ \cdot \cdot \cdot +a_1 =c^2\sum a_i
よって、Borel-Cantelli Lemmaより、示したいことが示された。