발표자: 정진욱
발표 일자: 2022-07-27
이제 어떤 상수 c 1 > 0 c_1>0c 1 > 0 가 존재하여 모든 i = 1 , … , r i=1, \dots, ri = 1 , … , r 에 대해
∥ P ‾ i , 0 ∧ P ‾ i , 1 ∥ ≥ c 1 \|\overline{\mathbb{P}}_{i,0}\wedge \overline{\mathbb{P}}_{i,1}\| \ge c_1
∥ P i , 0 ∧ P i , 1 ∥ ≥ c 1
임을 보이면 되는데 여기서는 ∥ P ‾ 1 , 0 ∧ P ‾ 1 , 1 ∥ ≥ c 1 \|\overline{\mathbb{P}}_{1,0}\wedge \overline{\mathbb{P}}_{1,1}\| \ge c_1∥ P 1 , 0 ∧ P 1 , 1 ∥ ≥ c 1 , 즉 i = 1 i=1i = 1 일 때 만을 보일 것이다. i ii 가 바뀌어도 동일한 상수 c 1 c_1c 1 을 얻을 수 있기에 이것만으로 충분하다. \newline
먼저 다음과 같은 변수 공간들을 고려하자.
Λ 1 : = { λ 1 ( θ ) ∈ R p : θ ∈ Θ } , Λ − 1 : = { λ − 1 ( θ ) ≡ ( λ 2 ( θ ) , … , λ r ( θ ) ) T ∈ R ( r − 1 ) × p : θ ∈ Θ } . \Lambda_1 := \{ \lambda_1 (\theta) \in \mathbb{R}^p \ : \ \theta\in\Theta\}, \quad \Lambda_{-1}:= \{ \lambda_{-1}(\theta) \equiv (\lambda_2(\theta), \dots, \lambda_r(\theta))^T \in \mathbb{R}^{(r-1)\times p} \ : \ \theta\in\Theta\}.
Λ 1 := { λ 1 ( θ ) ∈ R p : θ ∈ Θ } , Λ − 1 := { λ − 1 ( θ ) ≡ ( λ 2 ( θ ) , … , λ r ( θ ) ) T ∈ R ( r − 1 ) × p : θ ∈ Θ } .
각 a ∈ { 0 , 1 } a \in \{0,1\}a ∈ { 0 , 1 } , b ∈ { 0 , 1 } r − 1 b\in\{0,1\}^{r-1}b ∈ { 0 , 1 } r − 1 , c ∈ Λ − 1 c\in \Lambda_{-1}c ∈ Λ − 1 마다 다음과 같은 확률분포를 정의한다:
P ‾ ( 1 , a , b , c ) : = 1 ∣ Θ ( 1 , a , b , c ) ∣ ∑ θ ∈ Θ ( 1 , a , b , c ) P θ , Θ ( 1 , a , b , c ) : = { θ ∈ Θ : γ 1 ( θ ) = a , γ − 1 ( θ ) = b , λ − 1 ( θ ) = c } . \overline{\mathbb{P}}_{(1,a,b,c)} := \frac{1}{|\Theta_{(1,a,b,c)}|} \sum_{\theta \in \Theta_{(1,a,b,c)}} \mathbb{P}_\theta, \quad \Theta_{(1,a,b,c)} := \{\theta\in\Theta \ : \ \gamma_1(\theta) = a, \quad \gamma_{-1}(\theta) = b, \quad \lambda_{-1}(\theta) = c\}.
P ( 1 , a , b , c ) := ∣ Θ ( 1 , a , b , c ) ∣ 1 θ ∈ Θ ( 1 , a , b , c ) ∑ P θ , Θ ( 1 , a , b , c ) := { θ ∈ Θ : γ 1 ( θ ) = a , γ − 1 ( θ ) = b , λ − 1 ( θ ) = c } .
여기서 γ − 1 ( θ ) = ( γ 2 ( θ ) , … , γ r ( θ ) ) T \gamma_{-1}(\theta) = (\gamma_2(\theta), \dots, \gamma_r(\theta))^Tγ − 1 ( θ ) = ( γ 2 ( θ ) , … , γ r ( θ ) ) T 이다. 이제 함수 f = f ( γ − 1 , λ − 1 ) f= f(\gamma_{-1}, \lambda_{-1})f = f ( γ − 1 , λ − 1 ) 를 Θ − 1 : = { 0 , 1 } r − 1 × Λ − 1 \Theta_{-1}:= \{0,1\}^{r-1}\times\Lambda_{-1}Θ − 1 := { 0 , 1 } r − 1 × Λ − 1 에서 평균을 취한 값을 E ( γ − 1 , λ − 1 ) f ( γ − 1 , λ − 1 ) \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}f(\gamma_{-1}, \lambda_{-1})E ( γ − 1 , λ − 1 ) f ( γ − 1 , λ − 1 ) 라고 쓴다. 즉
E ( γ − 1 , λ − 1 ) f ( γ − 1 , λ − 1 ) : = 1 2 r − 1 ∣ Λ ∣ ∑ ( b , c ) ∈ Θ − 1 ∣ Θ ( 1 , a , b , c ) ∣ f ( b , c ) \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}f(\gamma_{-1}, \lambda_{-1}) := \frac{1}{2^{r-1}|\Lambda|} \sum_{(b,c)\in \Theta_{-1}} |\Theta_{(1,a,b,c)}| f(b,c)
E ( γ − 1 , λ − 1 ) f ( γ − 1 , λ − 1 ) := 2 r − 1 ∣Λ∣ 1 ( b , c ) ∈ Θ − 1 ∑ ∣ Θ ( 1 , a , b , c ) ∣ f ( b , c )
이고 a aa 는 0과 1 중 무엇을 선택해도 무관하다.
이제 어떤 상수 c 2 ∈ ( 0 , 1 ) c_2\in(0,1)c 2 ∈ ( 0 , 1 ) 가 존재하여
E ( γ − 1 , λ − 1 ) { ∫ ( d P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ) 2 d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) − 1 } ≤ c 2 2 (16) \tag{16}
\mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}\left\{ \int \left(\frac{d\overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} }{d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} } \right)^2 d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} -1 \right\} \le c_2^2
E ( γ − 1 , λ − 1 ) ⎩ ⎨ ⎧ ∫ ( d P ( 1 , 0 , γ − 1 , λ − 1 ) d P ( 1 , 1 , γ − 1 , λ − 1 ) ) 2 d P ( 1 , 0 , γ − 1 , λ − 1 ) − 1 ⎭ ⎬ ⎫ ≤ c 2 2 ( 16 )
임을 보이기만 하면 충분하다. 왜냐하면 1 의 Lemma 8, (ii)의 결과를 이용하면 위 식은
∥ P ‾ 1 , 0 ∧ P ‾ 1 , 1 ∥ ≥ 1 − c 2 > 0 \| \overline{\mathbb{P}}_{1,0}\wedge \overline{\mathbb{P}}_{1,1} \| \ge 1-c_2 >0
∥ P 1 , 0 ∧ P 1 , 1 ∥ ≥ 1 − c 2 > 0
을 의미하기 때문이다.
여기서 잠시 이에 대한 증명을 짚고 넘어가자면, 우선 공통의 dominating measure μ \muμ 에 대해 두 개의 density q 0 q_0q 0 와 q 1 q_1q 1 가 있다고 할 때 옌센 부등식을 이용하면
[ ∫ ∣ q 0 − q 1 ∣ d μ ] 2 = ( ∫ ∣ q 0 − q 1 q 1 ∣ q 1 ) 2 ≤ ∫ ( q 0 − q 1 ) 2 q 1 d μ = ∫ ( q 0 2 q 1 − 1 ) d μ \left[ \int |q_0-q_1| d\mu\right]^2 = \left( \int \left|\frac{q_0 - q_1}{q_1} \right| q_1 \right)^2 \le \int \frac{(q_0 - q_1)^2}{q_1} d\mu = \int \left(\frac{q_0^2}{q_1} -1 \right)d\mu
[ ∫ ∣ q 0 − q 1 ∣ d μ ] 2 = ( ∫ q 1 q 0 − q 1 q 1 ) 2 ≤ ∫ q 1 ( q 0 − q 1 ) 2 d μ = ∫ ( q 1 q 0 2 − 1 ) d μ
이다. 위 식과 (16)을 이용하면 알 수 있는 사실은
E ( γ − 1 , λ − 1 ) { ∫ ∣ d P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) − d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ∣ 2 } ≤ c 2 2 \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}\left\{ \int \left| d\overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} - d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} \right|^2 \right\} \le c_2^2
E ( γ − 1 , λ − 1 ) { ∫ d P ( 1 , 1 , γ − 1 , λ − 1 ) − d P ( 1 , 0 , γ − 1 , λ − 1 ) 2 } ≤ c 2 2
이고 코시-슈바르츠 부등식을 이용하면
E ( γ − 1 , λ − 1 ) { ∫ ∣ d P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) − d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ∣ } ≤ c 2 \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}\left\{ \int \left| d\overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} - d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} \right| \right\} \le c_2
E ( γ − 1 , λ − 1 ) { ∫ d P ( 1 , 1 , γ − 1 , λ − 1 ) − d P ( 1 , 0 , γ − 1 , λ − 1 ) } ≤ c 2
또한 성립함을 알 수 있다. 여기서 total variation affinity
∥ P ∧ Q ∥ = 1 − T V ( P , Q ) \| \mathbb{P} \wedge \mathbb{Q}\| = 1- TV(\mathbb{P} , \mathbb{Q})
∥ P ∧ Q ∥ = 1 − T V ( P , Q )
를 이용하면 결국
E ( γ − 1 , λ − 1 ) { ∥ P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) ∧ P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ∥ } ≥ 1 − c 2 \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}\left\{ \left\| \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} \wedge \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} \right\| \right\} \ge 1- c_2
E ( γ − 1 , λ − 1 ) { P ( 1 , 1 , γ − 1 , λ − 1 ) ∧ P ( 1 , 0 , γ − 1 , λ − 1 ) } ≥ 1 − c 2
를 얻게 된다. 마지막으로 P ‾ 1 , 0 \overline{\mathbb{P}}_{1,0}P 1 , 0 와 P ‾ 1 , 1 \overline{\mathbb{P}}_{1,1}P 1 , 1 가 각각 P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})}P ( 1 , 0 , γ − 1 , λ − 1 ) , P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})}P ( 1 , 1 , γ − 1 , λ − 1 ) 와 같은 형태의 확률측도들에 대한 가중평균이라는 점을 기억한다면, 1 의 Lemma 4를 이용하여
∥ P ‾ 1 , 0 ∧ P ‾ 1 , 1 ∥ ≥ E ( γ − 1 , λ − 1 ) { ∥ P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) ∧ P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ∥ } \| \overline{\mathbb{P}}_{1,0} \wedge \overline{\mathbb{P}}_{1,1}\| \ge \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}\left\{ \left\| \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} \wedge \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} \right\| \right\}
∥ P 1 , 0 ∧ P 1 , 1 ∥ ≥ E ( γ − 1 , λ − 1 ) { P ( 1 , 1 , γ − 1 , λ − 1 ) ∧ P ( 1 , 0 , γ − 1 , λ − 1 ) }
를 얻게 되므로, 증명이 마무리된다.
이제 (16)을 얻기 위해 ( γ − 1 , λ − 1 ) (\gamma_{-1}, \lambda_{-1})( γ − 1 , λ − 1 ) 가 고정되었을 때 (16)에서 등장하는 각각의 측도 P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})}P ( 1 , 0 , γ − 1 , λ − 1 ) 와 P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})}P ( 1 , 1 , γ − 1 , λ − 1 ) 이 어떠한 형태인지 알 필요가 있다. 먼저 P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})}P ( 1 , 0 , γ − 1 , λ − 1 ) 의 경우 γ 1 = 0 \gamma_1=0γ 1 = 0 으로 설정되어 있는데, 정의를 다시 떠올려본다면
P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) = 1 ∣ Θ ( 1 , 0 , γ − 1 , λ − 1 ) ∣ ∑ θ ∈ Θ ( 1 , 0 , γ − 1 , λ − 1 ) P θ \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} = \frac{1}{|\Theta_{(1,0,\gamma_{-1}, \lambda_{-1})}|} \sum_{\theta \in \Theta_{(1,0,\gamma_{-1}, \lambda_{-1})}} \mathbb{P}_\theta
P ( 1 , 0 , γ − 1 , λ − 1 ) = ∣ Θ ( 1 , 0 , γ − 1 , λ − 1 ) ∣ 1 θ ∈ Θ ( 1 , 0 , γ − 1 , λ − 1 ) ∑ P θ
이고 P θ \mathbb{P}_\thetaP θ 는 p차원 정규분포 N p ( 0 , Σ ( θ ) ) N_p(0,\Sigma(\theta))N p ( 0 , Σ ( θ )) 를 따르는 n nn 개의 표본 X 1 , … , X n X_1, \dots, X_nX 1 , … , X n 에 대한 결합분포이다. 이때 ( γ − 1 , λ − 1 ) (\gamma_{-1}, \lambda_{-1})( γ − 1 , λ − 1 ) 는 고정되어 있으니, θ ∈ Θ ( 1 , 0 , γ − 1 , λ − 1 ) \theta\in\Theta_{(1,0,\gamma_{-1}, \lambda_{-1})}θ ∈ Θ ( 1 , 0 , γ − 1 , λ − 1 ) 에 대응하는 모든 Σ ( θ ) \Sigma(\theta)Σ ( θ ) 들은
Σ ( θ ) = I p + ϵ n p ∑ m = 2 r γ m A m ( λ m ) , \Sigma(\theta) = I_p + \epsilon_{np} \sum_{m=2}^r \gamma_m A_m (\lambda_m),
Σ ( θ ) = I p + ϵ n p m = 2 ∑ r γ m A m ( λ m ) ,
즉 θ \thetaθ 에 대응하는 λ 1 ( θ ) \lambda_1(\theta)λ 1 ( θ ) 가 무슨 값을 취하더라도 Σ ( θ ) \Sigma(\theta)Σ ( θ ) 는 동일한 형태라는 것이다. 따라서 P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})}P ( 1 , 0 , γ − 1 , λ − 1 ) 는 p pp 차원 정규분포 N p ( 0 , Σ 0 ) N_p(0,\Sigma_0)N p ( 0 , Σ 0 ) 를 따르는 n nn 개의 표본에 대한 결합분포임을 알 수 있으며 Σ 0 \Sigma_0Σ 0 는 다음과 같이 주어진다:
Σ 0 : = ( 1 0 1 × ( p − 1 ) 0 ( p − 1 ) × 1 S ( p − 1 ) × ( p − 1 ) ) . \Sigma_0 := \left(\begin{array}{c|c} 1 & 0_{1\times(p-1)} \\ \hline
0_{(p-1)\times 1} & S_{(p-1)\times (p-1)}\end{array} \right).
Σ 0 := ( 1 0 ( p − 1 ) × 1 0 1 × ( p − 1 ) S ( p − 1 ) × ( p − 1 ) ) .
여기서 S ( p − 1 ) × ( p − 1 ) = { s i j } S_{(p-1)\times(p-1)} = \{s_{ij}\}S ( p − 1 ) × ( p − 1 ) = { s ij } 은 ( p − 1 ) × ( p − 1 ) (p-1)\times (p-1)( p − 1 ) × ( p − 1 ) 대칭행렬로
s i j = { 1 i = j ϵ n p γ i + 1 = λ i + 1 , j + 1 = 10 otherwise } . s_{ij} = \left\{\begin{array}{ll} 1 & i=j\\
\epsilon_{np} & \gamma_{i+1} =\lambda_{i+1, j+1} = 1
0 & \textrm{otherwise} \end{array}\right\}.
s ij = { 1 ϵ n p i = j γ i + 1 = λ i + 1 , j + 1 = 10 otherwise } .
와 같이 주어진다. 여기서 i = 1 , … , p − r = p − ⌊ p / 2 ⌋ i=1, \dots, p-r = p-\lfloor p/2 \rfloori = 1 , … , p − r = p − ⌊ p /2 ⌋ 에 대해 λ m i = 0 \lambda_{mi}=0λ mi = 0 이므로 A m ( λ m ) A_m(\lambda_m)A m ( λ m ) 은 대각성분을 가지지 않기에, ϵ n p \epsilon_{np}ϵ n p 는 S ( p − 1 ) × ( p − 1 ) S_{(p-1)\times(p-1)}S ( p − 1 ) × ( p − 1 ) 의 대각 성분에 나타나지 않음을 유념하자.
이제 P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})}P ( 1 , 1 , γ − 1 , λ − 1 ) 의 경우를 살펴보도록 하자. 우선 임의의 c ∈ Λ − 1 c \in \Lambda_{-1}c ∈ Λ − 1 에 대해
Λ 1 ( c ) : = { a ∈ R p : λ 1 ( θ ) = a , λ − 1 ( θ ) = c for some θ ∈ Θ } \Lambda_1(c) := \{a \in \mathbb{R}^p \ : \ \lambda_1(\theta) = a, \quad \lambda_{-1}(\theta) =c \ \textrm{ for some } \ \theta \in \Theta \}
Λ 1 ( c ) := { a ∈ R p : λ 1 ( θ ) = a , λ − 1 ( θ ) = c for some θ ∈ Θ }
를 정의하자. 또한
λ − 1 = ( λ 2 ( θ ) , … , λ r ( θ ) ) T = ( λ 2 ( θ ) T λ r ( θ ) T ) ∈ R ( r − 1 ) × p \lambda_{-1} = (\lambda_2 (\theta), \dots, \lambda_r(\theta))^T = \left(\begin{array}{c}\lambda_2(\theta)^T\\ \hline \vdots \\ \hline \lambda_r(\theta)^T \end{array}\right) \in \mathbb{R}^{(r-1)\times p}
λ − 1 = ( λ 2 ( θ ) , … , λ r ( θ ) ) T = λ 2 ( θ ) T ⋮ λ r ( θ ) T ∈ R ( r − 1 ) × p
가 하나 주어졌을 때, n λ − 1 n_{\lambda_{-1}}n λ − 1 를 λ − 1 \lambda_{-1}λ − 1 의 각 열의 성분을 모두 더했을 때 2 k 2k2 k 가 되는 열의 갯수라고 하자. 즉
n λ − 1 : = ∣ { i : ∑ m = 2 r λ m i = 2 k } ∣ n_{\lambda_{-1}} := \left| \left\{ i \ : \ \sum_{m=2}^r \lambda_{mi} = 2k\right\}\right|
n λ − 1 := { i : m = 2 ∑ r λ mi = 2 k }
이고 p λ − 1 = r − n λ − 1 p_{\lambda_{-1}} = r -n_{\lambda_{-1}}p λ − 1 = r − n λ − 1 이라 두자. 이와 같이 정의하면 p λ − 1 p_{\lambda_{-1}}p λ − 1 은 λ 1 \lambda_1λ 1 의 성분 λ 1 i \lambda_{1i}λ 1 i 중 0이 될 수도, 1이 될 수도 있는 성분의 갯수라는 것을 알 수 있다. 여기서 임의의 λ − 1 ∈ Λ − 1 \lambda_{-1}\in \Lambda_{-1}λ − 1 ∈ Λ − 1 에 대해
∣ Λ 1 ( λ − 1 ) ∣ = ( p λ − 1 k ) , p λ − 1 ≥ p 4 − 1 |\Lambda_1(\lambda_{-1}) | = \binom{p_{\lambda_{-1}}}{k}, \quad p_{\lambda_{-1}} \ge \frac p4 -1
∣ Λ 1 ( λ − 1 ) ∣ = ( k p λ − 1 ) , p λ − 1 ≥ 4 p − 1
가 성립함을 기억하자. 위 식의 오른쪽은 n λ − 1 ⋅ 2 k ≤ r k n_{\lambda_{-1}} \cdot 2k \le r kn λ − 1 ⋅ 2 k ≤ r k , 즉 n λ − 1 ≤ r / 2 n_{\lambda_{-1}} \le r/2n λ − 1 ≤ r /2 임을 이용하면 유도할 수 있다:
p λ − 1 = r − n λ − 1 ≥ r 2 ≥ p 4 − 1. p_{\lambda_{-1}} = r - n_{\lambda_{-1}} \ge \frac r2 \ge \frac p4 -1.
p λ − 1 = r − n λ − 1 ≥ 2 r ≥ 4 p − 1.
부등식 n λ − 1 ⋅ 2 k ≤ r k n_{\lambda_{-1}} \cdot 2k \le r kn λ − 1 ⋅ 2 k ≤ r k 이 성립한다는 것은 좌변은 행렬
λ − 1 = ( λ 2 ( θ ) T λ r ( θ ) T ) \lambda_{-1} = \left(\begin{array}{c}\lambda_2(\theta)^T\\ \hline \vdots \\ \hline \lambda_r(\theta)^T \end{array}\right)
λ − 1 = λ 2 ( θ ) T ⋮ λ r ( θ ) T
에서 n λ − 1 n_{\lambda_{-1}}n λ − 1 에 해당하는 열들만 성분을 더한 것이고 우변은 행렬
λ = ( λ 1 ( θ ) T λ − 1 ( θ ) T ) \lambda = \left(\begin{array}{c}\lambda_1(\theta)^T\\ \hline
\lambda_{-1}(\theta)^T \end{array}\right)λ = ( λ 1 ( θ ) T λ − 1 ( θ ) T )
의 모든 성분을 더한 것이라는 것을 생각해보면 자명하다. 그러므로 p pp 가 충분히 크면 Λ 1 ( λ − 1 ) \Lambda_1(\lambda_{-1})Λ 1 ( λ − 1 ) 은 공집합이 아니다. 이제 P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})}P ( 1 , 1 , γ − 1 , λ − 1 ) 의 정의를 다시 떠올려보면
P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) = 1 ∣ Θ ( 1 , 1 , γ − 1 , λ − 1 ) ∣ ∑ θ ∈ Θ ( 1 , 1 , γ − 1 , λ − 1 ) P θ \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} = \frac{1}{|\Theta_{(1,1,\gamma_{-1}, \lambda_{-1})}|} \sum_{\theta \in \Theta_{(1,1,\gamma_{-1}, \lambda_{-1})}} \mathbb{P}_\theta
P ( 1 , 1 , γ − 1 , λ − 1 ) = ∣ Θ ( 1 , 1 , γ − 1 , λ − 1 ) ∣ 1 θ ∈ Θ ( 1 , 1 , γ − 1 , λ − 1 ) ∑ P θ
이고 P θ \mathbb{P}_\thetaP θ 는 p차원 정규분포 N p ( 0 , Σ ( θ ) ) N_p(0,\Sigma(\theta))N p ( 0 , Σ ( θ )) 를 따르는 n nn 개의 표본 X 1 , … , X n X_1, \dots, X_nX 1 , … , X n 에 대한 결합분포이다. 이때 θ ∈ Θ ( 1 , 1 , γ − 1 , λ − 1 ) \theta\in\Theta_{(1,1,\gamma_{-1}, \lambda_{-1})}θ ∈ Θ ( 1 , 1 , γ − 1 , λ − 1 ) 에 대응하는 Σ ( θ ) \Sigma(\theta)Σ ( θ ) 들은
Σ ( θ ) = I p + ϵ n p A m ( λ 1 ( θ ) ) + ϵ n p ∑ m = 2 r γ m A m ( λ m ) \Sigma(\theta) = I_p + \epsilon_{np} A_m(\lambda_1(\theta)) + \epsilon_{np} \sum_{m=2}^r \gamma_m A_m (\lambda_m)
Σ ( θ ) = I p + ϵ n p A m ( λ 1 ( θ )) + ϵ n p m = 2 ∑ r γ m A m ( λ m )
의 형태로, 앞선 경우와는 다르게 θ \thetaθ 에 대응하는 λ 1 ( θ ) \lambda_1(\theta)λ 1 ( θ ) 가 바뀔 때 마다 Σ ( θ ) \Sigma(\theta)Σ ( θ ) 가 바뀐다는 것을 알 수 있다. 고를 수 있는 λ 1 ( θ ) \lambda_1(\theta)λ 1 ( θ ) 의 갯수는 총 ( p λ − 1 k ) \binom{p_{\lambda_{-1}}}{k}( k p λ − 1 ) 개가 있으므로, 따라서 P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})}P ( 1 , 1 , γ − 1 , λ − 1 ) 는 평균이 0이고 공분산 행렬이 다음과 같은 형태인 p pp 차원 정규분포를 따르는 n nn 개의 표본에 대한 결합분포들 ( p λ − 1 k ) \binom{p_{\lambda_{-1}}}{k}( k p λ − 1 ) 개의 평균임을 알 수 있다:
( 1 r T r S ( p − 1 ) × ( p − 1 ) ) . \left(\begin{array}{c|c} 1 & r^T \\ \hline
r & S_{(p-1)\times (p-1)}\end{array} \right).
( 1 r r T S ( p − 1 ) × ( p − 1 ) ) .
이때 r ∈ R p − 1 r\in \mathbb{R}^{p-1}r ∈ R p − 1 은 0이 아닌 성분의 갯수가 k kk 개이며 0이 아닌 성분들은 모두 ϵ n p \epsilon_{np}ϵ n p 이고, S ( p − 1 ) × ( p − 1 ) S_{(p-1)\times(p-1)}S ( p − 1 ) × ( p − 1 ) 은 앞서 정의한 것과 같다.
이제 1 p.2411에서 사용한 논증을 이용한다. 우선 1 의 Lemma 9로부터 다음을 알 수 있다: 각 i = 0 , 1 , 2 i=0,1,2i = 0 , 1 , 2 에 대해 g i g_ig i 를 정규분포 N ( 0 , Σ i ) N(0,\Sigma_i)N ( 0 , Σ i ) 의 확률밀도함수라 하자. 그러면
∫ g 1 g 2 g 0 = [ det ( I − Σ 0 − 2 ) ( Σ 1 − Σ 0 ) ( Σ 2 − Σ 0 ) ] − 1 / 2 \int \frac{g_1g_2}{g_0} = \left[ \textrm{det} (I - \Sigma_0^{-2})(\Sigma_1- \Sigma_0)(\Sigma_2-\Sigma_0) \right]^{-1/2}
∫ g 0 g 1 g 2 = [ det ( I − Σ 0 − 2 ) ( Σ 1 − Σ 0 ) ( Σ 2 − Σ 0 ) ] − 1/2
이다.
이때 주어진 ( γ − 1 , λ − 1 ) (\gamma_{-1}, \lambda_{-1})( γ − 1 , λ − 1 ) 에 대해 식 (16)의 좌변에서 적분 ∫ ( d P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ) 2 d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) \displaystyle\int \left(\frac{d\overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} }{d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} } \right)^2 d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})}∫ ( d P ( 1 , 0 , γ − 1 , λ − 1 ) d P ( 1 , 1 , γ − 1 , λ − 1 ) ) 2 d P ( 1 , 0 , γ − 1 , λ − 1 ) 을 생각해본다.
P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})}P ( 1 , 0 , γ − 1 , λ − 1 ) 는 p pp 차원 정규분포 N p ( 0 , Σ 0 ) N_p(0,\Sigma_0)N p ( 0 , Σ 0 ) 를 따르는 n nn 개의 i.i.d. 다변량 정규분포들에 대한 결합분포이고 P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) \overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})}P ( 1 , 1 , γ − 1 , λ − 1 ) 는 p pp 차원 정규분포를 따르는 n nn 개의 표본에 대한 결합분포들 ( p λ − 1 k ) \binom{p_{\lambda_{-1}}}{k}( k p λ − 1 ) 개의 평균이다. 이제 λ 1 \lambda_1λ 1 과 λ 1 ′ \lambda_1^\primeλ 1 ′ 을 Λ 1 ( λ − 1 ) \Lambda_1(\lambda_{-1})Λ 1 ( λ − 1 ) 에서 임의로 뽑고, 이들과 대응하는 공분산 행렬들을 각각 Σ 1 \Sigma_1Σ 1 과 Σ 2 \Sigma_2Σ 2 라 하자. g i g_ig i (i = 0 , 1 , 2 i=0,1,2i = 0 , 1 , 2 )를 정규분포 N p ( 0 , Σ i ) N_p(0,\Sigma_i)N p ( 0 , Σ i ) 의 확률밀도함수라 하면 적분 ∫ ( d P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ) 2 d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) \displaystyle\int \left(\frac{d\overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} }{d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} } \right)^2 d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})}∫ ( d P ( 1 , 0 , γ − 1 , λ − 1 ) d P ( 1 , 1 , γ − 1 , λ − 1 ) ) 2 d P ( 1 , 0 , γ − 1 , λ − 1 ) 은 ( ∫ g 1 g 2 g 0 ) n \left( \int \frac{g_1 g_2}{g_0}\right)^n( ∫ g 0 g 1 g 2 ) n 형태의 적분들의 합으로 이루어진다는 것을 알 수 있다. 그래서 R λ 1 , λ 1 ′ γ − 1 , λ − 1 R_{\lambda_1, \lambda_1^\prime}^{\gamma_{-1}, \lambda_{-1}}R λ 1 , λ 1 ′ γ − 1 , λ − 1 을
R λ 1 , λ 1 ′ γ − 1 , λ − 1 : = − log det { I p − Σ 0 − 2 ( Σ 0 − Σ 1 ) ( Σ 0 − Σ 2 ) } R_{\lambda_1, \lambda_1^\prime}^{\gamma_{-1}, \lambda_{-1}} := -\log \textrm{det}\left\{I_p - \Sigma_0^{-2}(\Sigma_0-\Sigma_1)(\Sigma_0-\Sigma_2) \right\}
R λ 1 , λ 1 ′ γ − 1 , λ − 1 := − log det { I p − Σ 0 − 2 ( Σ 0 − Σ 1 ) ( Σ 0 − Σ 2 ) }
와 같이 쓴다면, 식 (16)은 다음과 같이 쓸 수 있다.
E ( γ − 1 , λ − 1 ) { ∫ ( d P ‾ ( 1 , 1 , γ − 1 , λ − 1 ) d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) ) 2 d P ‾ ( 1 , 0 , γ − 1 , λ − 1 ) − 1 } = E ( γ − 1 , λ − 1 ) [ E ( λ 1 , λ 1 ′ ) ∣ λ − 1 { exp ( n 2 R λ 1 , λ 1 ′ γ − 1 , λ − 1 ) } ] = E ( λ 1 , λ 1 ′ ) [ E ( γ − 1 , λ − 1 ) ∣ ( λ 1 , λ 1 ′ ) { exp ( n 2 R λ 1 , λ 1 ′ γ − 1 , λ − 1 ) } ] . (18) \tag{18}
\begin{aligned}
&\mathbb{E}_{(\gamma_{-1}, \lambda_{-1})}\left\{ \int \left(\frac{d\overline{\mathbb{P}}_{(1,1,\gamma_{-1}, \lambda_{-1})} }{d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} } \right)^2 d\overline{\mathbb{P}}_{(1,0,\gamma_{-1}, \lambda_{-1})} -1 \right\} \\
&= \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})} \left[ \mathbb{E}_{(\lambda_1, \lambda_1^\prime)|\lambda_{-1}} \left\{\exp\left( \frac n2 R_{\lambda_1, \lambda_1^\prime}^{\gamma_{-1}, \lambda_{-1}}\right) \right\}\right]\\
&= \mathbb{E}_{(\lambda_1, \lambda_1^\prime)} \left[ \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})|(\lambda_1, \lambda_1^\prime)}\left\{\exp\left( \frac n2 R_{\lambda_1, \lambda_1^\prime}^{\gamma_{-1}, \lambda_{-1}}\right) \right\}\right].
\end{aligned}
E ( γ − 1 , λ − 1 ) ⎩ ⎨ ⎧ ∫ ( d P ( 1 , 0 , γ − 1 , λ − 1 ) d P ( 1 , 1 , γ − 1 , λ − 1 ) ) 2 d P ( 1 , 0 , γ − 1 , λ − 1 ) − 1 ⎭ ⎬ ⎫ = E ( γ − 1 , λ − 1 ) [ E ( λ 1 , λ 1 ′ ) ∣ λ − 1 { exp ( 2 n R λ 1 , λ 1 ′ γ − 1 , λ − 1 ) } ] = E ( λ 1 , λ 1 ′ ) [ E ( γ − 1 , λ − 1 ) ∣ ( λ 1 , λ 1 ′ ) { exp ( 2 n R λ 1 , λ 1 ′ γ − 1 , λ − 1 ) } ] . ( 18 )
이때 λ 1 , λ 1 ′ ∣ λ − 1 Unif { Λ 1 ( λ − 1 ) } \lambda_1, \lambda_1^\prime |\lambda_{-1} \overset{i.i.d}{\sim}\textrm{Unif}\{\Lambda_1(\lambda_{-1})\}λ 1 , λ 1 ′ ∣ λ − 1 ∼ i . i . d Unif { Λ 1 ( λ − 1 )} , ( γ − 1 , λ − 1 ) ∣ ( λ 1 , λ 1 ′ ) ∼ Unif { Θ − 1 ( λ 1 , λ 1 ′ ) } (\gamma_{-1}, \lambda_{-1})|(\lambda_1, \lambda_1^\prime) \sim \textrm{Unif}\{ \Theta_{-1}(\lambda_1, \lambda_1^\prime)\}( γ − 1 , λ − 1 ) ∣ ( λ 1 , λ 1 ′ ) ∼ Unif { Θ − 1 ( λ 1 , λ 1 ′ )} 와 같은 분포가 주어져 있다고 생각하며, Θ − 1 ( ⋅ , ⋅ ) \Theta_{-1}(\cdot, \cdot)Θ − 1 ( ⋅ , ⋅ ) 은
Θ − 1 ( a 1 , a 2 ) : = { 0 , 1 } r − 1 × { c ∈ Λ − 1 : ∃ θ i ∈ Θ , i = 1 , 2 , s.t. λ 1 ( θ i ) = a i , λ − 1 ( θ i ) = c } \Theta_{-1}(a_1, a_2) := \{0,1\}^{r-1} \times \{c \in \Lambda_{-1} \ : \ \exists \theta_i \in \Theta, \ i=1,2, \ \textrm{ s.t. } \ \lambda_1(\theta_i)= a_i, \ \lambda_{-1}(\theta_i) = c \}
Θ − 1 ( a 1 , a 2 ) := { 0 , 1 } r − 1 × { c ∈ Λ − 1 : ∃ θ i ∈ Θ , i = 1 , 2 , s.t. λ 1 ( θ i ) = a i , λ − 1 ( θ i ) = c }
와 같이 주어져있다. Lemma 6의 결과를 이용하면 식 (18)은 아래의 식에 의해 유계이다:
E J [ exp { − n log ( 1 − J ϵ n p 2 ) } E ( λ 1 , λ 1 ′ ) ∣ J { E ( γ − 1 , λ − 1 ) ∣ ( λ 1 , λ 1 ′ ) exp ( n 2 R 1 , λ 1 , λ 1 ′ γ − 1 , λ − 1 ) } ] ≤ E J [ exp { − n log ( 1 − J ϵ n p 2 ) } 3 2 − 1 ] . (20) \tag{20}
\begin{aligned}
\mathbb{E}_J &\left[\exp \left\{-n \log (1 -J\epsilon_{np}^2) \right\}\mathbb{E}_{(\lambda_1, \lambda_1^\prime)|J} \left\{ \mathbb{E}_{(\gamma_{-1}, \lambda_{-1})|(\lambda_1, \lambda_1^\prime)}\exp\left(\frac n2 R_{1,\lambda_1,\lambda_1^\prime}^{\gamma_{-1}, \lambda_{-1}} \right)\right\} \right]\\
&\le \mathbb{E}_J\left[\exp\left\{ -n\log (1- J\epsilon_{np}^2)\right\}\frac32 -1 \right].
\end{aligned}
E J [ exp { − n log ( 1 − J ϵ n p 2 ) } E ( λ 1 , λ 1 ′ ) ∣ J { E ( γ − 1 , λ − 1 ) ∣ ( λ 1 , λ 1 ′ ) exp ( 2 n R 1 , λ 1 , λ 1 ′ γ − 1 , λ − 1 ) } ] ≤ E J [ exp { − n log ( 1 − J ϵ n p 2 ) } 2 3 − 1 ] . ( 20 )
여기서 J JJ 는 λ 1 \lambda_1λ 1 과 λ 1 ′ \lambda_1^\primeλ 1 ′ 에서 0이 아닌 성분이 같은 위치에 몇개나 있는지를 센 숫자를 뜻한다. 즉, J = λ 1 T λ 1 ′ J = \lambda_1^T \lambda_1^\primeJ = λ 1 T λ 1 ′ 이다.
λ 1 , λ 1 ′ ∣ λ − 1 Unif { Λ 1 ( λ − 1 ) } \lambda_1, \lambda_1^\prime | \lambda_{-1} \overset{i.i.d}{\sim} \textrm{Unif}\{\Lambda_1(\lambda_{-1})\}
λ 1 , λ 1 ′ ∣ λ − 1 ∼ i . i . d Unif { Λ 1 ( λ − 1 )}
임을 이용하면 각 j = 0 , … , k j=0, \dots, kj = 0 , … , k 마다
E J { I ( J = j ) ∣ λ − 1 } = ( k j ) ( p λ − 1 − k k − j ) ( p λ − 1 k ) = ( k ! ( k − j ) ! ) 2 { ( p λ − 1 − k ) ! } 2 p λ − 1 ! ( p λ − 1 − 2 k + j ) ! 1 j ! ≤ ( k 2 p λ − 1 − k ) j \mathbb{E}_J \{ I(J=j) | \lambda_{-1} \} = \frac{\binom{k}{j} \binom{p_{\lambda_{-1}}-k }{k-j}}{\binom{p_{\lambda_{-1}}}{k}} = \left(\frac{k!}{(k-j)!}\right)^2 \frac{\{(p_{\lambda_{-1}}-k)! \}^2}{p_{\lambda_{-1}}! (p_{\lambda_{-1}} -2k +j)!} \frac{1}{j!} \le \left( \frac{k^2}{p_{\lambda_{-1}} -k}\right)^j
E J { I ( J = j ) ∣ λ − 1 } = ( k p λ − 1 ) ( j k ) ( k − j p λ − 1 − k ) = ( ( k − j )! k ! ) 2 p λ − 1 ! ( p λ − 1 − 2 k + j )! {( p λ − 1 − k )! } 2 j ! 1 ≤ ( p λ − 1 − k k 2 ) j
임을 얻게 된다. 그러므로 모든 λ − 1 \lambda_{-1}λ − 1 에 대해 p λ − 1 ≥ p / 4 − 1 p_{\lambda_{-1}} \ge p/4-1p λ − 1 ≥ p /4 − 1 가 성립한다는 것을 이용하면
E J I ( J = j ) = E λ − 1 [ E J { I ( J = j ) ∣ λ − 1 } ] ≤ E λ − 1 { ( k 2 p λ − 1 − k ) j } ≤ ( k 2 p / 4 − 1 − k ) j \mathbb{E}_J I (J=j) = \mathbb{E}_{\lambda_{-1}} \left[\mathbb{E}_J \left\{ I(J=j) | \lambda_{-1}\right\}\right] \le \mathbb{E}_{\lambda_{-1}}\left\{ \left( \frac{k^2}{p_{\lambda_{-1}} -k}\right)^j\right\} \le \left( \frac{k^2}{p/4-1-k}\right)^j
E J I ( J = j ) = E λ − 1 [ E J { I ( J = j ) ∣ λ − 1 } ] ≤ E λ − 1 { ( p λ − 1 − k k 2 ) j } ≤ ( p /4 − 1 − k k 2 ) j
를 얻는다. 따라서, 식 (20)은 p pp 가 충분히 크다면 다음 식에 의해 유계이다:
∑ j = 0 k ( k 2 p / 4 − 1 − k ) j [ exp { − n log ( 1 − j ϵ n p 2 ) } 3 2 − 1 ] = 1 2 + ∑ j = 1 k ( k 2 p / 4 − 1 − k ) j [ exp { − n log ( 1 − j ϵ n p 2 ) } 3 2 − 1 ] ≤ 1 2 + 3 2 ( k 2 p / 4 − 1 − k ) j p 2 ν 2 j ≤ 1 2 + 3 C 2 p − ϵ j p ( ϵ / 2 ) j ≤ c 2 2 , \begin{aligned}
\sum_{j=0}^k &\left(\frac{k^2}{p/4-1-k} \right)^j \left[\exp\left\{ -n\log(1-j \epsilon_{np}^2)\right\}\frac 32 -1 \right]\\
&= \frac12 + \sum_{j=1}^k \left(\frac{k^2}{p/4-1-k} \right)^j \left[\exp\left\{ -n\log(1-j \epsilon_{np}^2)\right\}\frac 32 -1 \right]\\
&\le \frac12 + \frac32 \left(\frac{k^2}{p/4-1-k} \right)^j p^{2\nu^2 j} \le \frac12 + \frac{3C}{2} p^{-\epsilon j}p^{(\epsilon/2) j} \le c_2^2,
\end{aligned}j = 0 ∑ k ( p /4 − 1 − k k 2 ) j [ exp { − n log ( 1 − j ϵ n p 2 ) } 2 3 − 1 ] = 2 1 + j = 1 ∑ k ( p /4 − 1 − k k 2 ) j [ exp { − n log ( 1 − j ϵ n p 2 ) } 2 3 − 1 ] ≤ 2 1 + 2 3 ( p /4 − 1 − k k 2 ) j p 2 ν 2 j ≤ 2 1 + 2 3 C p − ϵ j p ( ϵ /2 ) j ≤ c 2 2 ,
이때 C > 0 C>0C > 0 는 상수이고 c 2 2 = 3 / 4 < 1 c_2^2 = 3/4 <1c 2 2 = 3/4 < 1 이며, 두번째 부등식은 s 0 2 = O ( p 3 − ϵ ) s_0^2 = O(p^{3-\epsilon})s 0 2 = O ( p 3 − ϵ ) 과 ν = ϵ / 4 \nu = \sqrt{\epsilon/4}ν = ϵ /4 임을 이용하면 얻을 수 있다. 이로써 (13)식에 대한 증명이 마무리되었다.
다음 증명은 김성민 학생 이 진행한다.
Cai, T. T., & Zhou, H. H. (2012). Optimal rates of convergence for sparse covariance matrix estimation. The Annals of Statistics, 2389-2420.