다음의 모형을 생각하자.
다음의 두 항목을 증명하면 된다.
이 성립하는 B 1 ⊂ U ( s 0 , ζ 0 ) B_1 \subset \mathcal{U}(s_0, \zeta_0)B 1 ⊂ U ( s 0 , ζ 0 ) 가 존재함을 보인다. (이경원, 정진욱)
이 성립하는 B 2 ⊂ U ( s 0 , ζ 0 ) B_2 \subset \mathcal{U}(s_0, \zeta_0)B 2 ⊂ U ( s 0 , ζ 0 ) 가 존재함을 보인다. (김성민)
먼저 첫 항목을 보이자. ν = ϵ / 4 \nu = \sqrt{\epsilon/4}ν = ϵ /4 에 대해 r = ⌊ p / 2 ⌋ , ϵ n p = ν log p / n r = \lfloor p/2 \rfloor,~\epsilon_{np} = \nu \sqrt{\log p / n}r = ⌊ p /2 ⌋ , ϵ n p = ν log p / n 이라 하자. A m ( u ) A_m(u)A m ( u ) 를 m mm 번째 행과 열이 u uu 의 값을 갖고, 나머지에서 모두 0인 대칭행렬이라 하자. 즉,
( A m ( u ) ) i j = { u i = m or j = m 0 otherwise (A_m(u))_{ij} = \begin{cases} u & i = m \text{ or} j = m \\ 0 & \text{otherwise} \end{cases}
( A m ( u ) ) ij = { u 0 i = m or j = m otherwise
이라 하자. 이제, 다음과 같이 B 1 B_1B 1 을 정의한다.
B 1 : = { Σ ( θ ) : Σ ( θ ) = I p + ϵ n p ∑ m = 1 r γ m A m ( λ m ) , θ = ( γ , λ ) ∈ Θ }
B_1 := \left\{ \Sigma(\theta) : \Sigma(\theta) = I_p + \epsilon_{np} \sum_{m=1}^r \gamma_m A_m(\lambda_m),~\theta = (\gamma, \lambda) \in \Theta \right\}
B 1 := { Σ ( θ ) : Σ ( θ ) = I p + ϵ n p m = 1 ∑ r γ m A m ( λ m ) , θ = ( γ , λ ) ∈ Θ }
여기서 γ = ( γ 1 , ⋯ , γ r ) ∈ Γ = { 0 , 1 } r \gamma = (\gamma_1,\cdots, \gamma_r) \in \Gamma = \{0, 1\}^rγ = ( γ 1 , ⋯ , γ r ) ∈ Γ = { 0 , 1 } r , λ = ( λ 1 , ⋯ , λ r ) T ∈ Λ ⊂ R r × p \lambda = (\lambda_1, \cdots, \lambda_r)^T \in \Lambda \subset \mathbb{R}^{r \times p}λ = ( λ 1 , ⋯ , λ r ) T ∈ Λ ⊂ R r × p ,
Λ = { λ = ( λ i j ) : λ m i ∈ { 0 , 1 } , ∥ λ m ∥ 0 = k , ∑ i = 1 p − r λ m i = 0 , m ∈ { 1 , ⋯ , r } , satisfying max 1 ≤ i ≤ p ∑ m = 1 r λ m i ≤ 2 k } ,
\begin{aligned}
\Lambda= \bigg\{ \lambda = (\lambda_{ij}) : &\lambda_{mi} \in \{0, 1\},~ \lVert \lambda_m \rVert_0 = k,~\sum_{i=1}^{p-r} \lambda_{mi} = 0, \\
&m \in \{ 1, \cdots, r \},~ \text{ satisfying } \max_{1 \leq i \leq p} \sum_{m=1}^r \lambda_{mi} \leq 2k
\bigg\},
\end{aligned}
Λ = { λ = ( λ ij ) : λ mi ∈ { 0 , 1 } , ∥ λ m ∥ 0 = k , i = 1 ∑ p − r λ mi = 0 , m ∈ { 1 , ⋯ , r } , satisfying 1 ≤ i ≤ p max m = 1 ∑ r λ mi ≤ 2 k } ,
k = ⌈ c n p / 2 ⌉ − 1 , c n p = ⌈ s 0 / p ⌉ k = \lceil c_{np} / 2 \rceil - 1,~ c_{np} = \lceil s_0 / p \rceilk = ⌈ c n p /2 ⌉ − 1 , c n p = ⌈ s 0 / p ⌉ , Θ = Γ × Λ \Theta = \Gamma \times \LambdaΘ = Γ × Λ 이다.
이제 B 1 ⊂ U ( s 0 , ζ 0 ) B_1 \subset \mathcal{U}(s_0, \zeta_0)B 1 ⊂ U ( s 0 , ζ 0 ) 과 논문의 식 (13) 이 성립함을 보이면 된다.
먼저, 임의의 ζ 0 > 1 \zeta_0 >1ζ 0 > 1 과 충분히 큰 n nn 에 대해 Σ ( θ ) ∈ B 1 \Sigma(\theta) \in B_1Σ ( θ ) ∈ B 1 의 가장 큰 고유치가 ζ 0 \zeta_0ζ 0 보다 작다는 것은 다음과 같이 보일 수 있다.
λ max ( Σ ( θ ) ) ≤ ∥ Σ ( θ ) ∥ 1 ≤ 1 + 2 k ϵ n p ≤ 1 + c n p ν log p / n ≤ ζ 0
\lambda_{\max}\left(\Sigma(\theta)\right) \leq \lVert \Sigma(\theta) \rVert_1 \leq 1 + 2 k \epsilon_{np} \leq 1 + c_{np} \nu \sqrt{\log p / n} \leq \zeta_0
λ m a x ( Σ ( θ ) ) ≤ ∥ Σ ( θ ) ∥ 1 ≤ 1 + 2 k ϵ n p ≤ 1 + c n p ν log p / n ≤ ζ 0
두 번째 부등호는 모수공간 Λ \LambdaΛ 의 마지막 조건으로부터, 마지막 부등호는 가정 s 0 2 ( log p ) 3 = O ( p 2 n ) s_0^2 (\log p)^3 = O(p^2 n)s 0 2 ( log p ) 3 = O ( p 2 n ) 에 의해 성립한다.
마찬가지의 이유로 임의의 ζ 0 > 1 \zeta_0 >1ζ 0 > 1 과 충분히 큰 n nn 에 대해
2 k ϵ n p ≤ c n p ν log p / n ≤ ( 1 + s 0 p ) ν log p / n ≤ 1 − ζ 0 − 1
2k\epsilon_{np} \leq c_{np} \nu \sqrt{\log p / n}\leq \left( 1 + \frac{s_0}{p} \right) \nu \sqrt{\log p / n} \leq 1 - \zeta_0^{-1}
2 k ϵ n p ≤ c n p ν log p / n ≤ ( 1 + p s 0 ) ν log p / n ≤ 1 − ζ 0 − 1
가 성립하므로 Σ ( θ ) − ζ 0 − 1 I p \Sigma(\theta) - \zeta_0^{-1} I_pΣ ( θ ) − ζ 0 − 1 I p 는 대각지배(diagonally dominant)행렬이고, 대칭이며 모든 성분이 0보다 크거나 같아 양의 준정부호 행렬이다. 따라서, Σ ( θ ) \Sigma(\theta)Σ ( θ ) 의 가장 작은 고유치는 ζ 0 − 1 \zeta_0^{-1}ζ 0 − 1 보다 크다.
마지막으로 Σ ( θ ) \Sigma(\theta)Σ ( θ ) 의 비대각성분은 모두 A m A_mA m 들에 의해서만 나타나므로
s ( Σ ( θ ) ) ≤ 2 k p ≤ s 0
s(\Sigma(\theta)) \leq 2 kp \leq s_0
s ( Σ ( θ )) ≤ 2 k p ≤ s 0
에서 B 1 ⊂ U ( s 0 , ζ 0 ) B_1 \subset \mathcal{U}(s_0, \zeta_0)B 1 ⊂ U ( s 0 , ζ 0 ) 를 얻는다.
이제 논문의 식 (13) 이 성립함을 보이자. 이를 위해, 다음의 보조정리를 소개한다. 이 보조정리는 모수공간 Θ \ThetaΘ 에서 거리 d dd 를 갖는 거리공간으로의 변환 ψ ( θ ) \psi(\theta)ψ ( θ ) 의 최대 위험의 하한을 알려준다.
(Lemma 3 of Cai and Zhou (2012))
OPTIMAL RATES OF CONVERGENCE FOR SPARSE COVARIANCE MATRIX ESTIMATION
For any s > 0 s > 0s > 0 and any estimator T TT of ψ ( θ ) \psi(\theta)ψ ( θ ) based on an observation from the experiment { P θ , θ ∈ Θ } \{ P_\theta,~\theta \in \Theta \}{ P θ , θ ∈ Θ } ,
max θ ∈ Θ 2 s E θ d s ( T , ψ ( θ ) ) ≥ α r 2 min 1 ≤ i ≤ r ∥ P ‾ i , 0 ∧ P ‾ i , 1 ∥ ,
\max_{\theta \in \Theta} 2^s \mathbb{E}_\theta d^s(T, \psi(\theta)) \geq \alpha \frac{r}{2} \min _ {1 \leq i \leq r} \lVert \overline{\mathbb{P}} _ {i, 0} \wedge \overline{\mathbb{P}} _ {i, 1} \rVert,
θ ∈ Θ max 2 s E θ d s ( T , ψ ( θ )) ≥ α 2 r 1 ≤ i ≤ r min ∥ P i , 0 ∧ P i , 1 ∥ ,
where P ‾ i , a \overline{\mathbb{P}} _ {i, a}P i , a is the mixture distribution over all P θ P_\thetaP θ with γ i ( θ ) \gamma_i(\theta)γ i ( θ ) fixed to be a while all other components of θ \thetaθ vary over all possible values, i.e.,
P ‾ i , a = 1 2 r − 1 ∣ Λ ∣ ∑ θ ∈ Θ i , a P θ ,
\overline{\mathbb{P}} _ {i, a} = \frac{1}{2^{r-1} |\Lambda|} \sum_{\theta \in \Theta_{i, a}} P_\theta,
P i , a = 2 r − 1 ∣Λ∣ 1 θ ∈ Θ i , a ∑ P θ ,
for Θ i , a = { θ ∈ Θ : γ i ( θ ) = a } \Theta_{i, a} = \{ \theta \in \Theta: \gamma_i(\theta) = a \}Θ i , a = { θ ∈ Θ : γ i ( θ ) = a } ,
∥ P ∧ Q ∥ = ∫ ( p ∧ q ) d μ ,
\lVert \mathbb{P} \wedge \mathbb{Q} \rVert = \int (p \wedge q) d \mu,
∥ P ∧ Q ∥ = ∫ ( p ∧ q ) d μ ,
for probability measures P \mathbb{P}P and Q \mathbb{Q}Q which have densities p pp and q qq respectively, E θ \mathbb{E} _ \thetaE θ is expectation with respect to [ X 1 , ⋯ , X n ∣ θ ] [X_1, \cdots, X_n | \theta][ X 1 , ⋯ , X n ∣ θ ] , H ( x , y ) H(x, y)H ( x , y ) is the Hamming distance defined as
H ( x , y ) = ∑ j = 1 r ∣ x i − y i ∣ , x , y ∈ { 0 , 1 } r . H(x, y) = \sum_{j=1}^r |x_i - y_i|, \quad x, y \in \{ 0, 1 \}^r.
H ( x , y ) = j = 1 ∑ r ∣ x i − y i ∣ , x , y ∈ { 0 , 1 } r .
α = min ( θ , θ ′ ) : H ( γ ( θ ) , γ ( θ ′ ) ) ≥ 1 d s ( ψ ( θ ) , ψ ( θ ′ ) ) / H ( γ ( θ ) , γ ( θ ′ ) )
\alpha = \min_{(\theta, \theta^\prime) : H(\gamma(\theta), \gamma(\theta^\prime)) \geq 1} d^s(\psi(\theta), \psi(\theta^\prime)) / H(\gamma(\theta), \gamma(\theta^\prime))
α = ( θ , θ ′ ) : H ( γ ( θ ) , γ ( θ ′ )) ≥ 1 min d s ( ψ ( θ ) , ψ ( θ ′ )) / H ( γ ( θ ) , γ ( θ ′ ))
최댓값은 평균보다 크거나 같으므로
max θ ∈ Θ 2 s E θ d s ( T , ψ ( θ ) ) ≥ 1 2 r ∣ Λ ∣ ∑ θ ∈ Θ 2 s E θ d s ( T , ψ ( θ ) ) = 1 2 r ∣ Λ ∣ ∑ θ ∈ Θ E θ ( 2 d ( T , ψ ( θ ) ) ) s
\begin{aligned}
\max_{\theta \in \Theta} 2^s \mathbb{E}_\theta d^s(T, \psi(\theta))
&\geq \frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} 2^s \mathbb{E} _ \theta d^s(T, \psi(\theta)) \\
&= \frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} \mathbb{E} _ \theta (2 d(T, \psi(\theta)))^s
\end{aligned}
θ ∈ Θ max 2 s E θ d s ( T , ψ ( θ )) ≥ 2 r ∣Λ∣ 1 θ ∈ Θ ∑ 2 s E θ d s ( T , ψ ( θ )) = 2 r ∣Λ∣ 1 θ ∈ Θ ∑ E θ ( 2 d ( T , ψ ( θ )) ) s
θ ^ : = arg min d s ( T , ψ ( θ ) ) \hat{\theta} := \arg\min d^s(T, \psi(\theta))θ ^ := arg min d s ( T , ψ ( θ )) 라 하면 (유일하지 않다면 적당히 하나를 잡으면 된다.)
E θ ( 2 d ( T , ψ ( θ ) ) ) s ≥ E θ ( d ( T , ψ ( θ ) ) + d ( T , ψ ( θ ^ ) ) ) s ≥ E θ ( d ( ψ ( θ ^ ) , ψ ( θ ) ) ) s
\begin{aligned}
\mathbb{E} _ \theta (2 d(T, \psi(\theta)))^s
&\geq \mathbb{E} _ \theta (d(T, \psi(\theta)) + d(T, \psi(\hat{\theta})) )^s \\
&\geq \mathbb{E} _ \theta (d(\psi(\hat{\theta}), \psi(\theta)))^s
\end{aligned}
E θ ( 2 d ( T , ψ ( θ )) ) s ≥ E θ ( d ( T , ψ ( θ )) + d ( T , ψ ( θ ^ )) ) s ≥ E θ ( d ( ψ ( θ ^ ) , ψ ( θ )) ) s
를 얻는다. 마지막 부등식에서 삼각부등식을 사용하였다.
정리하면 다음을 얻는다.
max θ ∈ Θ 2 s E θ d s ( T , ψ ( θ ) ) ≥ 1 2 r ∣ Λ ∣ ∑ θ ∈ Θ E θ ( d ( ψ ( θ ^ ) , ψ ( θ ) ) ) s ≥ 1 2 r ∣ Λ ∣ ∑ θ ∈ Θ E θ [ ( d ( ψ ( θ ^ ) , ψ ( θ ) ) ) s H ( γ ( θ ) , γ ( θ ′ ) ) ∨ 1 H ( γ ( θ ) , γ ( θ ′ ) ) ] ≥ α 1 2 r ∣ Λ ∣ ∑ θ ∈ Θ E θ [ H ( γ ( θ ) , γ ( θ ′ ) ) ]
\begin{aligned}
\max_{\theta \in \Theta} 2^s \mathbb{E}_\theta d^s(T, \psi(\theta))
&\geq \frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} \mathbb{E} _ \theta (d(\psi(\hat{\theta}), \psi(\theta)))^s \\
&\geq \frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} \mathbb{E} _ \theta \left[\frac{(d(\psi(\hat{\theta}), \psi(\theta)))^s}{H(\gamma(\theta), \gamma(\theta^\prime)) \vee 1 } H(\gamma(\theta), \gamma(\theta^\prime))\right] \\
&\geq \alpha \frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} \mathbb{E} _ \theta \left[ H(\gamma(\theta), \gamma(\theta^\prime))\right]
\end{aligned}
θ ∈ Θ max 2 s E θ d s ( T , ψ ( θ )) ≥ 2 r ∣Λ∣ 1 θ ∈ Θ ∑ E θ ( d ( ψ ( θ ^ ) , ψ ( θ )) ) s ≥ 2 r ∣Λ∣ 1 θ ∈ Θ ∑ E θ [ H ( γ ( θ ) , γ ( θ ′ )) ∨ 1 ( d ( ψ ( θ ^ ) , ψ ( θ )) ) s H ( γ ( θ ) , γ ( θ ′ )) ] ≥ α 2 r ∣Λ∣ 1 θ ∈ Θ ∑ E θ [ H ( γ ( θ ) , γ ( θ ′ )) ]
이제
1 2 r ∣ Λ ∣ ∑ θ ∈ Θ E θ [ H ( γ ( θ ) , γ ( θ ′ ) ) ] ≥ r 2 min 1 ≤ i ≤ r ∥ P ‾ i , 0 ∧ P ‾ i , 1 ∥
\frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} \mathbb{E} _ \theta \left[ H(\gamma(\theta), \gamma(\theta^\prime))\right] \geq \frac{r}{2} \min _ {1 \leq i \leq r} \lVert \overline{\mathbb{P}} _ {i, 0} \wedge \overline{\mathbb{P}} _ {i, 1} \rVert
2 r ∣Λ∣ 1 θ ∈ Θ ∑ E θ [ H ( γ ( θ ) , γ ( θ ′ )) ] ≥ 2 r 1 ≤ i ≤ r min ∥ P i , 0 ∧ P i , 1 ∥
을 보이면 원하는 결과를 얻는다.
1 2 r ∣ Λ ∣ ∑ θ ∈ Θ E θ [ H ( γ ( θ ) , γ ( θ ′ ) ) ] = 1 2 r ∣ Λ ∣ ∑ θ ∈ Θ ∑ i = 1 r E θ [ ∣ γ i ( θ ) − γ i ( θ ′ ) ) ∣ ] = ∑ i = 1 r 1 2 r ∣ Λ ∣ ∑ ρ ∈ Γ ∑ θ : γ ( θ ) = ρ E θ [ ∣ γ i ( θ ) − γ i ( θ ′ ) ) ∣ ] = 1 2 ∑ i = 1 r { 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 0 ∑ θ : γ ( θ ) = ρ E θ [ ∣ γ i ( θ ) − γ i ( θ ′ ) ) ∣ ] + 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 1 ∑ θ : γ ( θ ) = ρ E θ [ ∣ γ i ( θ ) − γ i ( θ ′ ) ) ∣ ] } = 1 2 ∑ i = 1 r { 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 0 ∑ θ : γ ( θ ) = ρ E θ [ ∣ γ i ( θ ′ ) ) ∣ ] + 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 1 ∑ θ : γ ( θ ) = ρ E θ [ ∣ 1 − γ i ( θ ′ ) ) ∣ ] } = 1 2 ∑ i = 1 r { 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 0 ∑ θ : γ ( θ ) = ρ ∫ θ ′ γ i ( θ ′ ) ) d P θ ′ + 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 1 ∑ θ : γ ( θ ) = ρ ∫ θ ′ 1 − γ i ( θ ′ ) ) d P θ ′ } = 1 2 ∑ i = 1 r { ∫ θ ′ γ i ( θ ′ ) ) 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 0 ∑ θ : γ ( θ ) = ρ d P θ ′ + ∫ θ ′ ( 1 − γ i ( θ ′ ) ) ) 1 2 r − 1 ∣ Λ ∣ ∑ ρ i = 1 ∑ θ : γ ( θ ) = ρ d P θ ′ } = 1 2 ∑ i = 1 r { ∫ θ ′ γ i ( θ ′ ) ) d P ‾ i , 0 + ∫ θ ′ ( 1 − γ i ( θ ′ ) ) ) d P ‾ i , 0 } ≥ 1 2 ∑ i = 1 r ∫ d [ P ‾ i , 0 ∧ P ‾ i , 1 ] ≥ r 2 min 1 ≤ i ≤ r ∥ P ‾ i , 0 ∧ P ‾ i , 1 ∥
\begin{aligned}
&\frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} \mathbb{E} _ \theta \left[ H(\gamma(\theta), \gamma(\theta^\prime))\right] \\
&= \frac{1}{2^r |\Lambda| } \sum _ {\theta \in \Theta} \sum_{i=1}^r \mathbb{E} _ \theta \left[ |\gamma_i(\theta) - \gamma_i(\theta^\prime))| \right] \\
&= \sum_{i=1}^r \frac{1}{2^r |\Lambda| } \sum_{\rho \in \Gamma} \sum _ {\theta : \gamma(\theta) = \rho} \mathbb{E} _ \theta \left[ |\gamma_i(\theta) - \gamma_i(\theta^\prime))| \right] \\
&= \frac{1}{2} \sum_{i=1}^r \left\{ \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 0} \sum _ {\theta : \gamma(\theta) = \rho} \mathbb{E} _ \theta \left[ |\gamma_i(\theta) - \gamma_i(\theta^\prime))| \right] + \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 1} \sum _ {\theta : \gamma(\theta) = \rho} \mathbb{E} _ \theta \left[ |\gamma_i(\theta) - \gamma_i(\theta^\prime))| \right] \right\} \\
&= \frac{1}{2} \sum_{i=1}^r \left\{ \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 0} \sum _ {\theta : \gamma(\theta) = \rho} \mathbb{E} _ \theta \left[ |\gamma_i(\theta^\prime))| \right] + \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 1} \sum _ {\theta : \gamma(\theta) = \rho} \mathbb{E} _ \theta \left[ |1 - \gamma_i(\theta^\prime))| \right] \right\} \\
&= \frac{1}{2} \sum_{i=1}^r \left\{ \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 0} \sum _ {\theta : \gamma(\theta) = \rho} \int _ {\theta^\prime} \gamma_i(\theta^\prime)) d\mathbb{P}_ {\theta^\prime} + \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 1} \sum _ {\theta : \gamma(\theta) = \rho} \int _ {\theta^\prime} 1 - \gamma_i(\theta^\prime)) d\mathbb{P}_ {\theta^\prime} \right\} \\
&= \frac{1}{2} \sum_{i=1}^r \left\{ \int _ {\theta^\prime} \gamma_i(\theta^\prime)) \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 0} \sum _ {\theta : \gamma(\theta) = \rho} d\mathbb{P}_ {\theta^\prime} + \int _ {\theta^\prime} \left( 1 - \gamma_i(\theta^\prime)) \right) \frac{1}{2^{r-1} |\Lambda| } \sum_{\rho_i = 1} \sum _ {\theta : \gamma(\theta) = \rho} d\mathbb{P}_ {\theta^\prime} \right\} \\
&= \frac{1}{2} \sum_{i=1}^r \left\{ \int _ {\theta^\prime} \gamma_i(\theta^\prime)) d \overline{\mathbb{P}} _ {i, 0} + \int _ {\theta^\prime} \left( 1 - \gamma_i(\theta^\prime)) \right) d \overline{\mathbb{P}} _ {i, 0} \right\} \\
&\geq \frac{1}{2} \sum_{i=1}^r \int d \left[ \overline{\mathbb{P}} _ {i, 0} \wedge \overline{\mathbb{P}} _ {i, 1} \right] \\
&\geq \frac{r}{2} \min _ {1 \leq i \leq r} \lVert \overline{\mathbb{P}} _ {i, 0} \wedge \overline{\mathbb{P}} _ {i, 1} \rVert
\end{aligned}
2 r ∣Λ∣ 1 θ ∈ Θ ∑ E θ [ H ( γ ( θ ) , γ ( θ ′ )) ] = 2 r ∣Λ∣ 1 θ ∈ Θ ∑ i = 1 ∑ r E θ [ ∣ γ i ( θ ) − γ i ( θ ′ )) ∣ ] = i = 1 ∑ r 2 r ∣Λ∣ 1 ρ ∈ Γ ∑ θ : γ ( θ ) = ρ ∑ E θ [ ∣ γ i ( θ ) − γ i ( θ ′ )) ∣ ] = 2 1 i = 1 ∑ r ⎩ ⎨ ⎧ 2 r − 1 ∣Λ∣ 1 ρ i = 0 ∑ θ : γ ( θ ) = ρ ∑ E θ [ ∣ γ i ( θ ) − γ i ( θ ′ )) ∣ ] + 2 r − 1 ∣Λ∣ 1 ρ i = 1 ∑ θ : γ ( θ ) = ρ ∑ E θ [ ∣ γ i ( θ ) − γ i ( θ ′ )) ∣ ] ⎭ ⎬ ⎫ = 2 1 i = 1 ∑ r ⎩ ⎨ ⎧ 2 r − 1 ∣Λ∣ 1 ρ i = 0 ∑ θ : γ ( θ ) = ρ ∑ E θ [ ∣ γ i ( θ ′ )) ∣ ] + 2 r − 1 ∣Λ∣ 1 ρ i = 1 ∑ θ : γ ( θ ) = ρ ∑ E θ [ ∣1 − γ i ( θ ′ )) ∣ ] ⎭ ⎬ ⎫ = 2 1 i = 1 ∑ r ⎩ ⎨ ⎧ 2 r − 1 ∣Λ∣ 1 ρ i = 0 ∑ θ : γ ( θ ) = ρ ∑ ∫ θ ′ γ i ( θ ′ )) d P θ ′ + 2 r − 1 ∣Λ∣ 1 ρ i = 1 ∑ θ : γ ( θ ) = ρ ∑ ∫ θ ′ 1 − γ i ( θ ′ )) d P θ ′ ⎭ ⎬ ⎫ = 2 1 i = 1 ∑ r ⎩ ⎨ ⎧ ∫ θ ′ γ i ( θ ′ )) 2 r − 1 ∣Λ∣ 1 ρ i = 0 ∑ θ : γ ( θ ) = ρ ∑ d P θ ′ + ∫ θ ′ ( 1 − γ i ( θ ′ )) ) 2 r − 1 ∣Λ∣ 1 ρ i = 1 ∑ θ : γ ( θ ) = ρ ∑ d P θ ′ ⎭ ⎬ ⎫ = 2 1 i = 1 ∑ r { ∫ θ ′ γ i ( θ ′ )) d P i , 0 + ∫ θ ′ ( 1 − γ i ( θ ′ )) ) d P i , 0 } ≥ 2 1 i = 1 ∑ r ∫ d [ P i , 0 ∧ P i , 1 ] ≥ 2 r 1 ≤ i ≤ r min ∥ P i , 0 ∧ P i , 1 ∥
증명이 끝났다.
위의 보조정리에 s = 2 s=2s = 2 를 대입하면 다음의 부등식을 얻는다.
inf Σ ^ max θ ∈ Θ 2 2 E θ ∥ Σ ^ − Σ ( θ ) ∥ F 2 ≥ α r 2 min 1 ≤ i ≤ r ∥ P ‾ i , 0 ∧ P ‾ i , 1 ∥
\inf_{\hat{\Sigma}} \max_{\theta \in \Theta} 2^2 \mathbb{E}_\theta \lVert \hat{\Sigma}- \Sigma(\theta) \rVert_F^2 \geq \alpha \frac{r}{2} \min _ {1 \leq i \leq r} \lVert \overline{\mathbb{P}} _ {i, 0} \wedge \overline{\mathbb{P}} _ {i, 1} \rVert
Σ ^ inf θ ∈ Θ max 2 2 E θ ∥ Σ ^ − Σ ( θ ) ∥ F 2 ≥ α 2 r 1 ≤ i ≤ r min ∥ P i , 0 ∧ P i , 1 ∥
여기서
α = min ( θ , θ ′ ) : H ( γ ( θ ) , γ ( θ ′ ) ) ≥ 1 ∥ Σ ( θ ) − Σ ( θ ′ ) ∥ F 2 / H ( γ ( θ ) , γ ( θ ′ ) )
\alpha = \min_{(\theta, \theta^\prime) : H(\gamma(\theta), \gamma(\theta^\prime)) \geq 1} \lVert \Sigma(\theta) - \Sigma(\theta^\prime) \rVert_F^2 / H(\gamma(\theta), \gamma(\theta^\prime))
α = ( θ , θ ′ ) : H ( γ ( θ ) , γ ( θ ′ )) ≥ 1 min ∥ Σ ( θ ) − Σ ( θ ′ ) ∥ F 2 / H ( γ ( θ ) , γ ( θ ′ ))
이다.
이때 임의의 θ , θ ′ ∈ Θ \theta,~\theta^\prime \in \Thetaθ , θ ′ ∈ Θ 에 대해
∥ Σ ( θ ) − Σ ( θ ′ ) ∥ F 2 = ϵ n p 2 ∥ ∑ m = 1 r γ m ( θ ) A m ( λ m ( θ ) ) − ∑ m = 1 r γ m ( θ ′ ) A m ( λ m ( θ ′ ) ) ∥ F 2 ≥ 2 k ϵ n p 2 H ( γ ( θ ) , γ ( θ ′ ) )
\begin{aligned}
\lVert \Sigma(\theta) - \Sigma(\theta^\prime) \rVert_F^2
&= \epsilon_{np}^2 \left\lVert \sum_{m=1}^r \gamma_m(\theta) A_m(\lambda_m(\theta)) - \sum_{m=1}^r \gamma_m(\theta^\prime) A_m(\lambda_m(\theta^\prime)) \right\rVert_F^2 \\
& \geq 2k\epsilon_{np}^2 H(\gamma(\theta), \gamma(\theta^\prime))
\end{aligned}
∥ Σ ( θ ) − Σ ( θ ′ ) ∥ F 2 = ϵ n p 2 m = 1 ∑ r γ m ( θ ) A m ( λ m ( θ )) − m = 1 ∑ r γ m ( θ ′ ) A m ( λ m ( θ ′ )) F 2 ≥ 2 k ϵ n p 2 H ( γ ( θ ) , γ ( θ ′ ))
이므로 k kk 와 r rr 의 정의(r = ⌊ p / 2 ⌋ , k = ⌈ c n p / 2 ⌉ − 1 , c n p = ⌈ s 0 / p ⌉ r = \lfloor p/2 \rfloor,~k = \lceil c_{np} / 2 \rceil - 1,~ c_{np} = \lceil s_0 / p \rceilr = ⌊ p /2 ⌋ , k = ⌈ c n p /2 ⌉ − 1 , c n p = ⌈ s 0 / p ⌉ )로부터 다음을 얻는다.
α r ≥ 2 k ϵ n p 2 r ≥ ν 2 ( 1 2 − p s 0 ) s 0 log p n ≍ s 0 log p n
\alpha r \geq 2k\epsilon_{np}^2 r \geq \nu^2 \left( \frac{1}{2} - \frac{p}{s_0} \right) \frac{s_0 \log p}{n} \asymp \frac{s_0 \log p}{n}
α r ≥ 2 k ϵ n p 2 r ≥ ν 2 ( 2 1 − s 0 p ) n s 0 log p ≍ n s 0 log p
이제, 다음을 만족하는 적당한 상수 c 1 > 0 c_1 > 0c 1 > 0 이 존재함을 보이면 증명이 끝난다.
min 1 ≤ i ≤ r ∥ P ‾ i , 0 ∧ P ‾ i , 1 ∥ ≥ c 1
\min _ {1 \leq i \leq r} \lVert \overline{\mathbb{P}} _ {i, 0} \wedge \overline{\mathbb{P}} _ {i, 1} \rVert \geq c_1
1 ≤ i ≤ r min ∥ P i , 0 ∧ P i , 1 ∥ ≥ c 1