발표자: 이재용 교수님
발표 일자: 2022년 7월 25일
μ ∈ R k , Σ ∈ R k × k , Σ > 0 \mu \in \mathbb{R}^k,~\Sigma \in \mathbb{R}^{k \times k},~\Sigma > 0μ ∈ R k , Σ ∈ R k × k , Σ > 0 에 대해 다음과 같은 모형을 생각하자.
X 1 , ⋯ , X n ∣ μ , Σ N ( μ , Σ ) X_1, \cdots, X_n | \mu, \Sigma \stackrel{i.i.d.}{\sim} N(\mu, \Sigma)
X 1 , ⋯ , X n ∣ μ , Σ ∼ i . i . d . N ( μ , Σ )
정밀도 행렬은 Ω = Σ − 1 \Omega = \Sigma^{-1}Ω = Σ − 1 로 정의된다.
여기서 μ \muμ 와 Σ \SigmaΣ 를 추정하는 것이 문제이다.
일반적으로는, 평균의 추정보다 공분산 추정이 어려운데, 이는 '양의 정부호 행렬'이라는 제약이 있기 때문이다.
L ( μ , Σ ) = ∏ i = 1 n N ( x i , μ , Σ ) = ∏ i = 1 n ∣ 2 π Σ ∣ − 1 / 2 e − 1 2 ( x i − μ ) ′ Σ − 1 ( x i − μ ) ∝ ∣ Σ ∣ − n / 2 ∏ i = 1 n e − 1 2 ( x i − μ ) ′ Σ − 1 ( x i − μ ) ∝ ∣ Σ ∣ − n / 2 ∏ i = 1 n e − 1 2 t r ( Σ − 1 ( x i − μ ) ( x i − μ ) ′ ∝ ∣ Σ ∣ − n / 2 ∏ i = 1 n e − n 2 t r ( Σ − 1 [ S n + ( x ˉ − μ ) ( x ˉ − μ ) ′ ] ) \begin{aligned}
L(\mu, \Sigma)
&= \prod_{i=1}^n N(x_i, \mu, \Sigma) \\
&= \prod_{i=1}^n |2\pi \Sigma|^{-1/2} e^{-\frac{1}{2}(x_i -\mu)' \Sigma^{-1} (x_i -\mu)} \\
&\propto | \Sigma|^{-n/2} \prod_{i=1}^n e^{-\frac{1}{2}(x_i -\mu)' \Sigma^{-1} (x_i -\mu)} \\
&\propto | \Sigma|^{-n/2} \prod_{i=1}^n e^{-\frac{1}{2} tr(\Sigma^{-1} (x_i -\mu) (x_i -\mu)'} \\
&\propto | \Sigma|^{-n/2} \prod_{i=1}^n e^{-\frac{n}{2} tr(\Sigma^{-1} [S_n + (\bar{x} - \mu)(\bar{x} - \mu)'])}
\end{aligned}
L ( μ , Σ ) = i = 1 ∏ n N ( x i , μ , Σ ) = i = 1 ∏ n ∣2 π Σ ∣ − 1/2 e − 2 1 ( x i − μ ) ′ Σ − 1 ( x i − μ ) ∝ ∣Σ ∣ − n /2 i = 1 ∏ n e − 2 1 ( x i − μ ) ′ Σ − 1 ( x i − μ ) ∝ ∣Σ ∣ − n /2 i = 1 ∏ n e − 2 1 t r ( Σ − 1 ( x i − μ ) ( x i − μ ) ′ ∝ ∣Σ ∣ − n /2 i = 1 ∏ n e − 2 n t r ( Σ − 1 [ S n + ( x ˉ − μ ) ( x ˉ − μ ) ′ ])
여기서 n S n + n ( x ˉ − μ ) ( x ˉ − μ ) ′ = ( x i − μ ) ( x i − μ ) ′ nS_n + n(\bar{x} - \mu)(\bar{x} - \mu)' = (x_i -\mu) (x_i -\mu)'n S n + n ( x ˉ − μ ) ( x ˉ − μ ) ′ = ( x i − μ ) ( x i − μ ) ′ 이다.
l ( μ , Σ ) = C − n 2 log ∣ Σ ∣ − n 2 t r ( Σ − 1 [ S n + ( x ˉ − μ ) ( x ˉ − μ ) ′ ] ) l(\mu, \Sigma) = C - \frac{n}{2} \log |\Sigma| -\frac{n}{2}tr\left(\Sigma^{-1} [S_n + (\bar{x} - \mu)(\bar{x} - \mu)']\right)
l ( μ , Σ ) = C − 2 n log ∣Σ∣ − 2 n t r ( Σ − 1 [ S n + ( x ˉ − μ ) ( x ˉ − μ ) ′ ] )
빈도론자의 추정량은 다음과 같이 주어진다.
μ ^ M L E = x ˉ , Σ ^ = 1 n ∑ ( x i − x ˉ ) ( x i − x ˉ ) ′ = S n \hat{\mu}^{MLE} = \bar{x},~\hat{\Sigma} = \frac{1}{n} \sum (x_i - \bar{x})(x_i - \bar{x})' = S_n
μ ^ M L E = x ˉ , Σ ^ = n 1 ∑ ( x i − x ˉ ) ( x i − x ˉ ) ′ = S n
μ = 0 \mu =0μ = 0 임이 알려져 있으면, Σ ^ M L E = 1 n ∑ x i x i ′ \hat{\Sigma}^{MLE} = \frac{1}{n} \sum x_i x_i'Σ ^ M L E = n 1 ∑ x i x i ′ 이다.
다음과 같은 켤레사전분포를 생각한다.
Ω ∼ W ( ν 0 , B 0 − 1 ) μ ∣ Ω ∼ N ( μ 0 , Σ / κ 0 ) \begin{gathered}
\Omega \sim W(\nu_0, B_0^{-1}) \\
\mu|\Omega \sim N(\mu_0, \Sigma/\kappa_0)
\end{gathered}
Ω ∼ W ( ν 0 , B 0 − 1 ) μ ∣Ω ∼ N ( μ 0 , Σ/ κ 0 )
여기서 W WW 는 위사트(Wishart) 분포로 공분산 행렬 Σ \SigmaΣ 에 대한 사전분포를 고려한다면, 역-위샤트(inverse-Wishart) 사전분포를 고려하면 된다.
사후분포는
ν n = ν 0 + n , κ n = κ 0 + n , μ n = 1 κ 0 + n ( κ 0 μ 0 + n x ˉ ) , \nu_n = \nu_0 + n,~\kappa_n = \kappa_0 + n,~\mu_n = \frac{1}{\kappa_0 +n} (\kappa_0 \mu_0 + n \bar{x}),ν n = ν 0 + n , κ n = κ 0 + n , μ n = κ 0 + n 1 ( κ 0 μ 0 + n x ˉ ) ,
B n = B 0 + n S n + n κ 0 n + κ 0 ( μ 0 − x ˉ ) ( μ 0 − x ˉ ) ′ B_n = B_0 + n S_n + \frac{n \kappa_0}{n+\kappa_0} (\mu_0 - \bar{x}) (\mu_0 - \bar{x})'
B n = B 0 + n S n + n + κ 0 n κ 0 ( μ 0 − x ˉ ) ( μ 0 − x ˉ ) ′
를 모수로 갖는 위샤트 분포로 주어진다.
위의 사전분포로부터
μ ^ B = μ n Σ ^ B = 1 ν n − k − 1 B n \begin{gathered}
\hat{\mu}^B = \mu_n \\
\hat{\Sigma}^B = \frac{1}{\nu_n - k - 1} B_n
\end{gathered}
μ ^ B = μ n Σ ^ B = ν n − k − 1 1 B n
으로 주어진다.
π ( μ , Σ ) d μ d Σ ∝ ∣ Σ ∣ − k + 1 2 d μ d Σ \pi(\mu, \Sigma) d\mu d\Sigma \propto |\Sigma|^{-\frac{k+1}{2}} d \mu d\Sigma
π ( μ , Σ ) d μ d Σ ∝ ∣Σ ∣ − 2 k + 1 d μ d Σ
μ ∣ Σ , X ∼ N ( x ˉ , 1 n Σ ) \mu|\Sigma, \mathbb{X} \sim N\left(\bar{x},~\frac{1}{n}\Sigma\right)
μ ∣Σ , X ∼ N ( x ˉ , n 1 Σ )
Σ ∣ X ∼ I W k ( k + n , ( n − 1 ) S n ) \Sigma|\mathbb{X} \sim IW_k(k + n,~(n-1)S_n)
Σ∣ X ∼ I W k ( k + n , ( n − 1 ) S n )
μ ^ B = x ˉ \hat{\mu}^B = \bar{x}
μ ^ B = x ˉ
Σ ^ B = n − 1 n − k − 2 S n \hat{\Sigma}^B = \frac{n-1}{n-k-2} S_n
Σ ^ B = n − k − 2 n − 1 S n
n u > k − 1 , B > 0 nu > k-1,~B>0n u > k − 1 , B > 0 에 대해 양의 정부호 행렬 W WW 가 위샤트 분포 W k ( ν , B ) W_k(\nu, B)W k ( ν , B ) 를 따른다는 것은, 다음을 의미한다.
f ( w ) d w = 1 2 ν k / 2 ∣ B ∣ Γ k ( ν / 2 ) ∣ w ∣ ν − k − 1 2 e − 1 2 t r ( B − 1 w ) f(w)dw = \frac{1}{2^{\nu k / 2} |B| \Gamma_k(\nu/2)} |w|^\frac{\nu - k -1}{2} e^{-\frac{1}{2}tr(B^{-1}w)}
f ( w ) d w = 2 ν k /2 ∣ B ∣ Γ k ( ν /2 ) 1 ∣ w ∣ 2 ν − k − 1 e − 2 1 t r ( B − 1 w )
여기서 d w = ∏ i ≤ j d w i j dw = \prod_{i \leq j} dw_{ij}d w = ∏ i ≤ j d w ij 를 의미한다.
그러면, E [ W ] = ν B \mathbb{E}[W] = \nu BE [ W ] = ν B 이다.
Ω ∼ I W k ( ν , A ) , ν > k − 1 , A > 0 \Omega \sim IW_k (\nu, A), ~\nu > k-1,~ A >0Ω ∼ I W k ( ν , A ) , ν > k − 1 , A > 0 이라는 것은 다음을 의미한다.
f ( ω ) d ω = ∣ A ∣ ν − k − 1 2 2 k ( ν − k − 1 ) 2 Γ k ( ν / 2 ) ∣ ω ∣ − ν 2 e − 1 2 t r ( Ω − 1 A ) f(\omega) d\omega = \frac{|A|^\frac{\nu - k -1}{2}}{2^\frac{k(\nu-k-1)}{2} \Gamma_k(\nu/2)} |\omega|^{-\frac{\nu}{2}} e^{-\frac{1}{2} tr(\Omega^{-1} A)}
f ( ω ) d ω = 2 2 k ( ν − k − 1 ) Γ k ( ν /2 ) ∣ A ∣ 2 ν − k − 1 ∣ ω ∣ − 2 ν e − 2 1 t r ( Ω − 1 A )
다음이 성립한다.
W ∼ W k ( ν , B ) ⟺ W − 1 ∼ I W k ( ν + k + 1 , B − 1 ) W \sim W_k(\nu, B) \Longleftrightarrow W^{-1} \sim IW_k(\nu+k+1, B^{-1})W ∼ W k ( ν , B ) ⟺ W − 1 ∼ I W k ( ν + k + 1 , B − 1 ) .
Ω ∼ I W k ( ν , A ) ⇒ E [ Ω ] = 1 ν − 2 k − 2 A , ν − 2 k − 2 > 0 \Omega \sim IW_k(\nu, A) \Rightarrow \mathbb{E}[\Omega] = \frac{1}{\nu - 2k - 2} A, ~ \nu - 2k -2 > 0Ω ∼ I W k ( ν , A ) ⇒ E [ Ω ] = ν − 2 k − 2 1 A , ν − 2 k − 2 > 0 .
모형
X 1 , ⋯ , X n ∣ Σ N k ( 0 , Σ ) X_1, \cdots, X_n | \Sigma \stackrel{i.i.d.}{\sim} N_k(0, \Sigma)
X 1 , ⋯ , X n ∣Σ ∼ i . i . d . N k ( 0 , Σ )
Ω ∼ W k ( ν 0 , B 0 − 1 ) \Omega \sim W_k(\nu_0, B_0^{-1})
Ω ∼ W k ( ν 0 , B 0 − 1 )
의 사후분포는
Ω ∣ X ∼ W k ( ν 0 + n , ( B 0 + n S ) − 1 ) Σ ∣ X ∼ I W k ( ν 0 + n , B 0 + n S ) \begin{gathered}
\Omega|\mathbb{X} \sim W_k(\nu_0 + n, (B_0 + nS)^{-1}) \\
\Sigma|\mathbb{X} \sim IW_k(\nu_0 + n, B_0 + nS)
\end{gathered}
Ω∣ X ∼ W k ( ν 0 + n , ( B 0 + n S ) − 1 ) Σ∣ X ∼ I W k ( ν 0 + n , B 0 + n S )
이 모형은 빈도론자들의 공분산 행렬 추정 모형을 그대로 옮긴 것인데, 베이즈주의자들 사이에서도 논란이 있다.
고정된 k kk 에 대해서는 사후분포, 베이즈 추정량들이 좋은 성질을 가짐이 알려져 있다.
우리는 k kk 가 변하는 경우를 함께 고려해보고자 한다.
다음과 같은 분야에서 공분산 추론은 중요한 위상을 갖는다.
주성분 분석(PCA)
판별 분석
변수들간의 독립성, 조건부 독립성 검정
정준상관분석
2000년대에 들어서, 고차원 모형에 대한 관심이 급증하였다. 고차원 모형이란, 모수의 차원 k kk 가 자료의 크기 n nn 과 함께 커지는 경우를 생각한다. 심지어, 다음과 같은 상황을 고려하기도 한다.
k ∞ . k \stackrel{n \rightarrow \infty}{\longrightarrow} \infty.
k ⟶ n → ∞ ∞.
과거에는 자료의 크기와 관계 없이 고정된 차원을 갖는 모형들을 고려하였다.
20세기 후반, 사람들은 '데이터 많으니 더 큰 모형을 고려할 수 있지 않을까' 하는 생각을 하기 시작했다. 즉, 자료가 커질 때, 모형의 복잡도도 함께 커지는 문제를 고려하였다. 이러한 상황에서는 기존에 알려진 모형의 점근적 성질들이 성립하지 않는 문제들이 발생하였고, 현대의 통계학은 이러한 문제를 해결하는 데 관심을 가지고 있다.
n nn 과 k kk 가 동시에 커지면서 다음과 같은 문제가 발생한다.
k n \dfrac{k}nn k 이 클수록, λ max ( S n ) > > λ max ( Σ ) \lambda_{\max} (S_n) >> \lambda_{\max}(\Sigma)λ m a x ( S n ) >> λ m a x ( Σ ) 이고 λ min ( S n ) < < λ min ( Σ ) \lambda_{\min}(S_n) << \lambda_{\min}(\Sigma)λ m i n ( S n ) << λ m i n ( Σ ) 이다.
(Johnstone & Lu 2009) S n S_nS n 의 고유벡터는 Σ \SigmaΣ 의 고유벡터로 수렴하지 않는다.
1번의 문제는 과거에도 널리 알려져 있었으며, 이를 피하기 위한 다양한 가정들이 시도되었다. 최근에는 성김(sparse)가정을 주로 한다.
공분산 행렬의 추정이 어려운 이유는 양의 정부호라는 제약조건 때문이다. 이를 피하기 위해 다음과 같이 공분산을 분해하여 생각하는 방법들이 제안되었다.
촐레스키 분해(Cholesky decomposition)은 공분산 행렬을 다음과 같이 분해한다.
Σ = C C ′ , C = ( c i j ) \Sigma = CC',~ C = (c_{ij})
Σ = C C ′ , C = ( c ij )
여기서 C CC 는 c i i > 0 c_{ii} > 0c ii > 0 인 하삼각행렬(lower triangular matrix)이다.
증명:
수학적 귀납법을 사용한다. k = 1 k=1k = 1 일 때는 자명하다.
Σ = [ Σ 11 σ 12 ′ σ 12 σ 22 ] = [ C 1 0 x ′ y ] [ C 1 x 0 ′ y ] \Sigma = \begin{bmatrix} \Sigma_{11} & \sigma_{12}' \\ \sigma_{12} & \sigma_{22} \end{bmatrix} = \begin{bmatrix} C_1 & 0 \\ x' & y \end{bmatrix} \begin{bmatrix} C_1 & x \\ 0' & y \end{bmatrix}
Σ = [ Σ 11 σ 12 σ 12 ′ σ 22 ] = [ C 1 x ′ 0 y ] [ C 1 0 ′ x y ]
을 만족하는 x , y x,~yx , y 가 존재함을 보이면 된다.
위의 식을 계산해보면,
Σ = [ Σ 11 σ 12 ′ σ 12 σ 22 ] = [ C 1 C 1 ′ C 1 x x ′ C x ′ x + y 2 ] \Sigma = \begin{bmatrix} \Sigma_{11} & \sigma_{12}' \\ \sigma_{12} & \sigma_{22} \end{bmatrix} = \begin{bmatrix} C_1 C_1' & C_1 x \\ x' C & x'x + y^2 \end{bmatrix}
Σ = [ Σ 11 σ 12 σ 12 ′ σ 22 ] = [ C 1 C 1 ′ x ′ C C 1 x x ′ x + y 2 ]
에서 x = C 1 − 1 σ 12 , y = σ 22 − x ′ x x = C_1^{-1} \sigma_{12},~ y = \sqrt{\sigma_{22} - x'x}x = C 1 − 1 σ 12 , y = σ 22 − x ′ x 이다. ■ \blacksquare■
촐레스키 분해는 간단하지만 직관적으로 통계적인 의미를 갖지 않아 잘 사용되지 않는다.
참고: Σ \SigmaΣ 가 위샤트 분포를 따르면 C CC 의 분포는 발렛 분포를 따른다는 것이 알려져 있다.
Σ = P D P ′ \Sigma = PDP'Σ = P D P ′ 와 같이 분해한다. 여기서 P = [ u 1 , ⋯ , u k ] P = [u_1, \cdots, u_k]P = [ u 1 , ⋯ , u k ] 인 직교행렬, D = d i a g ( λ 1 , ⋯ , λ k ) D= diag(\lambda_1, \cdots, \lambda_k)D = d ia g ( λ 1 , ⋯ , λ k ) 인 대각행렬이다.
이 분해는 다른 문제(주성분 분석 등)에서는 유용하게 사용되나, 공분산 추정의 문제에서는 잘 사용되지 않는다.
수정된 촐레스키 분해(modified Cholesky decomposition)는 다음과 같다.
모형
X = ( X 1 X k ) ∼ N ( 0 , Σ ) X = \begin{pmatrix} X_1 \\ \vdots \\ X_k \end{pmatrix} \sim N(0, \Sigma)
X = X 1 ⋮ X k ∼ N ( 0 , Σ )
에서, 각 성분의 분포를 다음과 같이 나타낼 수 있다.
X 1 = ϵ 1 , X 2 = a 21 X 1 + ϵ 2 , X 3 = a 31 X 1 + a 32 X 2 + ϵ 3 , X k = a k 1 X 1 + ⋯ + a k , k − 1 X k − 1 + ϵ k \begin{aligned}
X_1 &= \epsilon_1, \\
X_2 &= a_{21} X_1 + \epsilon_2, \\
X_3 &= a_{31} X_1 + a_{32} X_2 + \epsilon_3, \\
&\vdots \\
X_k &= a_{k1} X_1 + \cdots + a_{k, k-1} X_{k-1} + \epsilon_k
\end{aligned}
X 1 X 2 X 3 X k = ϵ 1 , = a 21 X 1 + ϵ 2 , = a 31 X 1 + a 32 X 2 + ϵ 3 , ⋮ = a k 1 X 1 + ⋯ + a k , k − 1 X k − 1 + ϵ k
즉, X = A X + ϵ , ϵ ∼ N ( 0 , D ) X = AX + \epsilon, ~ \epsilon \sim N(0, D)X = A X + ϵ , ϵ ∼ N ( 0 , D ) 와 같은 형태로 나타낼 수 있다. 여기서
A = [ 0 0 ⋯ 0 a 21 0 ⋯ 0 a 31 a 32 ⋯ 0 ⋱ a k 1 a k 2 ⋯ 0 ] A = \begin{bmatrix} 0 & 0 & \cdots & 0 \\ a_{21} & 0 & \cdots & 0 \\ a_{31} & a_{32} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ a_{k1} & a_{k2} & \cdots & 0 \end{bmatrix}
A = 0 a 21 a 31 ⋮ a k 1 0 0 a 32 ⋮ a k 2 ⋯ ⋯ ⋯ ⋱ ⋯ 0 0 0 ⋮ 0
이고, 이러한 A AA 를 촐레스키 인자라 부른다.
그러면,
( I − A ) X = ϵ , V a r ( ( I − A ) X ) = V a r ( ϵ ) , ( I − A ) Σ ( I − A ) ′ = D , Σ = ( I − A ) − 1 D ( I − A ) ′ − 1 , Ω = ( I − A ) D − 1 ( I − A ) ′ \begin{gathered}
(I - A) X = \epsilon, \\
Var((I-A)X) = Var(\epsilon), \\
(I-A) \Sigma (I-A)' = D, \\
\Sigma = (I-A)^{-1} D (I-A)'^{-1}, \\
\Omega = (I-A) D^{-1} (I-A)'
\end{gathered}
( I − A ) X = ϵ , Va r (( I − A ) X ) = Va r ( ϵ ) , ( I − A ) Σ ( I − A ) ′ = D , Σ = ( I − A ) − 1 D ( I − A ) ′ − 1 , Ω = ( I − A ) D − 1 ( I − A ) ′
즉, Σ \SigmaΣ 를 추정하는 공분산 추정 문제를, A AA 와 D DD 를 추정하는 선형회귀문제로 바꿀 수 있다.
수정된 촐레스키 분해는 주로 사용된다.
Σ ^ = arg min Σ [ − l ( Σ ) + λ P e n ( Σ ) ] = arg min Σ log ∣ Σ ∣ + t r ( Σ − 1 S n ) + ∑ i < j P λ ( σ i j ) \begin{aligned}
\hat{\Sigma}
&= \arg\min_{\Sigma} \left[ - l(\Sigma) + \lambda Pen(\Sigma) \right] \\
&= \arg\min_{\Sigma} \log |\Sigma| + tr(\Sigma^{-1} S_n) + \sum_{i < j} P_\lambda( \sigma_{ij})
\end{aligned}
Σ ^ = arg Σ min [ − l ( Σ ) + λ P e n ( Σ ) ] = arg Σ min log ∣Σ∣ + t r ( Σ − 1 S n ) + i < j ∑ P λ ( σ ij )
주로 사용하는 벌점함수로는 다음이 있다.
P λ ( θ ) = λ ∣ θ ∣ P_\lambda(\theta) = \lambda |\theta|P λ ( θ ) = λ ∣ θ ∣ (L 1 L_1L 1 -penalty, LASSO penalty)
P λ ( θ ) = λ 2 − ( ∣ θ ∣ − λ ) 2 I ( ∣ θ ∣ < λ ) P_\lambda(\theta) = \lambda^2 - (|\theta| - \lambda)^2 I(|\theta| < \lambda)P λ ( θ ) = λ 2 − ( ∣ θ ∣ − λ ) 2 I ( ∣ θ ∣ < λ ) , (hard thresholding)
P λ ′ ( θ ) λ I ( ∣ θ ∣ ≤ λ ) + ( a λ − θ ) + a − 1 I ( ∣ θ ∣ > λ ) , a > 2 P_\lambda'(\theta) \lambda I(|\theta| \leq \lambda) + \dfrac{(a \lambda - \theta)_+}{a - 1} I(|\theta| > \lambda),~ a>2P λ ′ ( θ ) λ I ( ∣ θ ∣ ≤ λ ) + a − 1 ( aλ − θ ) + I ( ∣ θ ∣ > λ ) , a > 2
공분산 행렬의 역행렬을 계산하는 것이 비싸기 때문에, 다음과 같은 손실함수를 고려하기도 한다.
∑ i , j ( s i j − σ i j ) 2 + ∑ i < j P λ ( σ i j ) \sum_{i, j} (s_{ij} - \sigma_{ij})^2 + \sum_{i < j} P_\lambda( \sigma_{ij})
i , j ∑ ( s ij − σ ij ) 2 + i < j ∑ P λ ( σ ij )
혹은, 다음과 같이 정밀도 행렬을 추정하는 문제를 고려하기도 한다.
Ω ^ = arg min Ω − log ∣ Ω ∣ + t r ( Ω S n ) + ∑ i < j P λ ( ω i j ) \hat{\Omega} = \arg\min_{\Omega} - \log |\Omega| + tr(\Omega S_n) + \sum_{i < j} P_\lambda( \omega_{ij})
Ω ^ = arg Ω min − log ∣Ω∣ + t r ( Ω S n ) + i < j ∑ P λ ( ω ij )
빈도론의 대표적인 연구 결과를 소개한다.
Lam & Fan (2009)은 적당한 벌점함수에 대해
∥ Σ ^ − Σ 0 ∥ F 2 = O p ( ( p n + s n ) log p n n ) \|\hat{\Sigma} - \Sigma_0\|_F^2 = O_p\left( \frac{(p_n + s_n) \log p_n}{n} \right)
∥ Σ ^ − Σ 0 ∥ F 2 = O p ( n ( p n + s n ) log p n )
을 보였다. 여기서 s n s_ns n 은 Σ \SigmaΣ 에서 0이 아닌 비대각원소의 개수, p n p_np n 은 차원을 의미한다.
보통, 공분산 행렬의 추정 분제에서는 최적의 수렴속도가 다음과 같이 주어진다.
0이 아닌 모수의 개수 × log ( 차원 ) n \frac{\text{0이 아닌 모수의 개수} \times \log(\text{차원})}{n}
n 0 이 아닌 모수의 개수 × log ( 차원 )
빈도론자들은 이러한 Σ ^ \hat{\Sigma}Σ ^ 를 찾는 구체적인 방법들에 대해 관심을 갖는다.
최근에는 주로 성김 가정을 하나, 이전에는 어떤 추정 방법들을 제안했나 살펴본다.
S = P D P ′ S = PDP'S = P D P ′ 와 같이 나타내자. 적당한 고유치들의 변환 Λ \LambdaΛ 에 대해 공분산 행렬의 추정량으로 Σ ^ = P Λ ( D ) P ′ \hat{\Sigma} = P \Lambda(D) P'Σ ^ = P Λ ( D ) P ′ 로 제안한다.
Johnstone의 문제에서 알 수 있듯, 고차원 행렬 문제에서는 고유벡터를 찾는 것도 어렵기 때문에 P PP 를 제대로 추정하기 어렵다.
공분산 행렬의 추정량으로 축소 추정량 Σ ^ = ρ 1 S + ρ 2 I \hat{\Sigma} = \rho_1 S + \rho_2 IΣ ^ = ρ 1 S + ρ 2 I 를 제안하였다.
Bickel & Levina (2008)
Thresholidng, Tapering, Banding
Thresholding estimator는 다음과 같이 주어진다.
Σ ^ = ( σ i j ^ ) σ ^ i j = { s i j I ( ∣ s i j ∣ > c log p n ) ( i ≠ j ) s i j ( i = j ) \begin{aligned}
\hat{\Sigma}&= (\hat{\sigma _ {ij}}) \\
\hat{\sigma} _ {ij}
&= \begin{cases} s _ {ij} I\left(|s _ {ij}| > c \sqrt{ \frac{\log p}{n}}\right) & (i \neq j) \\ s _ {ij} & (i=j) \end{cases}
\end{aligned}Σ ^ σ ^ ij = ( σ ij ^ ) = ⎩ ⎨ ⎧ s ij I ( ∣ s ij ∣ > c n l o g p ) s ij ( i = j ) ( i = j )
banding estimator는 공분산 행렬이 대각성분 근처에서만 0이 아닌 성분을 갖는 추정량을 제안한다.
Σ ^ = B k ( S ) = ( s i j I ( ∣ i − j ∣ ≤ k ) ) \hat{\Sigma} = B_k(S) = (s_{ij} I(|i-j| \leq k))
Σ ^ = B k ( S ) = ( s ij I ( ∣ i − j ∣ ≤ k ))
tapering estimator는 공분산 행렬이 대각성분에서 멀어질수록 0에 가까워지는 추정량을 제안한다.
Σ ^ = T k ( S ) = ( w i j ( k ) s i j ) , w i j ( k ) = { 1 , ∣ i − j ∣ ≤ k 2 2 − ∣ i − j ∣ k / 2 , k 2 < ∣ i − j ∣ ≤ k 0 , o.w. \hat{\Sigma} = T_k(S) = ( w_{ij}^{(k)} s_{ij}), \quad w_{ij}^{(k)} = \begin{cases} 1, & |i-j| \leq \frac{k}{2} \\ 2 - \frac{|i-j|}{k/2}, & \frac{k}{2} < |i-j| \leq k \\ 0, & \text{o.w.} \end{cases}
Σ ^ = T k ( S ) = ( w ij ( k ) s ij ) , w ij ( k ) = ⎩ ⎨ ⎧ 1 , 2 − k /2 ∣ i − j ∣ , 0 , ∣ i − j ∣ ≤ 2 k 2 k < ∣ i − j ∣ ≤ k o.w.
모수공간에 제약이 있을 때, 사전분포를 부여하는 것이 어렵다.
G = ( V , E ) G = (V, E)G = ( V , E ) 라 하자. Ω = ( ω i j ) \Omega = (\omega_{ij})Ω = ( ω ij ) 와 같이 나타낼 때, V = { 1 , 2 , ⋯ , k } V = \{ 1,2, \cdots, k \}V = { 1 , 2 , ⋯ , k } ,
E ⊂ V × V = { ( i , j ) : C o v ( X i , X j ) ≠ 0 or w i j ≠ 0 } E \subset V \times V = \{ (i, j) : Cov(X_i, X_j) \neq 0 \text{ or } w_{ij} \neq 0 \}
E ⊂ V × V = {( i , j ) : C o v ( X i , X j ) = 0 or w ij = 0 }
으로 정의한다.
Ω ∼ W G ( b , D ) , b > 2 , D > 0 \Omega \sim W_G(b, D), b > 2, D > 0Ω ∼ W G ( b , D ) , b > 2 , D > 0 는 다음을 의미한다.
π ( Ω ∣ G ) = 1 I G ( b , D ) ∣ Ω ∣ b − 2 2 e − 1 2 t r ( D Ω ) I ( Ω ∈ M G + ) \pi(\Omega | G) = \frac{1}{I_G(b, D)} | \Omega|^{\frac{b-2}{2}} e^{-\frac{1}{2} tr(D \Omega)} I(\Omega \in M_G^+)
π ( Ω∣ G ) = I G ( b , D ) 1 ∣Ω ∣ 2 b − 2 e − 2 1 t r ( D Ω ) I ( Ω ∈ M G + )
여기서 M G + = { Ω : Ω > 0 , ω i j ≠ 0 ⇔ ( i , j ) ∈ E } M_G^+ = \{ \Omega : \Omega > 0,~ \omega_{ij} \neq 0 \Leftrightarrow (i, j)\in E \}M G + = { Ω : Ω > 0 , ω ij = 0 ⇔ ( i , j ) ∈ E } 이다.
사후분포는 Ω ∣ X , G ∼ W G ( b + n , D + S ) \Omega | \mathbb{X}, G \sim W_G(b+n, D+S)Ω∣ X , G ∼ W G ( b + n , D + S ) 로 주어진다.
이 분포는 단순히 위샤트 분포에 제약조건을 추가한 것이라 직관적이나, 정규화 상수 I G ( b , D ) I_G(b, D)I G ( b , D ) 의 계산이 사실상 불가능하다.
이러한 문제로 분해가능(decomposible)이라는 가정을 추가한다. 분해가능하지 않을 때는 수치적으로 정규화 상수를 계산하나 차원이 커질 때 계산이 거의 불가능하다.
이와 같은 모형을 그래프 모형(graphical model)이라 한다.
그래프 모형에서 w i j = 0 w_{ij} = 0w ij = 0 은 X i ⊥ X j ∣ X ( i , j ) X_i \perp X_j|X_{~(i,j)}X i ⊥ X j ∣ X ( i , j ) , 즉, 조건부 독립성을 의미한다.
참고: σ i j = 0 \sigma_{ij} = 0σ ij = 0 은 X i ⊥ X j X_i \perp X_jX i ⊥ X j , 즉, 주변 독립성을 의미한다.
Σ ∼ I W G ( δ , U ) \Sigma \sim IW_G(\delta, U)Σ ∼ I W G ( δ , U ) 는 다음과 같은 밀도함수를 갖는다.
π ( Σ ∣ G ) = 1 I G ( δ , U ) ∣ Σ ∣ − δ + 2 2 e − 1 2 t r ( Σ − 1 U ) I ( Σ ∈ M G + ) \pi(\Sigma | G) = \frac{1}{I_G(\delta, U)} | \Sigma|^{-\frac{\delta+2}{2}} e^{-\frac{1}{2} tr(\Sigma^{-1} U)} I(\Sigma \in M_G^+)
π ( Σ∣ G ) = I G ( δ , U ) 1 ∣Σ ∣ − 2 δ + 2 e − 2 1 t r ( Σ − 1 U ) I ( Σ ∈ M G + )
그래프 모형은 사전분포와 사후분포가 잘 정의된다는 장점을 갖는다.
공분산 행렬의 각 성분에 다음과 같은 분포를 가정하는 모형도 있다.
σ i j ∼ w δ 0 + ( 1 − w ) N o r m a l , σ i i ∼ E x p \begin{aligned}
\sigma_{ij} &\sim w \delta_0 + (1-w) Normal, \\
\sigma _ {ii} & \sim Exp
\end{aligned}
σ ij σ ii ∼ w δ 0 + ( 1 − w ) N or ma l , ∼ E x p
우리가 이번에 볼 논문은 이를 연속형 분포로 확장한 것이다.
post-processed posterior
사이비 베이즈(?)
전체 모수 공간을 Θ ∗ \Theta^\astΘ ∗ , 원하는 모수 공간을 Θ ⊂ Θ ∗ \Theta \subset \Theta^\astΘ ⊂ Θ ∗ 라 하자.
사전분포 π ∗ \pi^\astπ ∗ 가 계산이 쉬운 사후분포 π ∗ ( ⋅ ∣ X ) \pi^\ast(\cdot | \mathbb{X})π ∗ ( ⋅ ∣ X ) 를 갖는다고 하자.
사후처리 사후분포는 다음과 같은 요소들로 구성된다.
사후 처리 함수 f : Θ ∗ → Θ f: \Theta^\ast \rightarrow \Thetaf : Θ ∗ → Θ
사후처리 사후분포 [ f ( θ ∗ ) ∣ θ ∗ ∼ π ∗ ( ⋅ ∣ X n ) ] = π ( ⋅ ∣ X ) [f(\theta^\ast)|\theta^\ast \sim \pi^\ast(\cdot | \mathbb{X}_n)] = \pi(\cdot | \mathbf{X})[ f ( θ ∗ ) ∣ θ ∗ ∼ π ∗ ( ⋅ ∣ X n )] = π ( ⋅ ∣ X )
이 방법은 이론적 정당성을 더 확보해야 한다.
다음과 같은 사전분포를 고려한다.
π ( Σ ∣ a , b , H ) ∝ 1 ∣ Σ ∣ a [ ∏ i < j ( λ i − λ j ) ] b e − 1 2 t r ( Σ − 1 H ) \pi(\Sigma|a, b, H) \propto \frac{1}{|\Sigma|^a \left[ \prod_{i < j} (\lambda_i - \lambda_j) \right]^b } e^{-\frac{1}{2} tr(\Sigma^{-1} H)}
π ( Σ∣ a , b , H ) ∝ ∣Σ ∣ a [ ∏ i < j ( λ i − λ j ) ] b 1 e − 2 1 t r ( Σ − 1 H )
여기서 λ 1 > λ 2 > ⋯ > λ k \lambda_1 > \lambda_2 > \cdots > \lambda_kλ 1 > λ 2 > ⋯ > λ k 는 Σ \SigmaΣ 의 고유치이다.
사후분포의 성질은 아직 규명되지 않았다.