Mixture Model(혼합 모델), Outlier Analysis

이것저것 공부

jiheek 2022. 10. 11. 20:41

Outlier Analysis by Charu C.Aggarwal - Chapter 2.4 정리

이전 내용까지는 extreme value analysis를 사용해서 outlier modeling을 했다.

간단한 Mahalanobis 방법은 전체 데이터 세트가 평균에 대해 하나의 큰 클러스터(그림 2.7)에 분포되어 있었기 때문에 extreme value analysis가 효과적이었다.

하지만 방향이 다른 여러 클러스터(그림 2.1)로 구성된 데이터의 경우에는 효과적이지 않을 수 있다. 따라서 이런 경우에는 보다 일반적인 분포 기반 모델링 알고리즘이 필요하다.

⇒ 확률적 혼합 모델링(probabilistic mixture modeling)

데이터가 k 개의 확률 분포 𝐺_1~ 𝐺_𝐾 에서 생성되었다고 가정

α_𝑟은 prior 확률을 의미하고, 직관적으로 표현하면 mixture component r로부터 생성된 데이터의 비율을 의미한다 k 개의 확률 분포 𝐺_1~ 𝐺_𝐾들의 파라미터와 α_𝑟 들은 데이터 기반으로 학습된다

→어떻게? 데이터가 maximum likelihood를 갖도록! = 데이터가 생성될 가능성이 최대가 되도록 𝐺의 가장 일반적인 형태는 Gaussian(가우시안) 분포이다

식 (2.24): 모델 M에 대한 데이터셋 D의 log-likelihood fit. 데이터셋 D의 log-likelihood fit. (2.23)식에 log만 씌운 것

모델의 파라미터를 결정하기 위해서 log-likelihood를 최적화, 즉 모델에 대한 데이터 포인트의 적합을 최대화해야 한다.

수치적인 편리함때문에 단순 likelihood보다 log likelihood가 선호된다.

데이터가 mixture의 어떤 분포에서 생성되었는지 알고있다면 모델 파라미터 결정하기 쉽다. → 모델 파라미터에 따라서 데이터들이 생성될 확률이 달라진다. → …

이러한 종속성의 순환성을 이용해서 모델 파라미터(분포)와 데이터 포인트의 할당을 반복적으로 이루어지고 추정되는 EM 알고리즘이 제안되었다.

1. E-step: Expectation; 각 데이터에 분포를 부여하는 과정

Θ에 있는 파라미터의 현재 값이 주어지면, Xj가 r번째 성분에 의해 생성된 posterior 확률 P(Xj|Gr, Θ)을 결정한다. 이 계산은 모든 포인트-성분 쌍(Xj, Gr)에 대해 수행된다.

단순히 mixture의 각 성분에 의해 생성되는 데이터 포인트 Xj의 확률 밀도를 계산한 다음, 각 성분에 대한 분수 값을 계산한다.

2. M-step: Maximization; 모델 파라미터를 다시 계산하는 과정

클러스터에 대한 데이터 포인트 할당의 현재 확률이 주어지면 maximum likelihood 방식을 사용하여 모든 파라미터 Θ의 값을 결정한다. 즉, 현재 할당을 기반으로 maximum likelihood를 최대화

Outlier Analysis - ch6.5정리 (0)	2022.10.26
확률공부(4) - Random Variable, CDF (0)	2022.10.24
확률공부(3) - Conditional Independence, Borel-Cantelli Lemma (0)	2022.10.24
확률공부(2) - Independence, 조건부 확률, total probability (0)	2022.10.24
확률공부(1) - Probability space, Set(집합) (0)	2022.10.24

mystudynote