이것저것 공부

Mixture Model(혼합 모델), Outlier Analysis

jiheek 2022. 10. 11. 20:41

Outlier Analysis by Charu C.Aggarwal - Chapter 2.4 정리

 

Probabilistic Mixture Modeling for Outlier Analysis

이전 내용까지는 extreme value analysis를 사용해서 outlier modeling을 했다.

간단한 Mahalanobis 방법은 전체 데이터 세트가 평균에 대해 하나의 큰 클러스터(그림 2.7)에 분포되어 있었기 때문에 extreme value analysis가 효과적이었다.

하지만 방향이 다른 여러 클러스터(그림 2.1)로 구성된 데이터의 경우에는 효과적이지 않을 수 있다. 따라서 이런 경우에는 보다 일반적인 분포 기반 모델링 알고리즘이 필요하다.

확률적 혼합 모델링(probabilistic mixture modeling)

 

혼합 모델(Mixture Model)

  • 혼합 모델은 데이터에서 관찰되지 않은(잠재된) 하위 집단을 식별하는데 사용되는 확률 모델이다.
  • 일반적으로 정규 분포의 조합으로 비정규 데이터를 나타낸다.(가우시안 혼합 모델)

 

혼합 모델의 기본 동작

데이터가 k 개의 확률 분포 𝐺_1~ 𝐺_𝐾 에서 생성되었다고 가정

  1. 확률이 α_𝑟인 r번째 확률 분포 선택
  2. 𝐺_𝑟 로부터 데이터 포인트 생성

α_𝑟은 prior 확률을 의미하고, 직관적으로 표현하면 mixture component r로부터 생성된 데이터의 비율을 의미한다 k 개의 확률 분포 𝐺_1~ 𝐺_𝐾들의 파라미터와 α_𝑟 들은 데이터 기반으로 학습된다

→어떻게? 데이터가 maximum likelihood를 갖도록! = 데이터가 생성될 가능성이 최대가 되도록 𝐺의 가장 일반적인 형태는 Gaussian(가우시안) 분포이다

 

  • 식 (2.22): 𝐺_𝑟 의 밀도 함수가 𝑓로 주어졌다고 가정할 때, 모델에 의해 생성되는 데이터 포인트 𝑋_𝑗 의 확률

 

  • 식 (2.23): 모델 M에 의해 생성되는 데이터의 확률 = 데이터가 모델 M으로부터 생성되었을 확률

  • 식 (2.24): 모델 M에 대한 데이터셋 D의 log-likelihood fit. 데이터셋 Dlog-likelihood fit. (2.23)식에 log만 씌운 것

모델의 파라미터를 결정하기 위해서 log-likelihood를 최적화, 즉 모델에 대한 데이터 포인트의 적합을 최대화해야 한다.

수치적인 편리함때문에 단순 likelihood보다 log likelihood가 선호된다.

 

혼합 모델에서 종속성의 순환성: EM 알고리즘

데이터가 mixture의 어떤 분포에서 생성되었는지 알고있다면 모델 파라미터 결정하기 쉽다. → 모델 파라미터에 따라서 데이터들이 생성될 확률이 달라진다. → …
  • 이러한 종속성의 순환성을 이용해서 모델 파라미터(분포)와 데이터 포인트의 할당을 반복적으로 이루어지고 추정되는 EM 알고리즘이 제안되었다.

1. E-step: Expectation; 각 데이터에 분포를 부여하는 과정

Θ에 있는 파라미터의 현재 값이 주어지면, Xj가 r번째 성분에 의해 생성된 posterior 확률 P(Xj|Gr, Θ)을 결정한다. 이 계산은 모든 포인트-성분 쌍(Xj, Gr)에 대해 수행된다.

단순히 mixture의 각 성분에 의해 생성되는 데이터 포인트 Xj의 확률 밀도를 계산한 다음, 각 성분에 대한 분수 값을 계산한다.

 

2. M-step: Maximization; 모델 파라미터를 다시 계산하는 과정

클러스터에 대한 데이터 포인트 할당의 현재 확률이 주어지면 maximum likelihood 방식을 사용하여 모든 파라미터 Θ의 값을 결정한다. 즉, 현재 할당을 기반으로 maximum likelihood를 최대화