Outlier Analysis by Charu C.Aggarwal - Chapter 2.4 정리
Probabilistic Mixture Modeling for Outlier Analysis
이전 내용까지는 extreme value analysis를 사용해서 outlier modeling을 했다.
간단한 Mahalanobis 방법은 전체 데이터 세트가 평균에 대해 하나의 큰 클러스터(그림 2.7)에 분포되어 있었기 때문에 extreme value analysis가 효과적이었다.
하지만 방향이 다른 여러 클러스터(그림 2.1)로 구성된 데이터의 경우에는 효과적이지 않을 수 있다. 따라서 이런 경우에는 보다 일반적인 분포 기반 모델링 알고리즘이 필요하다.
⇒ 확률적 혼합 모델링(probabilistic mixture modeling)
혼합 모델(Mixture Model)
- 혼합 모델은 데이터에서 관찰되지 않은(잠재된) 하위 집단을 식별하는데 사용되는 확률 모델이다.
- 일반적으로 정규 분포의 조합으로 비정규 데이터를 나타낸다.(가우시안 혼합 모델)
혼합 모델의 기본 동작
데이터가 k 개의 확률 분포 𝐺_1~ 𝐺_𝐾 에서 생성되었다고 가정
- 확률이 α_𝑟인 r번째 확률 분포 선택
- 𝐺_𝑟 로부터 데이터 포인트 생성
α_𝑟은 prior 확률을 의미하고, 직관적으로 표현하면 mixture component r로부터 생성된 데이터의 비율을 의미한다 k 개의 확률 분포 𝐺_1~ 𝐺_𝐾들의 파라미터와 α_𝑟 들은 데이터 기반으로 학습된다
→어떻게? 데이터가 maximum likelihood를 갖도록! = 데이터가 생성될 가능성이 최대가 되도록 𝐺의 가장 일반적인 형태는 Gaussian(가우시안) 분포이다
- 식 (2.22): 𝐺_𝑟 의 밀도 함수가 𝑓로 주어졌다고 가정할 때, 모델에 의해 생성되는 데이터 포인트 𝑋_𝑗 의 확률
- 식 (2.23): 모델 M에 의해 생성되는 데이터의 확률 = 데이터가 모델 M으로부터 생성되었을 확률
- 식 (2.24): 모델 M에 대한 데이터셋 D의 log-likelihood fit. 데이터셋 D의 log-likelihood fit. (2.23)식에 log만 씌운 것
모델의 파라미터를 결정하기 위해서 log-likelihood를 최적화, 즉 모델에 대한 데이터 포인트의 적합을 최대화해야 한다.
수치적인 편리함때문에 단순 likelihood보다 log likelihood가 선호된다.
혼합 모델에서 종속성의 순환성: EM 알고리즘
데이터가 mixture의 어떤 분포에서 생성되었는지 알고있다면 모델 파라미터 결정하기 쉽다. → 모델 파라미터에 따라서 데이터들이 생성될 확률이 달라진다. → …
- 이러한 종속성의 순환성을 이용해서 모델 파라미터(분포)와 데이터 포인트의 할당을 반복적으로 이루어지고 추정되는 EM 알고리즘이 제안되었다.
1. E-step: Expectation; 각 데이터에 분포를 부여하는 과정
Θ에 있는 파라미터의 현재 값이 주어지면, Xj가 r번째 성분에 의해 생성된 posterior 확률 P(Xj|Gr, Θ)을 결정한다. 이 계산은 모든 포인트-성분 쌍(Xj, Gr)에 대해 수행된다.
단순히 mixture의 각 성분에 의해 생성되는 데이터 포인트 Xj의 확률 밀도를 계산한 다음, 각 성분에 대한 분수 값을 계산한다.
2. M-step: Maximization; 모델 파라미터를 다시 계산하는 과정
클러스터에 대한 데이터 포인트 할당의 현재 확률이 주어지면 maximum likelihood 방식을 사용하여 모든 파라미터 Θ의 값을 결정한다. 즉, 현재 할당을 기반으로 maximum likelihood를 최대화
'이것저것 공부' 카테고리의 다른 글
Outlier Analysis - ch6.5정리 (0) | 2022.10.26 |
---|---|
확률공부(4) - Random Variable, CDF (0) | 2022.10.24 |
확률공부(3) - Conditional Independence, Borel-Cantelli Lemma (0) | 2022.10.24 |
확률공부(2) - Independence, 조건부 확률, total probability (0) | 2022.10.24 |
확률공부(1) - Probability space, Set(집합) (0) | 2022.10.24 |