이것저것 공부

Outlier Analysis - ch6.5정리

jiheek 2022. 10. 26. 21:07

6.5 Flying Blind with Bias Reduction

바이어스(=편향) 감소는 outlier detection에서 매우 어려운 문제이다. 편향은 모델의 잘못된 가정으로 인한 모델의 고유한 오류로 볼 수 있다. 식 6.12의 첫 번째 항은 (제곱) 편향에 해당한다.

expected MSE 식

Classification에서 편향 감소 방법의 고전적인 예는 boosting이다. 입력 데이터에 대한 분류기의 정확도는 이후 반복에서 가중치를 순차적으로 재조정하는 데 사용된다. 특히, 잘못 분류된 예의 가중치가 증가한다.(에러가 높기 때문에!) 잘못 분류된 예를 결정하려면 기본 레이블에 대한 지식이 필요하다.

이 과정은 전체 훈련 데이터가 완전한 정확도로 분류될 때까지 계속된다. 그러나 이와 유사한 방법은 outlier detection에서 구성하기 힘들다. 이는 ground truth 값을 사용하는 것이 중요하기 때문이다. 그럼에도 불구하고 제한된 양의 편향 감소가 경험적 방법으로 달성될 수 있다. 우리는 이러한 방법이 분산 감소 방법과 비교하여 성능에 훨씬 더 큰 불확실성이 첨부되어 있다. 이는 부분적으로 이러한 기술이 실제 사실을 알고리즘의 출력으로 대체하고 이를 기반으로 알고리즘에 대한 설계 선택을 하는 데 내재된 순환성이 있기 때문이다.

 

6.5.1 Bias Reduction by Data-Centric Pruning

outlier detection 알고리즘을 개선하기 위해 자주 사용되는 기법 중 하나는 iterative outlier removal이다. 이 경우의 기본 아이디어는 모든 outlier detection 방법이 점수를 추정하기 위해 모델이 정규점에서 구성된다고 가정한다는 것이다. 따라서 훈련 데이터에서 outlier를 제거하면 이 가정의 정확성을 개선하는 데 도움이 될 수 있다(즉, 편향 개선).

 

ground-truth에 대한 지식을 사용할 수 없는데, 제거해야 할 점을 어떻게 알 수 있나? 여기서 기본 아이디어는 기본 분류기의 출력을 보수적으로 사용하여 후속 반복에서 outlier값을 제거할 수 있다는 것이다. "보수적"이라는 말은 포인트 제거에 대해 높은 기준을 설정했다는 뜻이다. 예를 들어, outlier 점수를 Z-값으로 변환하고 outlier를 제거하기 위해 Z-값에 대한 큰 임계값을 설정할 수 있다. 따라서 그림 6.6과 같이 outlier detection 알고리즘 A를 반복적으로 사용할 수 있다.

Iterative Outlier Removal

알고리즘은 Dcurrent라고 하는 삭제된 데이터 세트의 현재 버전을 유지하기 위해 기본 데이터 D에서 outlier을 연속적으로 정제하여 진행된다.

예를 들어, 단일 클래스 SVM 모델을 구성하려는 경우 데이터 Dcurent가 사용된다. 데이터 세트 D는 테스트 데이터로 사용되며 각 포인트는 모델에 의해 점수가 매겨진다. k-nearest neighbor detector가 사용되는 경우 D의 각 점은 Dcurrent의 k-nearest neighbor을 사용하여 점수가 매겨진다. 그 후, D에서 outlier을 제거하여 새 데이터 세트 Dcurrent를 생성한다. 이 과정은 outlier 세트가 연속적으로 정제됨에 따라 여러 번 반복된다. 최종적으로는 마지막 iteration에 의해 발견된 outlier가 최종 outlier로 보고된다.

 

M: outlier model

D_{current}: outlier가 제거된 현재 데이터셋

 

6.5.2 Bias Reduction by Model-Centric Pruning

모델 중심의 pruning 방법을 사용해서도 편향을 줄일 수 있다. 기본 아이디어는 전체 정확도를 향상시키기 위해 앙상블에서 부정확한 모델을 제거하는 것이다. 이 아이디어는 한 논문에서 제안된 SELECT 기법이다. 다시 식 6.12로 돌아가서, 첫 번째 항이 큰 모델을 제거하려고 한다. 하지만 실제로는 f(Xi bar)에 접근할 수 없다. 따라서 모델 중심 프루닝의 핵심 아이디어는 제거해야 하는 검출기를 결정하기 위해 실제 ground-true 값 f(Xi) 대신 강력한 앙상블 출력을 사용하는 것이다. 이 대체 값은 또한 pseudo ground truth라고도 한다. 계획의 효과가 pseudo ground truth의 정확성에 결정적으로 의존한다는 점은 주목할 만하다. 따라서 원래 모델 세트에서 최소한 합리적인 수의 기본 분류기는 정확해야 한다.

 

SELECT 체계의 기본 버전은 다음과 같다.

1. 다양한 검출기의 점수를 동일한 척도로 정규화한다. j번째 검출기에 대한 i번째 점의 정규화된 점수를 O(i, j)라고 표기한다.

2. 모든 앙상블에 대한 i번째 포인트의 평균 스코어(ai)를 위 식에 따라서 계산한다. m은 검출기의 총 개수를 의미한다.
3. pseudo ground truth와 상관관계(correlate)가 있는 분류기만 유지한다. 이 단계를 선택 단계라고 한다.
4. 남은 검출기의 합산 점수를 최종 점수로 보고한다. 이러한 조합 함수의 예로는 평균 또는 최대가 있으며, section 6.6에서 언급될 조합 방식 중 하나를 사용하면 된다.

 

세 번째 단계에서, pseudo ground truth와 상관관계(correlate)가 있는 분류기를 선택하는 방법이란? 먼저, 모든 검출기를 기반으로 global pseudo-ground-truth G를 계산한다. 이 artificial ground truth G는 모든 점에 대한 점수의 벡터이므로 각 점의 점수는 모든 분류기에 대한 평균 정규화 점수입니다.


3-(1). 검출기는 pseudo-ground truth G의 점수 벡터와 점수 벡터의 피어슨 상관 계수를 기반으로 정렬되고, ground-truth와 가장 상관관계가 있는 검출기는 empty set L에 추가되어 singleton ensemble을 만든다. 그 다음, 검출기는 L로 표시되는 현재 앙상블과의 상관 관계를 기반으로 L에 반복적으로 추가됩니다. L의 검출기로부터 각 포인트의 평균(정규화된) 점수가 계산됩니다. 나머지 검출기(즉, L에 없는 검출기)는 L에 있는 점수의 현재(정규화된) 평균과 피어슨 상관 관계에 따라 정렬됩니다. 이 순위 목록의 첫 번째 검출기를 L에 추가하여 프로세스를 반복합니다. 각 반복에서 , 또한 검출기를 추가하면 모든 검출기에서 L로 구성된 앙상블과 전역 의사 접지 진리 G의 상관 관계가 개선되는지 여부도 테스트됩니다. 상관 관계가 증가하면 전류 검출기가 추가됩니다. 그렇지 않으면 프로세스가 종료됩니다. 이 접근 방식을 수직 선택이라고 합니다.
수직 선택 방법은 상관 관계를 계산할 때 모든 점에 초점을 맞춥니다. 수평 선택 방법은 다양한 감지기 간의 관계를 계산하는 동안 변칙 지점에 더 큰 중요성을 부여합니다. 따라서 이 경우 점수 대신 점수의 이진 레이블이 사용됩니다. 일반적으로 점수에 대한 통계적 임계값은 이진 레이블을 생성할 수 있습니다. 모든 검출기의 점수 목록을 이진 레이블 목록으로 변환하기 위해 혼합 모델링 접근 방식(2장의 섹션 2.4.4 참조)이 사용됩니다. 각 outlier의 순위는 여러 감지기에서 계산됩니다. 많은(의사) ground-truth outlier 포인트의 순위가 매우 높은 감지기가 선택됩니다. 주문 통계에 기반한 방법은 이 선택에 대한 명확한 기준을 제공하는 데 사용됩니다. 자세한 내용은 [461]에서 확인할 수 있습니다. 수평 선택의 기본 개념은 상위 순위 포인트에서만 변칙이 선택되기 때문에 상위 포인트가 전체 목록보다 더 중요하다는 것입니다.

 

6.5.3 Combining Bias and Variance Reduction

다양한 방법을 사용하여 편향과 분산 감소를 결합할 수 있다. 이러한 기술 중 다수는 편향된 점 또는 치수 샘플링 방법을 사용한다.

 

1. 완전히 무작위화된 방법을 사용하는 대신 관련 부분 공간의 통계적 선택을 사용할 수 있다: 5장의 섹션 5.2.7 및 5.2.8에서 논의된 HiCS, OUTRES방법들! 이 두 기술은 부분 공간에서 다른 유형의 통계적 선택을 수행한다. 예를 들어, HiCS 방법은 불균일성에 대한 deviation 테스트를 기반으로 부분 공간을 미리 선택한다. 이 접근 방식을 사용하면 검출기가 outlier score를 sharpening시키도록 편향된다. 동시에 다양한 부분 공간의 점수가 평균화되고 편차도 감소한다.

 

2. 데이터 포인트가 outlier일 수 있는 계산된 확률로 서브샘플링 접근 방식을 편향시킬 수 있다. 다시 말해, outlier 값으로 점수가 매겨진 데이터 포인트가 다음 하위 샘플에서 선택될 확률이 더 낮은 반복적 하위 샘플링 방식이 사용된다. 그런 다음 점수를 다양한 반복에 걸쳐 평균화하여 최종 결과를 제공한다.

 

편향 감소는 모델 조합의 마지막 단계에서도 달성할 수 있다. -> 다음 섹션에서 논의!