발행일 : 03/10/2025

로버스트 PCA 이상치

이상치 탐색 플랫폼의 로버스트 PCA 이상치 방법을 사용하여 상관된 다변량 데이터에서 이상치 셀을 식별할 수 있습니다. 다른 많은 다변량 방법은 이상치 행만 식별하므로 이 방법이 유용합니다. 이 방법을 데이터에 적용하기 전에 먼저 열을 중심화 및 척도화할 수 있습니다. 척도 인수는 다음과 같이 정의됩니다.

max [Q(0.75) - Q(0.50), Q(0.50) - Q(0.25)]/[정규 분위수(0.75)]

다음은 각 요소에 대한 설명입니다.

Q(p)는 p번째 분위수입니다.

참고: Q(0.75) 또는 Q(0.25)가 중앙값과 같으면 0이 아닌 범위가 될 때까지 더 극단적인 분위수가 사용됩니다.

데이터 중심화 및 척도화가 완료되면 로버스트 PCA 이상치 방법에서 특이값 분해 및 임계 지정 단계를 순차적으로 수행하여 데이터 행렬을 분해합니다. 데이터는 낮은 계수 행렬과 잔차 희소 행렬로 분해됩니다. 임계값은 잔차가 이상치에 대해 매우 크거나 이상치가 아닌 경우 0에 매우 가깝도록 지정됩니다. 이 알고리즘은 이상치나 작은 잡음 없이 체계적인 변동을 포착하는 데 적절한 행렬 계수를 결정합니다. 낮은 계수 공간에 없는 이상치는 잔차를 기반으로 감지됩니다. 자세한 내용은 Candes et al(2009) 및 Lin et al(2013) 연구 자료에서 확인하십시오. 결측값이 있는 경우 처음에는 중심화 및 척도화 단계 후에 0으로 대체됩니다. 그런 다음 각 SVD(특이값 분해) 반복 후 SVD의 예측값으로 결측값이 업데이트됩니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).