결측값 탐색 플랫폼은 데이터의 결측값을 식별하고 파악할 수 있는 여러 가지 방법을 제공합니다.
결측값 탐색 플랫폼의 다변량 정규 대치법은 다변량 정규 분포를 기반으로 결측값을 대치합니다. 절차를 수행하려면 모든 변수의 모델링 유형이 연속형이어야 합니다. 이 알고리즘은 최소 제곱 대치법을 사용합니다. 공분산 행렬은 쌍별 공분산을 사용하여 구성됩니다. 대각 항목(분산)은 각 변수에 대한 모든 비결측 값을 사용하여 계산됩니다. 두 변수의 비대각 항목은 두 변수에 대해 비결측인 모든 관측값을 사용하여 계산됩니다. 공분산 행렬이 특이 행렬인 경우 이 알고리즘은 Moore-Penrose 유사역행렬을 기반으로 하는 최소-노름 최소 제곱 대치법을 사용합니다.
다변량 정규 대치법 옵션을 사용하면 공분산에 대한 축소 추정량을 사용할 수 있습니다. 축소 추정량 사용은 공분산 행렬의 추정을 개선할 수 있는 방법입니다. 축소 추정량에 대한 자세한 내용은 Schäfer and Strimmer(2005) 연구 자료에서 확인하십시오.
참고: 검증 열이 지정되면 훈련 데이터 집합의 관측값을 사용하여 공분산 행렬이 계산됩니다.
결측값 탐색 플랫폼의 다변량 SVD 대치법은 SVD(특이값 분해)를 사용하여 결측값을 대치합니다. 이 방법은 변수의 수가 수백 또는 수천 개인 데이터에 유용합니다. SVD 계산에는 공분산 행렬 계산이 필요하지 않으므로 변수가 많이 포함된 광범위한 문제의 경우 SVD 방법이 권장됩니다. 절차를 수행하려면 모든 변수의 모델링 유형이 연속형이어야 합니다.
특이값 분해는 관측값 행렬 X를 X = UDV¢로 나타냅니다. 여기서 U와 V는 직교 행렬이고 D는 대각 행렬입니다.
다변량 SVD 대치법에서 사용되는 SVD 알고리즘은 IRLBA(Implicitly Restarted Lanczos Bidiagonalization) 방법이라고도 하는 희소 Lanczos 방법입니다. 자세한 내용은 Baglama와 Reichel(2005) 연구 자료에서 확인하십시오. 다변량 SVD 대치법 알고리즘은 다음을 수행합니다.
1. 각 결측값이 해당 열의 평균으로 대체됩니다.
2. 관측값 행렬 X에 대해 SVD 분해가 수행됩니다.
3. 결측값이 있었던 각 셀이 SVD 분해를 통해 얻은 UDV¢ 행렬의 해당 요소로 대체됩니다.
4. SVD가 행렬 X로 수렴되거나 최대 반복 수에 도달할 때까지 2단계와 3단계를 반복합니다.
결측값 탐색 플랫폼의 다변량 로버스트 PCA 방법은 로버스트 주성분을 사용하여 결측값을 대치합니다. 즉, 이상치에 로버스트한 SVD(낮은 계수 행렬 분해)를 사용하여 결측값을 대체합니다. 이 방법은 이상치 탐색 플랫폼의 로버스트 PCA 이상치 방법에서 사용되는 것과 동일합니다. 자세한 내용은 로버스트 PCA 이상치에서 확인하십시오. 이 방법은 변수의 수가 많은 와이드 문제에 유용하지만 매우 큰 규모에서 계산 비용이 많이 들 수 있습니다. 절차를 수행하려면 모든 변수의 모델링 유형이 연속형이어야 합니다.
자동 데이터 결측값 대치결측값 탐색 플랫폼의 ADI(자동 데이터 결측값 대치) 방법은 행렬 완성이라고도 하는 낮은 계수 행렬 근사 방법을 사용하여 결측값을 대치합니다. 훈련된 ADI 모형은 스코어링 계산식을 통해 스트리밍 데이터에 대한 결측 데이터 대치를 수행할 수 있습니다. 스트리밍 데이터는 시간 경과에 따라 이용 가능해지고, 대치된 모형의 조정 또는 검증에 사용되지 않은 관측값 행이 추가된 것입니다. 이 방법은 낮은 계수 근사에 대한 최선의 차원을 선택할 수 있도록 유연하고, 로버스트하며, 자동화되었습니다. 이러한 기능을 통해 ADI가 다양한 유형의 데이터 집합에 대해 잘 작동할 수 있습니다.
행렬의 낮은 계수 근사는 X = UDV¢ 형식이며 SVD(특이값 분해)의 확장으로 간주할 수 있습니다. ADI는 Soft-Impute 방법을 결측값 대치 모형으로 사용하며, 데이터가 낮은 계수 근사의 순위를 결정하도록 되어 있습니다.
ADI 알고리즘은 다음 단계를 수행합니다.
1. 데이터가 훈련 데이터 집합과 검증 데이터 집합으로 분할됩니다.
2. 훈련 데이터 집합의 관측값을 사용하여 각 집합이 중심화 및 척도화됩니다.
3. 분할된 각 데이터 집합에 대해 IM(유도된 결측값)이라고 하는 추가 결측값이 각 열 내에 더해집니다.
4. 조정 모수의 해 경로를 따라 결측값 대치 모형이 훈련 데이터 집합에 대해 적합됩니다. IM 값은 조정 모수의 최량 값을 결정하는 데 사용됩니다.
5. step 4에서 선택한 결측값 대치 모형 결과의 편향을 제거하여 훈련 데이터 집합을 사용한 순위 축소가 추가로 수행됩니다.
6. 스트리밍 데이터에 대한 모형을 보정하고 과대적합을 방지하기 위해 최종 순위 축소가 수행됩니다. step 5에서 결정된 순위를 상한으로 사용하고 검증 데이터 집합에 대해 결측값 대치 모형을 적합시켜 이 작업을 완료합니다.
참고: "자동 데이터 결측값 대치" 옵션을 사용하려면 열에 해당 열의 값을 대치할 비결측 값이 두 개 이상 포함되어 있어야 합니다. 이 알고리즘으로 낮은 계수 근사를 찾을 수 없으면 연속형 변수의 경우 평균이 대치되고 범주형 변수의 경우 최빈값이 대치됩니다. 이러한 값은 훈련 데이터 집합에서 계산됩니다.