"결측값 탐색" 보고서에는 명령 섹션, 결측 열 보고서 및 결측값 대치 보고서(결측값 대치법이 선택된 경우)가 포함됩니다. "명령" 섹션에는 추가 보고서 및 결측값 대치법에 대한 몇 가지 옵션이 포함되어 있습니다.
• 명령
결측값 보고서
각 열의 이름과 해당 열의 결측값 수를 나열하는 "결측 열" 보고서를 표시합니다. "결측 열" 보고서에는 다음 옵션도 포함되어 있습니다.
결측값을 포함하는 열만 표시
결측값이 없는 열을 목록에서 제거합니다.
닫기
"결측 열" 보고서를 닫습니다.
행 선택하기
데이터 테이블에서 "결측 열" 보고서에서 선택한 열의 결측값이 포함된 행을 선택합니다.
행 제외
데이터 테이블에서 "결측 열" 보고서에서 선택한 열의 결측값이 포함된 행에 "제외" 행 상태를 적용합니다.
셀에 색상 적용
데이터 테이블에서 "결측 열" 보고서에서 선택한 열의 결측값이 포함된 셀에 색상을 적용합니다.
행에 색상 적용
데이터 테이블에서 "결측 열" 보고서에서 선택한 열의 결측값이 포함된 행에 색상을 적용합니다.
"결측 열" 보고서를 제거하려면 "닫기" 버튼을 클릭합니다.
결측값 군집화
결측 데이터의 계층적 군집화 분석을 제공합니다. 보고서에는 그림과 두 개의 덴드로그램이 포함되어 있습니다. 그림의 행은 결측 데이터 패턴으로 정의되며 각 패턴에 대한 행이 있습니다. 열은 변수에 해당합니다. 빨간색 각 셀은 그림 아래에 나열된 열의 결측값 그룹을 나타냅니다. 셀을 커서로 가리키면 표시된 값 목록을 볼 수 있습니다. 그림을 클릭하면 결측 데이터 패턴 행이 선택됩니다. 선택된 패턴을 나타내는 세로 막대가 표시됩니다.
– 그림 오른쪽의 덴드로그램에는 결측 데이터 패턴 행의 군집이 표시됩니다. 이러한 행은 테이블 > 결측 데이터 패턴을 사용하여 얻을 수 있습니다.
– 그림 아래의 덴드로그램에는 변수 군집이 표시됩니다.
이 보고서를 사용하여 특정 열 그룹의 결측값 패턴이 비슷한지 여부를 확인할 수 있습니다. "결측값 군집화" 보고서를 제거하려면 "닫기" 버튼을 클릭합니다.
결측값 스냅샷
결측값에 대한 셀 그림을 표시합니다. 열은 변수를 나타냅니다. 검은색 셀은 결측값을 나타냅니다. 이 그림은 데이터 수집 기간이 끝나기 전에 피실험자가 연구에서 빠질 수 있는 종단 데이터의 결측을 이해하는 데 특히 유용합니다. "결측값 스냅샷" 보고서를 제거하려면 "닫기" 버튼을 클릭합니다.
다변량 정규 대치법
(변수의 모델링 유형이 연속형인 경우에만 사용 가능) 비결측 열에서 최소 제곱 예측을 사용하여 결측값을 대치합니다. 축소 옵션을 사용하여 공분산 행렬 추정을 향상시킬 수 있습니다.
주의: 열의 수가 수백 개인 경우에는 이 방법을 사용하지 마십시오.
다변량 SVD 대치법
(변수의 모델링 유형이 연속형인 경우에만 사용 가능) 반복된 낮은 계수 SVD 행렬 완성 방법을 사용하여 큰 문제에 대해 빠르게 결측값을 대치합니다. "다변량 SVD 대치법"을 클릭하면 "결측값 대치법" 창에 조정 가능한 권장 설정이 표시됩니다.
특이 벡터 수
계산된 후 결측값 대치에 사용되는 특이 벡터의 수입니다.
참고:특이 벡터를 너무 많이 지정하지 않아야 합니다. 그렇지 않으면 반복되는 동안 SVD와 결측값 대치가 변하지 않습니다.
최대 반복 수
결측값 대치에 사용되는 반복 수입니다.
반복 로그 표시
반복 횟수를 표시하고 기준에 대한 정보를 제공하는 "상세 정보" 보고서를 엽니다.
규모가 큰 문제의 경우 SVD가 완료된 차원 수를 보여 주는 진행률 표시줄이 나타납니다. 언제든지 결측값 대치를 중지하고 해당 차원 수를 사용할 수 있습니다.
다변량 RPCA 대치법
(변수의 모델링 유형이 연속형인 경우에만 사용 가능) 로버스트 주성분을 사용하여 결측값을 대치합니다. 즉, 이상치에 로버스트한 낮은 계수 행렬 분해를 사용하여 결측값을 대체합니다.
팁: 이 방법은 변수의 수가 많은 와이드 문제에 유용합니다.
자동 데이터 결측값 대치
낮은 계수 행렬 근사 방법을 사용하여 결측값을 대치합니다. 이 방법은 데이터를 기반으로 낮은 계수 근사에 대한 최선의 차원을 자동으로 선택합니다. 이 방법을 선택하기 전에 대치된 값 저장 옵션 및 기타 고급 컨트롤을 지정할 수 있습니다.
새 데이터 테이블 생성
원래 데이터 테이블과 동일한 차원의 새 데이터 테이블을 생성합니다. 새 데이터 테이블에는 시작 창에서 선택한 열에 대치된 값이 포함됩니다.
스코어링 계산식을 현재 데이터 테이블에 저장
시작 창에 지정한 대치된 열을 포함하는 결측값 대치됨 열 그룹을 현재 데이터 테이블에 저장합니다. ADI 결측값 대치 열이라는 숨겨진 열도 현재 데이터 테이블에 추가됩니다. 이 열에는 데이터 결측값 대치에 사용된 스코어링 계산식과 대치된 벡터가 포함됩니다. 데이터 테이블에 행이 추가되면 열 계산식이 자동으로 업데이트되므로 스트리밍 데이터에 대한 결측 데이터 대치가 가능합니다. 이 옵션이 기본 설정입니다.
현재 위치에서 결측값 대치
현재 데이터 테이블에서 결측값을 대치합니다. 대치된 값은 연한 파란색으로 표시됩니다.
결측값 정보화 열 포함
("스코어링 계산식을 현재 데이터 테이블에 저장"을 선택한 경우에만 사용 가능) 시작 창에 지정된 각 대치 열에 대해 Imputed_ 열 그룹에 추가 표시자 열을 추가합니다. 이 열은 대치된 각 Y 열에 대해 각 행이 결측인지 여부를 지정합니다.
차원 상한
낮은 계수 근사에 허용되는 최대 순위를 결정합니다. 기본값은 선택한 열로 구성되는 행렬의 차원에 의해 결정됩니다.
최대 반복 수
결측값 대치 모형의 조정 모수를 결정하기 위해 반복되는 값의 수를 결정합니다. 기본값은 10입니다.
결측값으로 유도할 관측값 비율
훈련 및 검증 데이터 집합에 추가되는 IM 값의 비율을 결정합니다. 각 집합에 대한 기본 비율은 0.2입니다.
검증에 사용할 행 비율
훈련 및 검증 데이터 집합에 사용할 행 비율을 결정합니다. 검증 데이터 집합에 대한 기본 비율은 0.3입니다.
난수 시드값 설정
ADI에 사용할 난수 시드값을 결정합니다. 재현 가능한 결과를 얻으려면 이 옵션을 사용합니다.
팁: 기준 변수의 모든 수준에서 결측값 명령을 실행하려면 Ctrl 키를 누른 채 원하는 명령 버튼을 클릭합니다.
결측값 대치법 중 하나를 선택하면 "결측값 탐색" 보고서 창에 "결측값 대치 보고서"도 포함됩니다. 결측값 대치 보고서에는 선택한 대치법 프로세스의 결과가 설명됩니다. 선택한 방법에 따라 다음 결과가 포함됩니다.
• 대체된 결측값 수
• 선택한 결측값 대치법 및 선택한 방법에 대한 상세 정보
• 영향을 받은 행과 열의 수
• (다변량 정규 대치법에만 해당) 발견된 다양한 결측값 패턴의 수
• 데이터 테이블에서 대치된 값의 색상
• (다변량 RPCA 대치법에만 해당) "상세 정보" 보고서에 반복 수, 행렬의 계수, 수렴 기준 값 및 척도화된 절대 잔차의 최대값이 표시됩니다.
결측값 대치가 완료되면 데이터 테이블에서 대치된 값에 해당하는 셀에 색상이 지정됩니다. "결측 열" 보고서가 열려 있는 경우 결측값을 표시하지 않도록 업데이트됩니다.
결측값 대치를 취소하고 대치된 데이터를 결측값으로 바꾸려면 실행 취소를 클릭합니다.