K 최근접 이웃 플랫폼 개요K 최근접 이웃 플랫폼은 k개의 최근접 이웃의 반응을 기반으로 반응 값을 예측합니다. 주어진 관측값에 대한 k개의 최근접 이웃은 해당 관측값에 대한 예측 변수 값과 다른 각 관측값에 대한 예측 변수 값 사이의 최소 유클리드 거리 k개를 식별하여 결정됩니다. K 최근접 이웃 플랫폼에서는 연속형 반응과 범주형 반응을 모두 모델링합니다.
K 최근접 이웃 방법은 대규모 문제의 경우 예측 계산식이 복잡하고 해석하기 어려워 유용성이 제한될 수 있다는 단점을 가지고 있습니다. 또한 K 최근접 이웃 방법은 범주형 반응에 대한 확률을 계산하지 않습니다. K 최근접 이웃 방법에 대한 자세한 내용은 Hastie et al. (2009), Hand et al. (2001) 및 Shmueli et al. (2017) 연구 자료에서 확인하십시오.
연속형 반응의 경우 예측값은 k개의 최근접 이웃에 대한 반응의 평균입니다. 각 연속형 예측 변수는 표준편차로 척도화됩니다. 이 척도를 사용하면 범위가 큰 단일 예측 변수가 거리 계산에 과도하게 영향을 미치지 않습니다. 연속형 예측 변수의 결측값은 해당 예측 변수의 평균으로 대체됩니다. 자세한 내용은 연속형 반응이 있는 K 최근접 이웃의 예에서 확인하십시오.
범주형 반응의 경우 예측값은 k개의 최근접 이웃에 대해 가장 빈도가 높은 반응 수준입니다. 둘 이상의 수준이 가장 빈도가 높은 수준으로 묶여 있으면 이러한 수준 중 하나를 랜덤 선택하여 예측 반응이 할당됩니다.
참고: 범주형 반응의 경우 가장 빈도가 높은 수준에 대한 동점 연결이 무작위로 끊어지기 때문에 각 플랫폼 실행 결과가 다를 수 있습니다. 재현 가능한 결과를 얻으려면 시작 창에서 "난수 시드값 설정" 옵션을 사용하거나 JSL 스크립트에 Set Random Seed() 함수를 포함하십시오.
범주형 예측 모형에서 각 범주형 예측 변수는 표시 변수로 표현되며, 이때 하나의 표시 변수가 각 수준을 나타냅니다. 범주형 예측 변수의 결측값이 있는 행은 해당 예측 변수에 대한 모든 표시 변수에서 값이 0으로 표시됩니다.