나이브 베이즈 플랫폼 개요나이브 베이즈 플랫폼에서는 관측값을 범주형 반응 변수의 수준에 의해 정의된 클래스로 분류합니다. 분류에 사용되는 변수 또는 요인을 데이터 마이닝 문헌에서는 흔히 피처라고 합니다.
나이브 베이즈 알고리즘은 각 클래스에 대해 각 피처 값이 발생하는 조건부 확률을 계산합니다. 피처가 연속형이면 조건부 주변 밀도가 추정됩니다. 나이브 베이즈 기법은 클래스 내에서 피처가 서로 독립적이라고 가정합니다. 이런 이유 때문에 이 기법을 "Naive"라고 합니다. 분류는 특정 클래스 내에서 피처 값의 조건부 확률이 높은 관측값이 해당 클래스에 속할 확률이 높다는 개념을 기반으로 합니다. 자세한 내용은 Hastie et al. (2009) 연구 자료에서 확인하십시오.
이 알고리즘은 1차원 밀도 또는 분포만 추정하므로 속도가 매우 빠릅니다. 따라서 큰 데이터 집합, 특히 피처 수가 많은 데이터 집합에 알맞습니다. 관측값에 대한 모든 비결측 피처 값은 조건부 확률을 계산하는 데 사용됩니다.
각 관측값에는 각 클래스에 대한 Naive 스코어가 할당됩니다. 지정된 클래스에 대한 관측값의 Naive 스코어는 해당 클래스에 속한 훈련 관측값의 비율에 관측값의 조건부 확률 곱을 곱한 값입니다. 관측값이 클래스에 속할 Naive 확률은 해당 클래스의 Naive 스코어를 모든 클래스의 Naive 스코어 합으로 나눈 값입니다. 관측값은 Naive 확률이 가장 높은 클래스에 할당됩니다.
주의: 클래스 소속의 조건부 확률은 독립적이라고 가정되므로 나이브 베이즈 추정 확률은 비효율적입니다.
나이브 베이즈를 사용하려면 모든 예측 변수 값과 클래스를 표현하기 위해 많은 수의 훈련 관측값이 필요합니다. 검증 데이터 집합의 관측값을 분류하는 중이고 해당 관측값에 훈련 데이터 집합에서 결측인 범주형 예측 변수 값이 있는 경우 플랫폼은 비결측 피처를 사용하여 예측합니다. 모든 예측 변수 값에 대해 관측값이 결측인 경우 예측 반응은 가장 빈도가 높은 반응입니다. 예측 계산식은 결측값을 관측값 스코어에 전혀 기여하지 않는 것으로 설정하여 결측값을 처리합니다.
나이브 베이즈 기법에 대한 자세한 내용은 Hand et al. (2001) 및 Shmueli et al. (2010)에서 확인하십시오.