판별 분석텍스트 탐색기 플랫폼의 판별 분석에서는 DTM(문서 용어 행렬)의 열을 기준으로 그룹 또는 범주에서 각 문서의 소속을 예측합니다. 특히 판별 분석에서는 각 문서가 반응 열 범주로 분류되는지를 예측합니다. 판별 분석 옵션을 선택할 때는 범주 또는 그룹이 포함된 반응 열을 선택해야 합니다. 소속 그룹은 DTM의 열을 통해 예측됩니다. 판별 분석에 대한 자세한 내용은 다변량 방법의 판별 분석에서 확인하십시오.
텍스트 탐색기 플랫폼의 판별 분석 방법은 중심화된 DTM의 특이값 분해를 기반으로 합니다. 반응 열의 각 그룹에는 DTM을 중심화하는 데 사용되는 고유한 그룹 평균이 있습니다. 텍스트 탐색기 플랫폼의 판별 분석 방법은 DTM의 희소성을 활용하기 때문에 판별 분석 플랫폼보다 빠릅니다.
판별 분석 규격 창텍스트 탐색기 플랫폼의 "판별 분석" 옵션은 DTM(문서 용어 행렬)을 기반으로 합니다. DTM은 용어 목록에 있는 각 용어에 대한 열을 생성하여 구성됩니다("최대 용어 수"에 지정된 개수까지). 각 텍스트 문서(데이터 테이블의 행과 동등)는 DTM의 한 행에 해당합니다. DTM의 셀 값은 "규격" 창에서 사용자가 지정한 가중 유형에 따라 달라집니다.
텍스트 탐색기의 빨간색 삼각형 메뉴에서 "판별 분석"을 선택하면 다음 옵션이 포함된 "규격" 창이 나타납니다.
최대 용어 수
판별 분석에 포함되는 용어의 최대 개수입니다.
최소 용어 빈도
한 용어가 판별 분석에 포함되기 위해 충족해야 하는 최소 발생 횟수입니다.
가중치
문서 용어 행렬의 셀에 들어갈 값을 결정하는 가중치 체계입니다. 가중치 체계 옵션에 대한 자세한 내용은 문서 용어 행렬 규격 창에서 확인하십시오.
특이 벡터 수
판별 분석의 특이 벡터 수입니다. 기본값은 문서 수, 용어 수 또는 100 중 최소값입니다.
판별 분석 보고서텍스트 탐색기 플랫폼의 판별 분석 보고서에는 기본적으로 두 개의 열린 보고서, 즉 분류 요약 보고서와 판별 스코어 보고서가 포함됩니다. 다른 보고서는 처음에는 닫혀 있습니다.
판별 분석 보고서에는 다음 보고서가 포함됩니다.
용어 평균
판별 분석에 사용된 용어의 테이블을 제공합니다. 이러한 용어는 DTM의 열에 해당합니다. 이 테이블에는 각 용어에 대한 각 그룹 내의 평균과 각 용어의 전체 평균 및 가중 표준편차가 포함됩니다.
각 그룹에 대한 제곱 거리
각 문서에 대해 각 그룹까지의 Mahalanobis 거리를 제곱한 결과를 포함하는 테이블을 제공합니다. Mahalanobis 거리에 대한 자세한 내용은 다변량 방법의 이상치 분석에서 확인하십시오.
각 그룹에 대한 확률
문서가 각 그룹에 속할 확률이 포함된 테이블을 제공합니다.
분류 요약
판별 스코어를 요약한 보고서를 제공합니다. 이 보고서는 판별 분석 플랫폼 보고서의 "스코어 요약" 보고서에 해당합니다.
판별 스코어
각 문서 및 기타 지원 정보의 예측 분류 테이블을 제공합니다. 이 테이블은 판별 분석 플랫폼 보고서의 "판별 스코어" 테이블에 해당합니다.
판별 분석 보고서 옵션텍스트 탐색기 플랫폼에서 "판별 분석"의 빨간색 삼각형 메뉴에는 다음 옵션이 포함되어 있습니다.
정준 그림
정준 공간의 문서 및 그룹 평균 그림을 숨기거나 표시합니다. 정준 공간은 그룹을 가장 많이 나누는 공간입니다. 반응 변수의 수준이 세 개 이상인 경우에는 정준 좌표의 수를 지정해야 합니다. 정준 좌표를 세 개 이상 지정할 경우 이 옵션은 정준 그림 행렬을 생성합니다.
확률 저장
각 반응 수준에 대한 확률 열 및 최대 확률 분류 반응이 포함된 열을 데이터 테이블에 저장합니다. 최대 확률 분류 반응 열에는 모형에 따른 확률이 가장 높은 수준이 포함됩니다.
각 확률 열에서는 관측값이 해당 반응 수준에 속할 사후 확률을 제공합니다. "반응 확률" 열 특성은 각 확률 열에 저장됩니다. 반응 확률 열 특성에 대한 자세한 내용은 JMP 사용의 JMP의 열 특성에서 확인하십시오.
확률 계산식 저장
최대 확률 분류 반응을 예측하기 위한 계산식 열을 데이터 테이블에 저장합니다. 첫번째로 저장되는 열에는 Text Score() 함수를 사용하여 각 반응 수준의 확률을 계산하는 계산식이 포함됩니다. 각 반응 수준에 대한 확률을 포함하는 열뿐만 아니라 예측 반응을 포함하는 열도 있습니다.
정준 스코어 저장
각 관측값에 대해 정준 공간의 스코어가 포함된 열을 데이터 테이블에 저장합니다 정준 공간은 그룹을 가장 많이 나누는 공간입니다. k번째 정준 스코어의 열에는 정준<k>라는 이름이 지정됩니다.
제거
텍스트 탐색기 보고서 창에서 판별 분석 보고서를 제거합니다.