발행일 : 03/10/2025

저장 옵션

텍스트 탐색기의 빨간색 삼각형 메뉴에는 데이터 테이블, 테이블 열 및 열 특성에 정보를 저장하기 위한 다음 옵션이 포함되어 있습니다.

문서 용어 행렬 저장

문서 용어 행렬의 각 열에 해당하는 열을 데이터 테이블에 저장합니다(지정된 최대 용어 수까지).

Image shown here연관성을 위해 쌓인 형식의 DTM 저장

쌓인 형식의 문서 용어 행렬을 JMP 데이터 테이블에 저장합니다. 쌓인 형식은 연관성 분석 플랫폼의 분석에 적합합니다. 자세한 내용은 예측 및 전문 모델링연관성 분석에서 확인하십시오. 텍스트 탐색기 시작 창에서 ID 변수를 지정하면 원래 텍스트 데이터 테이블에서 각 용어가 있던 행을 식별하는 데 ID 변수가 사용됩니다. 쌓인 테이블에는 연관성 분석을 시작하기 위한 테이블 스크립트도 포함됩니다.

DTM 계산식 저장

벡터 모델링 유형의 계산식 열을 데이터 테이블에 저장합니다. 벡터의 길이는 최대 용어 수, 최소 용어 빈도 및 가중치에 대해 사용자가 지정한 옵션에 따라 달라집니다. 결과 열에는 Text Score() JSL 함수가 사용됩니다. 이 함수에 대한 자세한 내용은 도움말 > 스크립트 인덱스에서 확인하십시오.

용어 테이블 저장

용어 목록의 각 용어, 발생 횟수 및 각 용어가 포함된 문서 수를 보여 주는 데이터 테이블을 생성합니다. "용어 테이블 저장"을 선택한 후 "열을 기준으로 용어 스코어링" 옵션을 선택하면 용어별 스코어가 포함된 열이 "용어 테이블 저장" 옵션으로 생성한 데이터 테이블에 추가됩니다.

열을 기준으로 용어 스코어링

지정된 열의 값을 기준으로 한 스코어를 "용어 테이블 저장" 옵션으로 생성된 JMP 데이터 테이블에 저장합니다. 각 용어의 스코어는 지정된 열에 대한 평균 값으로, 이 값은 각 행에서 해당 용어가 나타나는 횟수를 기준으로 가중치를 부여한 값입니다. "용어 테이블 저장" 옵션을 이미 선택한 경우 "열을 기준으로 용어 스코어링" 옵션은 "용어 테이블 저장" 옵션으로 생성된 데이터 테이블에 스코어를 포함하는 열을 추가합니다. 그렇지 않은 경우에는 용어 테이블에 대한 JMP 데이터 테이블이 생성됩니다. 지정된 열이 연속형이 아니면 지정된 열의 각 수준에 대한 스코어를 포함하는 열이 생성됩니다.

문서 용어 행렬 규격 창

텍스트 탐색기의 빨간색 삼각형 메뉴에서 "문서 용어 행렬 저장" 및 "DTM 계산식 저장" 옵션을 선택하면 다음 옵션이 포함된 문서 용어 행렬 "규격" 창이 나타납니다.

최대 용어 수

문서 용어 행렬에 포함되는 용어의 최대 개수입니다.

최소 용어 빈도

한 용어가 문서 용어 행렬에 포함되기 위해 충족해야 하는 최소 발생 횟수입니다.

가중치

문서 용어 행렬의 셀에 들어갈 값을 결정하는 가중치 체계입니다.

"가중치"에는 다음 옵션을 사용할 수 있습니다.

이진

각 문서에서 용어가 나오면 1을 할당하고, 그렇지 않으면 0을 할당합니다. SVD 분석이 이전에 실행되었던 경우를 제외하고는 이 가중 방법이 기본값입니다.

삼진

각 문서에서 용어가 두 번 이상 나오면 2를 할당하고, 한 번만 나오면 1을 할당하며, 나오지 않으면 0을 할당합니다.

빈도

각 문서에서의 용어 발생 횟수를 할당합니다.

로그 빈도

log10(1 + x)를 할당합니다. 여기서 x는 각 문서에서 용어의 발생 횟수입니다.

TF IDF

TF * log10(nDoc/nDocTerm)을 할당합니다. 용어 빈도 - 문서 빈도 역수(term frequency - inverse document frequency)의 약어입니다. 이 옵션이 SVD 분석의 기본 가중치 옵션입니다. 계산식의 항은 다음과 같이 정의됩니다.

TF = 문서 내 용어 빈도

nDoc = 말뭉치 내 문서 수

nDocTerm = 해당 용어를 포함하는 문서의 수

참고: SVD 분석을 실행한 후 "문서 용어 행렬 저장" 또는 "DTM 계산식 저장"을 선택하면 "규격" 창에 가장 최근의 SVD 분석 규격이 포함됩니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).