분석 > 텍스트 탐색기를 선택하여 텍스트 탐색기 플랫폼을 시작할 수 있습니다.
그림 12.6 텍스트 탐색기 시작 창
"열 선택"의 빨간색 삼각형 메뉴에 포함된 옵션에 대한 자세한 내용은 JMP 사용의 열 필터 메뉴에서 확인하십시오. 텍스트 탐색기 시작 창에는 다음 옵션이 포함되어 있습니다.
텍스트 열
텍스트 데이터가 포함된 열을 할당합니다. 여러 열을 지정하면 각 열에 대해 별도의 분석이 생성됩니다.
검증
JMP Pro에서는 검증 열을 입력할 수 있습니다. "열 선택" 목록에서 아무 열도 선택하지 않은 상태로 "검증" 버튼을 클릭하면 데이터 테이블에 검증 열을 추가할 수 있습니다. "검증 열 생성" 유틸리티에 대한 자세한 내용은 예측 및 전문 모델링의 검증 열 생성에서 확인하십시오.
검증 열을 지정해도 문서 용어 행렬의 계산에는 영향이 없습니다. 하지만 검증 열이 지정된 경우에는 "잠재 계층 분석", "잠재 의미 분석", "주제 분석" 및 "판별 분석" 옵션에 훈련 데이터 집합만 사용됩니다. 검증 열은 "용어 선택" 옵션에 대한 일반화 회귀 검증 방법으로 사용됩니다.
ID
"연관성을 위해 쌓인 형식의 DTM 저장" 출력 데이터 테이블에서 개별 응답자를 식별하는 데 사용되는 열을 할당합니다. 이 출력 데이터 테이블은 연관성 분석에 적합합니다. 이 열은 "잠재 계층 분석" 보고서에서 개별 응답자를 식별하는 데도 사용됩니다.
기준
변수의 각 수준에 대한 개별 분석으로 구성된 보고서를 생성하는 열을 식별합니다. 기준 변수가 둘 이상 할당되면 기준 변수의 가능한 각 수준 조합에 대해 개별 보고서가 생성됩니다.
참고: 기준 변수를 지정하는 경우 기준 변수의 모든 수준에 "정규 표현식 사용자 정의" 옵션 및 설정이 적용됩니다.
언어
텍스트 처리에 사용되는 언어를 지정합니다. 이는 어간 추출과 중지 단어, 재코딩 및 구의 기본 제공 목록에 영향을 줍니다. 이 옵션은 JMP 실행 언어와는 별개입니다. "언어" 플랫폼 환경 설정이 지정되지 않은 경우 이 "언어" 옵션은 JMP "표시 언어" 환경 설정에 따라 설정됩니다.
참고: 일본어, 중국어(간체), 중국어(번체) 또는 한국어가 언어 옵션으로 지정되면 JMP는 언어별 단어 사전을 사용하여 텍스트를 파싱합니다. 사전은 위의 언어 중 하나를 처음 지정할 때 공개 소스에서 다운로드되어 JMP 데이터 테이블에 저장됩니다. 언어별 사전에서 단어를 추가하거나 제거할 수도 있습니다. 자세한 내용은 아시아 언어의 토큰화 단계에서 확인하십시오.
구당 최대 단어 수
구가 분석에 구로 포함되기 위해 최대로 포함할 수 있는 단어 수를 지정합니다.
최대 구 수
구 목록에 나타나는 최대 구 수를 지정합니다.
단어당 최소 문자 수
단어가 분석에 용어로 포함되기 위해 반드시 포함해야 하는 문자 수를 지정합니다.
단어당 최대 문자 수
단어가 분석에 용어로 포함되기 위해 최대로 포함할 수 있는 문자 수(최대 2000)를 지정합니다.
어간 추출
("언어" 옵션이 영어, 독일어, 스페인어, 프랑스어 또는 이탈리아어로 설정된 경우에만 사용 가능) 시작 문자는 유사하지만 종료 문자는 다른 용어를 결합하는 방법을 지정합니다. 다음 옵션을 사용할 수 있습니다.
어간 추출 안 함
용어를 결합하지 않습니다.
결합 가능한 경우 어간 추출
둘 이상의 용어에서 추출된 어간이 동일한 용어일 경우에만 용어의 어간을 추출합니다.
모든 용어의 어간 추출
모든 용어의 어간을 추출합니다.
참고: "어간 추출" 옵션을 사용하면 용어 목록에 추가된 구에도 영향을 줍니다. 구 내의 용어가 어간 추출된 후에는 구 식별이 발생합니다. 예를 들어 "dogs bark"와 "dog barks"는 모두 "dog· bark· "라는 특정 구와 매칭됩니다. "어간 추출" 옵션을 선택한 경우 용어 목록에서 구를 제거할 수 없습니다.
토큰화
("언어" 옵션이 영어, 독일어, 스페인어, 프랑스어 또는 이탈리아어로 설정된 경우에만 사용 가능) 텍스트를 용어 또는 토큰으로 파싱하기 위한 방법을 지정합니다. 사용 가능한 토큰화 옵션은 다음과 같습니다.
정규 표현식
기본 제공 정규 표현식을 사용하여 텍스트를 파싱합니다. 텍스트를 파싱하는 데 사용되는 정규 표현식을 추가, 제거 또는 편집하려면 정규 표현식 사용자 정의 옵션을 선택합니다. 자세한 내용은 정규 표현식 편집기에서 정규 표현식 사용자 정의에서 확인하십시오.
기본 단어
텍스트는 일반적으로 단어를 구분하는 문자를 기준으로 파싱됩니다. 이러한 문자로는 공백, 탭, 줄바꿈 및 대부분의 구두점 표시가 포함됩니다. 분석을 위해 숫자를 용어로 파싱하려면 숫자를 단어로 처리 옵션을 선택합니다. 이 옵션을 선택하지 않을 경우 구분자 사이에서 숫자만 포함하는 텍스트는 토큰화 단계에서 무시됩니다.
팁: 기본 단어 토큰화 방법을 사용하는 텍스트 탐색기 보고서에서 표시 옵션 > 구분자 표시 옵션을 사용하여 기본 구분자 집합을 볼 수 있습니다.
정규 표현식 사용자 정의
(정규 표현식 토큰화 방법을 사용하는 경우에만 사용 가능) 텍스트 탐색기 정규 표현식 편집기 창을 사용하여 정규 표현식 설정을 수정할 수 있습니다. 일반적이지 않은 단어를 수용하려면 이 옵션을 사용합니다. 예를 들어 전화 번호나 문자와 숫자의 조합으로 구성된 단어를 들 수 있습니다. "정규 표현식 사용자 정의" 옵션은 기본 정규 표현식 방법으로 필요한 결과를 얻을 수 없는 경우에만 사용하는 것이 좋습니다. 이러한 경우는 텍스트에 기본 정규 표현식 방법으로 인식되지 않는 구조가 포함된 경우에 발생할 수 있습니다. 자세한 내용은 정규 표현식 편집기에서 정규 표현식 사용자 정의에서 확인하십시오.
숫자를 단어로 처리
(기본 단어 토큰화 방법과 함께만 사용 가능) 분석에서 숫자를 용어로 토큰화할 수 있도록 합니다. 이 옵션이 선택되어 있으면 숫자가 포함된 용어에 대해 "단어당 최소 문자 수" 설정이 무시됩니다.
시작 창에서 정규 표현식 사용자 정의를 선택한 경우 시작 창에서 확인을 클릭하면 텍스트 탐색기 정규 표현식 편집기 창이 나타납니다. 그렇지 않은 경우에는 텍스트 탐색기 보고서가 나타납니다.
참고: 텍스트 입력 처리는 대/소문자를 구분하지 않습니다. 모든 텍스트는 토큰화 단계와 모든 분석 단계 이전에 내부적으로 소문자로 변환됩니다. 이 변환은 텍스트 탐색기 출력에서 정규 표현식 처리와 용어 집계에 영향을 미칩니다.