텍스트 탐색기 플랫폼에서 텍스트는 토큰화, 구 추출 및 용어 추출의 세 단계로 처리됩니다.
토큰화 단계에서는 다음 작업을 수행합니다.
1. 텍스트를 소문자로 변환합니다.
2. 토큰화 방법(기본 단어 또는 정규 표현식)을 적용하여 문자를 토큰으로 그룹화합니다.
3. 지정된 재코딩 정의에 따라 토큰을 재코딩합니다. 재코딩은 어간 추출 전에 수행됩니다.
참고: 재코딩 작업은 보고서 창에서 지정된 순서와 관계없이 단일 패스로 내부적으로 처리됩니다.
일본어, 중국어(간체), 중국어(번체) 또는 한국어가 언어 옵션으로 지정되면 JMP는 언어별 단어 사전을 사용하여 텍스트를 파싱합니다. 사전은 위의 언어 중 하나를 처음 지정할 때 공개 소스에서 다운로드되어 JMP 데이터 테이블에 저장됩니다. 이 JMP 데이터 테이블은 TextExplorer 디렉터리의 언어별 하위 디렉터리에 저장됩니다. TextExplorer 디렉터리의 위치는 다음과 같이 컴퓨터 운영 체제에 따라 다릅니다.
• Windows: C:\Users\<username>\AppData\Roaming\JMP\JMP\TextExplorer\
• macOS: /Users/<username>/Library/Application Support/JMP/TextExplorer/
TextExplorer 디렉터리의 언어별 하위 디렉터리에 있는 dictionary-User.jmp 데이터 테이블을 편집하여 언어별 사전에서 단어를 추가하거나 제거할 수도 있습니다. dictionary-User.jmp 데이터 테이블에는 Data와 action이라는 두 열이 포함되어 있습니다. 언어별 사전에 단어를 추가하려면 첫 번째 열에 단어가 있고 두 번째 열에 add라는 단어가 있는 행을 dictionary-User.jmp 데이터 테이블에 추가합니다. 언어별 사전에서 단어를 제거하려면 첫 번째 열에 단어가 있고 두 번째 열에 delete라는 단어가 있는 행을 dictionary-User.jmp 데이터 테이블에 추가합니다.
구 추출 단계에서는 말뭉치(문서 모음)에서 나타나는 구를 수집하며, 이를 통해 개별 구를 용어로 처리하도록 지정할 수 있습니다. 구는 중지 단어로 시작하거나 끝날 수 없지만 중지 단어를 포함할 수는 있습니다.
용어 추출 단계에서는 이전 단계에서 추출된 토큰 및 구로부터 용어 목록을 생성합니다.
용어 추출 단계에서는 각 토큰에 대해 다음 작업을 수행합니다.
1. 시작 창에 지정된 최소 및 최대 길이 요구 사항이 충족되는지 확인합니다. 숫자만 포함된 토큰은 이 작업에서 제외됩니다.
2. 토큰이 용어가 될 수 있는 자격이 있는지 확인합니다. 기본 단어 토큰화 방법으로 파싱된 토큰에는 알파벳 문자 또는 유니코드 문자가 하나 이상 포함되어야 합니다. 숫자만 포함된 토큰은 이 작업에서 제외됩니다. 정규 표현식 토큰화 방법에서는 정규 표현식을 사용하여 토큰의 일부인 문자를 확인합니다.
3. 토큰이 중지 단어가 아닌지 확인합니다.
4. 어간 추출 및 어간 예외를 적용합니다.
용어 추출 단계에서는 사용자가 추가하는 각 구에 대해 다음 작업을 수행합니다.
1. 용어 목록에 구를 추가합니다. 구는 용어 목록에서 어간 추출된 구의 각 단어에 어간 추출을 적용해야 합니다. 원시 토큰은 다르지만 어간이 동일한 구는 용어 목록에서 결합됩니다.
2. 구에 나타나는 토큰 용어 항목을 제거합니다.