기본 분석 > 텍스트 탐색기 > 텍스트 탐색기 플랫폼 개요
발행일 : 03/10/2025

텍스트 탐색기 플랫폼 개요

텍스트 탐색기 플랫폼을 사용하면 비정형 텍스트를 탐색하여 텍스트의 의미를 더 잘 이해할 수 있습니다. 비정형 텍스트 데이터는 일반적으로 볼 수 있습니다. 예를 들어 설문 조사, 제품 평가 의견 또는 사고 보고서의 자유 응답 필드에서 비정형 텍스트 데이터가 발생할 수 있습니다.

텍스트 분석은 대개 반복적인 프로세스이므로 용어 목록의 큐레이팅과 분석을 번갈아가며 수행할 수 있습니다.

용어 목록 큐레이팅

텍스트 분석에는 몇 가지 고유한 용어가 사용됩니다. 용어 또는 토큰은 가장 작은 텍스트 조각으로, 문장 내의 단어와 유사합니다. 하지만 용어는 정규 표현식을 사용하는 등의 여러 가지 방법으로 정의할 수 있습니다. 텍스트를 용어로 분해하는 프로세스를 토큰화라고 합니다.

는 짧은 용어 모음입니다. 텍스트 탐색기 플랫폼에는 자체적으로 용어로 지정된 구를 관리하는 옵션이 있습니다.

문서는 단어 모음을 나타냅니다. JMP 데이터 테이블에서는 텍스트 열의 각 행에 있는 비정형 텍스트가 문서에 해당합니다.

말뭉치는 문서 모음을 나타냅니다.

때로는 분석에서 몇 가지 일반적인 단어를 제외하는 것이 좋습니다. 이 제외된 단어를 중지 단어라고 합니다. 플랫폼에 기본 중지 단어 목록이 있지만 사용자가 특정 단어를 중지 단어로 추가할 수도 있습니다. 중지 단어는 용어가 될 수 없지만 구에 사용될 수 있습니다. 그러나 구는 중지 단어로 시작하거나 끝날 수 없습니다.

용어를 재코딩할 수도 있습니다. 그러면 동의어를 하나의 공통 용어로 결합하는 데 유용합니다.

어간 추출은 서로 다른 어미를 제거함으로써 시작 부분이 동일한 단어(어간)를 결합하는 프로세스입니다. 즉, "jump", "jumped" 및 "jumping"이 모두"jump"라는 용어로 취급됩니다. 어간 추출 절차는 Snowball 문자열 처리 언어에서 사용되는 절차와 유사합니다. 구를 어간 추출할 때는 구의 각 단어가 독립된 용어일 때와 마찬가지 방식으로 어간 추출됩니다.

참고: "텍스트 탐색기" 시작 창의 "언어" 설정에 아시아 언어가 지정된 경우에는 큐레이션 단계가 위의 설명과 다릅니다. 이러한 언어에는 어간 추출을 사용할 수 없으며 토큰화가 다르게 수행됩니다. 자세한 내용은 아시아 언어의 토큰화 단계에서 확인하십시오.

용어 목록 분석

텍스트 탐색기 플랫폼의 텍스트 분석에는 BoW(Bag of Words) 방법이 사용됩니다. 따라서 구를 형성할 때 외에는 용어의 순서가 무시됩니다. 이 분석은 용어의 개수를 기준으로 합니다.

정규 표현식, 중지 단어, 재코딩 및 어간 추출을 사용하여 용어 목록을 큐레이팅한 후에는 큐레이팅된 용어 목록에 대한 분석을 수행할 수 있습니다. 플랫폼의 분석 옵션은 DTM(문서 용어 행렬)을 기반으로 합니다. DTM의 각 행은 하나의 문서(JMP 데이터 테이블의 텍스트 열에 있는 셀 하나)에 해당합니다. DTM의 각 열은 큐레이팅된 용어 목록의 용어 하나에 해당합니다. 이 방법은 단어 순서를 무시하기 때문에 BoW 방법을 구현합니다. 가장 단순한 형태일 때 DTM의 각 셀에는 행의 문서에 있는 열의 용어 빈도(발생 횟수)가 포함됩니다. DTM을 위한 다른 가중치 체계가 다양하게 존재하며, 이는 저장 옵션에 설명되어 있습니다.

Image shown here플랫폼에서 사용할 수 있는 분석 옵션은 먼저 문서 용어 행렬에 대해 SVD(특이값 분해)를 수행합니다. 이를 통해 데이터의 용어 정보를 나타내는 데 필요한 열 수가 크게 줄어들 수 있습니다. 특이값 분해에 대한 자세한 내용은 다변량 방법통계 상세 정보에서 확인하십시오. 용어 군집화 및 문서 군집화에는 "계층적 군집화" 옵션을 사용할 수 있습니다. 이 옵션을 사용하면 유사한 용어 또는 문서끼리 그룹화할 수 있습니다.

텍스트 탐색기 플랫폼 워크플로우

텍스트 탐색기 플랫폼을 사용하기 위해 필요한 단계가 있습니다.

1. 토큰화 방법(기본 제공 또는 사용자 정의 정규 표현식)을 지정합니다.

2. 보고서를 사용하여 추가 중지 단어를 지정하고, 용어 목록에 구를 추가하고, 용어의 재코딩을 수행하고, 어간 추출 규칙에 대한 예외를 지정합니다.

3. 어간 추출에 대한 환경 설정을 지정합니다.

참고: 아시아 언어에는 어간 추출을 사용할 수 없습니다.

4. 단어 및 문 개수, SVD 및 군집화 방법을 사용하여 중요한 용어 및 구를 식별합니다.

참고: Image shown hereSVD 및 군집화 옵션은 JMP Pro에서만 사용할 수 있습니다.

5. 결과(용어 테이블, DTM, 특이 벡터 또는 기타 결과)를 추가 분석에 사용할 수 있도록 저장합니다.

참고: Image shown here특이 벡터를 저장하는 옵션은 JMP Pro에서만 사용할 수 있습니다.

6. 구, 재코딩 및 중지 단어 특성을 유사한 텍스트 데이터의 향후 분석에 사용할 수 있도록 저장합니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).