텍스트 탐색기 플랫폼의 추가 예이 예에서는 2001년에 미국에서 발생한 사고에 대한 미국 연방 교통 안전 위원회의 비행기 사고 보고서를 조사합니다. 조사 결과에 대한 설명이 포함된 텍스트를 탐색해서 각 사고의 원인을 밝히려고 합니다. 또한 사고 보고서 모음에서 테마를 찾으려고 합니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Aircraft Incidents.jmp를 엽니다.
2. 행 > 열 값에 따른 색상 또는 표식을 선택합니다.
3. 열 목록에서 Fatal을 선택하고 확인을 클릭합니다.
심각한 피해를 가져온 사고가 포함되어 있는 행이 빨간색으로 표시됩니다.
4. 분석 > 텍스트 탐색기를 선택합니다.
5. "열 선택" 목록에서 Narrative Cause를 선택하고 텍스트 열을 클릭합니다.
6. "언어" 목록에서 영어를 선택합니다.
7. "어간 추출" 목록에서 모든 용어의 어간 추출을 선택합니다.
8. "토큰화" 목록에서 기본 단어를 선택합니다.
9. 확인을 클릭합니다.
그림 12.14 Narrative Cause에 대한 텍스트 탐색기
보고서에서 약 51,000개의 토큰과 약 1,900개의 고유 용어가 있음을 알 수 있습니다.
10. 용어 목록에서 "pilot"을 마우스 오른쪽 버튼으로 클릭하고 행 선택하기를 선택합니다.
데이터 테이블에서 선택된 행의 개수를 통해 1,300건 이상의 사고 보고서에서 "pilot"이라는 단어의 몇 가지 형태가 나타남을 알 수 있습니다.
11. "pilot"을 마우스 오른쪽 버튼으로 클릭하고 중지 단어 추가를 선택합니다.
단어 "pilot"의 일부 형태가 다른 용어들에 비해 빈도 높게 나타나므로 이러한 용어는 문서 간의 차이를 확인하는 데 충분한 정보를 제공하지 못합니다. 따라서 어간이 "plot"인 모든 용어를 중지 단어 목록에 추가합니다.
이 예의 나머지 단계는 JMP Pro에서만 수행할 수 있습니다.
12.
"Narrative Cause에 대한 텍스트 탐색기" 옆의 빨간색 삼각형을 클릭하고 잠재 의미 분석, SVD를 선택합니다.
이 분석은 주제 분석을 위한 첫 번째 분석 단계로서, SVD 회전을 수행합니다.
13.
"규격" 창에서 "최소 용어 빈도"에 50을 입력합니다.
약 51,000개의 토큰이 있으므로 이 빈도는 모든 용어의 0.1% 이상을 나타내는 용어와 동등합니다.
14.
확인을 클릭합니다.
그림 12.15 Narrative Cause에 대한 SVD 그림
문서 SVD 그림에서는 fatal 사건과 그렇지 않은 사건 사이에 큰 차이가 없습니다.
15.
"SVD 중심화 및 척도화 TF IDF" 옆의 빨간색 삼각형을 클릭하고 주제 분석, 회전된 SVD를 선택합니다.
주제를 이루는 용어 그룹을 살펴보려고 합니다.
16.
"주제 수"에 5를 입력합니다.
17.
확인을 클릭합니다.
그림 12.16 Narrative Cause에 대한 주제별 상위 적재
적재량이 가장 높은 각 주제에 대한 용어를 사용하면 해당 주제가 사고 보고서의 테마를 포착하는지 여부를 해석할 수 있습니다.
예를 들어 주제 1은 "power", "loss" 및 "engine"에 대한 적재량이 높으므로 사고 원인으로 엔진 동력 손실이라는 테마를 나타냅니다. 이는 전체 사고 보고서에서 273회 나타나는 "엔진 동력 손실"이라는 구와 일치합니다.
주제 2에서 적재량이 높은 단어를 살펴보면, 사고가 어둠이나 저고도와 관련이 있다고 설명할 수 있습니다.
18.
"주제 스코어 그림" 옆의 회색 표시 아이콘을 클릭합니다.
그림 12.17 Narrative Cause에 대한 주제 스코어 그림
각 주제 스코어 그림에는 말뭉치의 각 문서에 대한 점이 포함됩니다. 이 그림에서 점을 선택하여 특정 문서의 텍스트를 더 자세히 조사할 수 있습니다.
주제 2의 주제를 더 자세히 탐색하려고 합니다.
19.
"주제 2" 그림에서 맨 오른쪽에 있는 점 세 개를 선택하고 그래프 왼쪽 위의 텍스트 표시 버튼을 클릭합니다.
주제 2에서 스코어가 가장 높은 세 문서의 텍스트가 새 창에 나타납니다. 이를 통해 주제 2가 저고도와 관련 있음을 확인할 수 있습니다.
이 텍스트 분석 단계에서는 진행 방법을 다양하게 선택할 수 있습니다. 텍스트 분석은 반복적인 프로세스이므로 주제 정보를 사용하여 중지 단어를 추가하거나 구를 지정하는 방법으로 용어 목록을 세부적으로 큐레이팅할 수 있습니다. 가중치가 부여된 문서 용어 행렬, SVD 또는 회전된 SVD의 벡터를 데이터 테이블에 숫자 열로 저장하여 다른 JMP 분석 플랫폼에서 사용할 수도 있습니다. 다른 플랫폼에서 이러한 열을 사용하는 경우 추가 분석에 데이터 테이블의 다른 열을 포함할 수도 있습니다.