발행일 : 03/10/2025

Image shown here용어 선택

텍스트 탐색기 플랫폼에서 용어 선택은 서로 다른 반응을 가장 잘 설명하는 용어를 식별합니다. 이 분석은 일반화 회귀 플랫폼을 사용하여 DTM(문서 용어 행렬)에서 변수를 선택하고 반응에 가장 큰 영향을 미치는 용어를 식별합니다. 용어 선택은 감정 분석 및 다른 유형의 응답과 유사한 이항 반응과 함께 사용할 수 있습니다. 적합 모형은 지정된 반응 열에 대해 적절한 반응 분포를 사용합니다.

팁: 용어 선택의 예를 보려면 도움말 > 샘플 데이터 폴더를 선택하고 Chips.jmp를 연 다음 "Text Explorer - Term Selection" 테이블 스크립트를 실행하십시오.

Image shown here용어 선택 설정

"용어 선택" 보고서의 "설정" 섹션을 사용하면 반응 열을 선택하고, 반응의 목표 수준을 지정하고, 모형 설정을 조정할 수 있습니다. 모형 설정을 지정했으면 "실행" 버튼을 클릭하여 모형을 실행합니다. 그러면 요약 보고서에 적합 모형이 나타납니다. 자세한 내용은 용어 선택 요약 보고서에서 확인하십시오.

목표 수준

반응 열을 선택하면 목표 수준 개요가 나타납니다.

명목형 반응의 경우 로지스틱 회귀 모형에서 목표 수준이 될 반응의 한 수준을 선택합니다. 로지스틱 회귀 모형의 반응은 목표 수준과 다른 모든 수준 간의 결합입니다.

순서형 반응의 경우 처음에는 모든 반응 수준이 모형에 포함됩니다. 로컬 데이터 필터를 사용하면 모형에서 제외할 반응 수준을 선택할 수 있습니다. 포함된 수준의 기본 숫자 값은 정규 반응 분포로 모델링됩니다.

참고: 순서형 반응의 경우 용어 선택 모형은 반응 열의 데이터 유형이 숫자인 경우에만 적합시킬 수 있습니다.

연속형 반응의 경우 로컬 데이터 필터 히스토그램을 사용하여 모형에서 제외할 반응 값을 선택합니다. 포함된 값은 정규 반응 분포로 모델링됩니다.

다중 반응 모델링 유형이 있는 반응 열의 경우 이항 로지스틱 회귀 모형에서 목표 수준이 될 반응 수준을 하나 이상 선택합니다. 두 개 이상의 수준을 선택하는 경우 문서의 반응 열에 선택한 수준이 하나라도 있으면 해당 문서는 목표 수준에 속합니다. 선택한 모든 수준이 문서의 반응 열에 있어야 해당 문서가 목표 수준에 포함되게 하려면 AND와 결합 옵션을 선택합니다.

모형 설정

기본적으로 일반화 회귀 모형은 조기 중지가 있는 Elastic Net 추정 방법과 AICc 검증 방법을 사용합니다. 모형 설정 개요에서 이러한 설정을 변경할 수 있습니다. 자세한 내용은 선형 모형 적합일반화 회귀 모형에서 확인하십시오.

참고: 텍스트 탐색기 시작 창에 검증 열이 지정된 경우 용어 선택 보고서의 일반화 회귀 플랫폼은 이 검증 열을 검증 방법으로 사용합니다.

항 설정

항 설정은 회귀 모형에 사용되는 DTM(문서 용어 행렬)을 정의합니다. 가중치 기법과 DTM에 포함된 최대 항 수를 변경할 수 있습니다. 각 항은 DTM의 열에 해당합니다. 말뭉치에 10개 미만의 항목이 있는 항은 모형에서 사용하는 DTM에 포함되지 않습니다. DTM 옵션에 대한 자세한 내용은 문서 용어 행렬 규격 창에서 확인하십시오.

Image shown here용어 선택 보고서

텍스트 탐색기 플랫폼에서 분석을 실행한 후 "용어 선택" 보고서는 세 개의 섹션으로 구성됩니다. 설정 보고서에는 분석을 지정하기 위한 컨트롤이 포함되어 있습니다. 자세한 내용은 용어 선택 설정에서 확인하십시오. 설정 보고서 아래에는 실행한 각 분석에 대해 초기에 닫힌 일반화 회귀 보고서가 있습니다. 자세한 내용은 선형 모형 적합일반화 회귀 모형에서 확인하십시오. 보고서의 마지막 섹션은 요약 보고서입니다.

그림 12.12 용어 선택 보고서 

Term Selection Report

용어 선택 요약 보고서

요약 보고서에는 모형 비교 테이블, 요약 테이블 및 히스토그램, 문서 스코어 테이블, 용어 스코어 테이블 및 텍스트 상자가 포함됩니다.

모형 비교 테이블에는 각 적합 모형에 대한 행이 포함됩니다. 요약 보고서의 나머지 부분에서는 이 테이블에서 현재 선택된 모형의 결과를 보여 줍니다.

요약 테이블에는 문서의 개수와 평균 스코어가 전체 및 모형의 반응 예측값별로 표시됩니다. 평균 기여도는 문서 스코어 테이블의 기여도 값 평균입니다. 요약 히스토그램에는 문서의 전체 기여도 값 분포가 표시됩니다. 히스토그램은 대화식이므로 막대를 클릭하면 문서 스코어 테이블에서 해당하는 문서가 강조 표시됩니다.

문서 스코어 테이블에는 각 문서의 양 및 음의 기여도 값과 각 문서의 예측값 및 실제값이 표시됩니다. 이항 반응 모형의 경우 예측값은 문서가 목표 수준에 속할 확률이고 정규 반응 모형의 경우 예측값은 각 문서에 대한 적합 모형의 예측입니다. 테이블의 행을 선택하면 해당 문서의 텍스트가 테이블 아래의 텍스트 상자에 나타납니다.

"용어 스코어" 테이블에는 적합 모형에 의해 선택된 각 용어, 용어의 해당 계수, 용어의 LogWorth 및 말뭉치에서 용어가 나타나는 횟수가 나열됩니다. 테이블의 행을 선택하면 해당 문서의 텍스트가 테이블 아래의 텍스트 상자에 나타납니다.

텍스트 상자에는 문서 스코어 테이블에서 선택된 문서의 텍스트 또는 용어 스코어 테이블에서 선택된 용어의 컨텍스트가 표시됩니다.

Image shown here용어 선택 보고서 옵션

텍스트 탐색기 플랫폼에서 "용어 선택"의 빨간색 삼각형 메뉴에는 다음 옵션이 포함되어 있습니다.

문서 스코어 저장

(요약 테이블에서 분석을 선택한 경우에만 사용할 수 있습니다.) 문서 스코어 테이블의 열을 데이터 테이블의 새 열에 저장합니다. 새 열에는 각 문서에 대한 예측값과 함께 양 및 음의 기여도가 포함됩니다.

용어 스코어 DTM 저장

(요약 테이블에서 분석을 선택한 경우에만 사용할 수 있습니다.) 현재 선택한 분석의 각 관련 용어에 대한 데이터 테이블에 열을 저장합니다. 열에는 "용어 선택"의 "항 설정"에 지정된 가중치를 사용하여 각 문서에 대한 용어 스코어가 포함됩니다.

예측 계산식 저장

(요약 테이블에서 분석을 선택한 경우에만 사용할 수 있습니다.) 현재 선택한 분석에 대한 예측 계산식이 포함된 데이터 테이블에 열을 저장합니다.

용어 클라우드 표시

요약 보고서에서 단어 클라우드를 표시하거나 숨깁니다. 단어 클라우드에는 현재 선택된 분석의 계수 항이 표시됩니다. 단어는 해당 계수의 절대값에 따라 크기가 지정되고 계수의 부호에 따라 색상이 지정됩니다.

제거

텍스트 탐색기 보고서 창에서 용어 선택 보고서를 제거합니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).