다음 특성은 플랫폼에서 열이 사용되는 방식을 제어합니다.
• 분포
• 시간 주기
• 맵 역할
• 상위 범주
• 다중 반응
• 목표 수준
• 대조 수준
• 수익 행렬
• 결측값 정보화
연속형 숫자 데이터가 포함된 열의 경우, 열에 적합시킬 분포 유형을 선택하려면 "분포" 특성을 사용합니다. 이 분포는 분포 플랫폼에서 사용되며, 일부 경우에는 공정 능력 플랫폼에서도 사용됩니다. 자세한 내용은 분포 및 공정 능력 분포에서 확인하십시오.
분석 > 분포를 선택하여 열에 대한 "분포" 보고서를 생성할 때 JMP는 지정된 분포를 사용하여 자동으로 적합을 추정합니다. 히스토그램에 적합된 분포를 나타내는 곡선이 추가됩니다.
"분포" 특성과 "규격 한계" 특성을 모두 설정하면 분포 플랫폼에서는 "분포" 열 특성에 지정된 분포를 기준으로 한 "공정 능력 분석" 보고서를 생성합니다.
참고: 이전 데이터 테이블에서는 규격 한계를 지정하는 열에 "공정 능력 분석" 열 특성이 할당되었을 수 있습니다. 이 특성 대신 "규격 한계" 특성을 사용하는 것이 좋습니다.
"공정 능력 분포" 특성이 포함되지 않은 열을 공정 능력 플랫폼을 사용하여 분석할 경우 "분포" 열 특성에 지정된 분포로 인해 공정 능력 플랫폼에서 비정규 적합 결과가 생성됩니다. 이 분포가 공정 능력 플랫폼에서 지원되는 경우 해당 분포가 사용됩니다. 그러나 이 분포가 지원되지 않으면 플랫폼에서는 Johnson 적합을 사용합니다.
지정된 열에 "분포" 및 "공정 능력 분포" 열 특성이 모두 저장되어 있으면 "분포" 열 특성에 지정된 분포는 분포 플랫폼에서 사용되며 "공정 능력 분포" 열 특성에 지정된 분포는 공정 능력 플랫폼에 사용됩니다.
시계열 플랫폼을 사용할 때는 데이터에 "시간 주기" 특성을 할당할 수 있습니다. "시간 주기" 특성은 데이터가 보고되는 주기(매년, 매분기, 매월 등)를 지정합니다. 시간 주기를 지정하면 JMP가 윤년 및 윤일 같은 사항을 고려할 수 있습니다. 주기를 지정하지 않으면 데이터가 일정한 간격의 수치형 데이터로 간주됩니다.
경계 데이터(국가, 주, 도, 자치주 등)가 포함된 데이터 테이블을 생성한 경우 그래프 빌더에서 해당 맵을 보려면 "맵 역할" 특성을 사용합니다.
다음 사항에 유의하십시오.
• 사용자 경계 파일이 기본 사용자 맵 디렉터리에 있는 경우에는 -Name 파일에서만 "맵 역할" 특성을 지정하면 됩니다.
• 사용자 경계 파일이 다른 위치에 있는 경우에는 -Name 파일과 분석하려는 데이터 테이블에서 "맵 역할" 특성을 지정해야 합니다.
• "맵 역할" 특성이 포함된 열에는 동일한 경계 이름이 포함되어야 하지만 열 이름은 달라도 됩니다.
"맵 역할" 특성의 사용 예는 그래프 분석의 맵 역할 특성에서 확인하십시오.
-Name 데이터 테이블에 "맵 역할" 특성을 추가하려면
1. 경계가 포함된 열을 마우스 오른쪽 버튼으로 클릭하고 열 특성 > 맵 역할을 선택합니다.
2. 셰이프 이름 정의를 선택합니다.
3. 확인을 클릭합니다.
4. 데이터 테이블을 저장합니다.
분석하려는 데이터 테이블에 "맵 역할" 특성을 추가하려면
참고: 사용자 경계 파일이 기본 사용자 맵 디렉터리에 있지 않은 경우에만 이 단계를 수행하십시오.
1. 경계가 포함된 열을 마우스 오른쪽 버튼으로 클릭하고 열 특성 > 맵 역할을 선택합니다.
2. 셰이프 이름 사용을 선택합니다.
3. 맵 이름 데이터 테이블 옆에서
을 클릭하여 -Name 맵 데이터 테이블을 불러옵니다. 상대 경로 또는 절대 경로를 입력할 수 있습니다.
맵 데이터 테이블이 동일한 폴더에 있으면 파일 이름만 입력합니다. 경로에 공백이 포함되어 있어도 인용 부호가 필요하지 않습니다.
4. 셰이프 정의 열 옆에 선택한 열의 값과 매칭할 값이 있는 맵 데이터 테이블의 열 이름을 입력합니다.
5. 확인을 클릭합니다.
6. 데이터 테이블을 저장합니다.
그래프 빌더에서 그래프를 생성하고 수정된 열을 "셰이프" 영역에 할당하면 그래프에 경계가 나타납니다.
데이터 집합에 등급(예: 5점 척도)이 포함된 경우 각 등급 부분집합에 속하는 반응의 백분율을 확인할 수 있습니다. 여러 개의 특정 범주를 하나의 범주로 그룹화하려면 "상위 범주" 열 특성을 추가합니다.
상위 범주는 범주형 플랫폼에서만 지원됩니다.
데이터 열에 "상위 범주" 특성을 추가하려면
1. 그룹화하려는 범주가 포함된 열을 마우스 오른쪽 버튼으로 클릭합니다.
2. 열 특성 > 상위 범주를 선택합니다.
열 특성 창에 "상위 범주" 옵션이 표시됩니다(Figure 5.6).
3. "열의 범주" 목록에서 그룹화할 범주를 선택합니다.
4. "상위 범주 이름" 옆에 이름을 입력합니다.
이름을 비워 두면 선택한 범주에 따라 자동으로 상위 범주 이름이 지정됩니다.
5. 추가를 클릭하여 상위 범주를 생성합니다.
6. 상위 범주의 빨간색 삼각형을 클릭하고 다음 옵션 중 하나를 선택합니다.
옵션 > 숨기기
선택한 상위 범주의 데이터를 보고서와 그래프에서 숨깁니다.
모두 추가
열의 모든 범주에서 상위 범주를 생성합니다.
평균 추가 및 표준편차 추가
값 스코어에 대한 통계량을 계산합니다. 자세한 내용은 소비자 조사에서 확인하십시오.
7. 확인을 클릭하여 열에 특성을 추가합니다.
그림 5.6 상위 범주 구성의 예
다중 반응이란 용어는 열의 셀에 둘 이상의 반응 값이 포함된 경우를 나타냅니다. 예를 들어 Consumer Preferences.jmp 샘플 데이터 테이블의 Brush Delimited 열에 있는 많은 셀에는 여러 값이 포함되어 있습니다. 예를 들어 6행에는 "Wake, After Meal, Before Sleep"이 포함되어 있습니다.
쉼표 외의 구분자를 지정하려면 "다중 반응" 열 특성을 추가합니다. 그렇지 않으면 열 정보 창에서 열의 모델링 유형을 "다중 반응"으로 변경합니다. 다중 반응 모델링 유형에 대한 자세한 내용은 모델링 유형 정보에서 확인하십시오.
JMP는 JMP 12 이하에서 저장된 데이터 테이블에 자동으로 다중 반응 모델링 유형을 할당합니다. 열에 "다중 반응" 열 특성이 포함되고 구분자가 쉼표여야 자동 할당이 이루어집니다. 사용자가 "다중 반응" 열 특성을 제거하도록 선택하더라도 JMP는 "다중 반응" 열 특성을 제거하지 않습니다.
그림 5.7 다중 반응 구성 창
참고: 범주형 플랫폼에서 "다중 반응" 특성을 사용할 수 있습니다. 자세한 내용은 소비자 조사의 다중 응답에서 확인하십시오. 데이터 필터에서 이 특성을 사용할 수도 있습니다. 자세한 내용은 데이터 필터에서 확인하십시오. 구분자가 쉼표인 경우에는 이 특성 대신 다중 반응 모델링 유형을 사용하는 것이 좋습니다.
로지스틱 회귀 플랫폼에 대한 관심 반응 수준을 지정하려면 "목표 수준" 열 특성을 사용합니다. 이 수준은 로지스틱 회귀 모형에서 양성 반응 수준으로 사용되며 통계량, 확률 곡선 및 기타 적합 측도에 영향을 줍니다. 이 열 특성은 이항 반응용으로 만들어졌지만 모든 범주형 열에 사용할 수 있습니다.
참고: 이항 반응 열이 지정된 경우 "목표 수준" 열 특성은 "X로 Y 적합(로지스틱)" 및 모형 적합의 "명목형 로지스틱" 분석법과 같은 플랫폼에서 사용됩니다.
"대조 수준" 열 특성을 사용하여 요인 열의 다른 모든 수준과 비교하기 위해 대조 수준으로 사용할 요인 열의 수준을 지정할 수 있습니다. 이 열 특성은 대조군과의 다중 비교를 수행하는 방법에 유용합니다.
참고: "대조 수준" 열 특성은 범주형 요인 열이 지정될 때 X로 Y 적합(일원 분석) 플랫폼, 반응 변수 선별 플랫폼 그리고 모형 적합 플랫폼의 "표준 최소 제곱" 및 "일반화 회귀" 분석법에서 사용됩니다.
예측 모형의 명목형 또는 순서형 반응 변수 수준에 가중치를 할당하려면 "수익 행렬" 열 특성을 사용합니다. 명목형 반응의 경우 확률 임계를 사용하여 수익 행렬 항목을 지정할 수 있습니다.
참고: "수익 행렬" 열 특성은 모형 비교, 파티션, PLS 및 모형 적합 플랫폼에서 사용됩니다. "수익 행렬" 열 특성을 사용하는 모형 적합 분석법은 일반화 회귀, 명목형 로지스틱 및 순서형 로지스틱입니다.
열 특성 > 수익 행렬을 선택하면 선택한 열에 있는 각 값에 대한 행과 열이 포함된 행렬 템플릿이 나타납니다. "실제" 수준은 행으로 표시되고 예측 수준은 열로 표시됩니다. 올바른 결정 항목은 예측 수준과 실제 수준이 일치하는 대각 항목입니다.
• 대각 항목에 대해 올바른 결정의 수익 또는 가중치를 반영하는 값을 입력합니다.
• 비대각 항목에 대해 올바르지 않은 결정의 수익(즉, 손실) 또는 가중치를 반영하는 값을 입력합니다.
• 예측이 수행되지 않은 경우에는 "결정되지 않음" 열을 사용하여 관련 수익 또는 손실을 나타냅니다.
이항 반응인 경우 수익 행렬 템플릿 아래에 추가 옵션이 나타납니다. 이러한 옵션을 사용하면 수익 행렬에 가중치를 직접 입력하는 대신 확률 임계를 지정할 수 있습니다.
목표 수준 및 확률 임계를 지정하십시오. 그런 다음 "설정"을 클릭하여 수익 행렬을 업데이트하십시오.
목표 수준
확률을 모델링할 수준입니다.
확률 임계
목표 수준의 확률에 대한 임계입니다. 관측값이 목표 수준 이내가 될 확률이 확률 임계를 초과할 경우 해당 관측값은 해당 수준으로 분류됩니다.
설정
목표값 및 확률 임계에 지정한 사항을 반영하는 값을 수익 행렬 템플릿에 입력합니다. 자세한 내용은 확률 임계 계산에서 확인하십시오.
임계 확률은 t로 나타냅니다. "설정"을 클릭하면 수익 행렬의 항목이 다음과 같이 할당됩니다.
• 0: 각 대각 항목에 할당. 올바른 결정으로 손실이 없음을 반영
• -1: 실제값이 비목표 수준인 경우 목표 수준의 예측에 할당
• -t/(1 - t): 실제값이 목표 수준인 경우 비목표 수준의 예측에 할당
이렇게 하면 두 개의 수준으로 분류하기 위한 수익이 다음과 같이 지정됩니다.


수익성이 가장 높은 예측은 수익이 이 두 값보다 큰 수준입니다. 위의 두 수익 방정식에 따르면 Prob[Target Level]이 t 이상일 때마다 목표 수준에 관측값이 할당됩니다.
"수익 행렬" 열 특성이 있는 명목형 또는 순서형 열의 경우, 대부분의 모델링 플랫폼에서 수익 행렬 항목을 반영하는 계산식 열을 저장할 수 있습니다. 모형을 적합시킨 후 "예측 계산식 저장" 또는 "확률 계산식 저장" 옵션을 선택합니다. JMP에서는 일반적인 예측 계산식을 데이터 테이블에 저장할 뿐 아니라 다음과 유사한 일반적인 계산식 열도 저장합니다.
• <level>에 대한 수익: 열의 각 반응 수준에 대해 각 관측값을 해당 수준으로 분류하기 위한 기대 수익을 지정합니다.
• <column name>에 대한 수익성이 가장 높은 예측: 각 관측값에 대해 기대 수익이 가장 높은 반응의 수준을 지정합니다.
• <column name>에 대한 기대 수익: 각 관측값에 대해 수익성이 가장 높은 예측 열에 의해 정의된 분류의 기대 수익을 지정합니다.
• <column name>에 대한 실제 수익: 각 관측값에 대해 해당 관측값을 수익성이 가장 높은 예측 열에 의해 지정된 수준으로 분류하기 위한 실제 수익을 지정합니다.
자세한 내용은 세 개 이상의 수준에 대한 수익 행렬의 예에서 확인하십시오. 모델링에 수익 행렬을 사용하는 예는 예측 및 전문 모델링의 결정 행렬 보고서에서 확인하십시오.
아래 예에서는 Travel Costs.jmp 샘플 데이터 테이블의 Airline 열에 대한 수익 행렬을 보여 줍니다.
그림 5.8 수익 행렬 창의 예
이 수익 행렬의 값이 할당된 방식을 보려면 Carrier 1부터 Carrier 4까지의 네 항공사에서 고객 서비스에 이용하는 여행사를 고려해야 합니다. 여행사는 티켓 판매 시마다 수익을 실현하며 이 수익은 고객이 선택한 항공사에 따라 달라집니다. 여행사에서는 특정 항공사를 권장하거나 예측할 때 소정의 수수료를 내고 티켓을 예약합니다. 고객이 예측된 항공사를 사용하기로 결정하면 여행사는 일정 금액에서 예약 수수료를 뺀 만큼의 수익을 얻습니다. 하지만 고객이 다른 항공사를 이용하기로 결정하면 항공사는 예약 수수료만큼의 손실을 보며 예약 수수료를 한 번 더 지불해야 합니다. 즉, 예측이 올바르지 않으면 여행사의 수익이 낮아집니다.
Carrier 1 ~ Carrier 4의 예약 수수료가 각각 $15, $20, $30, $50이고 티켓 판매 수익은 각각 $40, $40, $100, $110라고 가정해 보겠습니다.
여행사에서 고객에게 Carrier 1을 권장하고 고객이 해당 티켓을 구매하기로 결정하면 항공사는 $15의 수수료를 내고 티켓을 예약한 다음 $40를 얻으므로 순수익은 $25가 됩니다. 여행사에서 고객이 Carrier 4를 선택할 것이라고 예측했는데 고객이 Carrier 1을 선택하면 여행사는 Carrier 4의 예약 수수료 $50만큼 손실을 보며 Carrier 1에 예약 수수료 $15도 지불해야 합니다. 결과적으로 여행사는 $40 - $50 - $15 = -$25의 순손실을 보게 됩니다.
샘플 데이터 테이블 Liver Cancer.jmp에는 환자 136명의 질병에 대한 Severity 등급이 포함되어 있습니다. BMI부터 Jaundice까지의 열에 지정된 예측 변수를 사용하여 Severity를 모델링하려고 합니다. 모형에 대한 일반적인 예측 계산식은 환자를 확률이 가장 높은 Severity 수준으로 분류합니다. 하지만 실제로는 심각도가 높은 환자를 심각도가 낮은 것으로 분류하는 것은 실제로는 심각도가 낮은 환자를 심각도가 높은 것으로 분류하는 것보다 더 중대한 오류입니다. 따라서 실제로는 심각도가 높은 환자를 심각도가 낮은 것으로 잘못 분류할 경우에 대해 더 높은 비용을 할당하려고 합니다.
확률 임계를 설정하면 더 높은 비용을 할당할 수 있습니다. 전문가의 의견을 토대로 결정한 좋은 전략은 심각도 수준이 높을 것으로 예측되는 확률이 0.4를 초과하는 환자를 Severity 수준 "High"로 분류하는 것입니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Liver Cancer.jmp를 엽니다.
2. "Severity" 열을 선택하고 열 > 열 정보를 선택합니다.
3. "수익 행렬" 열 특성을 선택합니다.
4. "목표 수준"을 High로 변경합니다.
5. 확률 임계를 0.4로 입력합니다.
6. 설정을 클릭합니다.
수익 행렬이 업데이트되어 해당 가중치를 표시합니다.
그림 5.9 확률 임계에 해당하는 가중치를 보여 주는 수익 행렬
이 수익 행렬은 심각도가 높은 환자를 심각도가 낮은 것으로 잘못 분류할 경우의 손실이 -1인 반면, 심각도가 낮은 환자를 심각도가 높은 것으로 잘못 분류할 경우의 손실은 그보다 작은 -0.6667임을 보여 줍니다.
"결측값 정보화" 열 특성은 대부분의 적합 플랫폼에서 결측값이 포함된 열에 대해 코딩 시스템을 사용하도록 지정합니다. 연속형 열의 경우 코딩 시스템은 두 개의 열로 구성됩니다. 첫 번째 열은 원래 값을 포함하되 결측값은 비결측값의 평균으로 바꾼 열이고, 두 번째 열은 결측값이 있는 행을 나타내는 표시자 열입니다. 범주형 열의 경우 결측값은 해당 열의 개별 수준으로 간주됩니다.