산점도 및 기타 그래프는 변수 간의 관계를 시각화하는 데 도움이 됩니다. 관계를 시각화한 후에는 다음 단계로 그 관계를 분석하여 수치로 설명할 수 있습니다. 변수 간의 관계를 수치로 정의한 것을 모형이라고 합니다. 더욱 중요한 것은 모형에서 한 변수(Y)의 평균 값을 다른 변수(X)의 값을 바탕으로 예측할 수도 있다는 것입니다. X 변수를 예측 변수라고도 합니다.일반적으로 이러한 모형을 회귀 모형이라고 합니다.
JMP의 X로 Y 적합 플랫폼과 모형 적합 플랫폼에서는 회귀 모형을 생성합니다.
참고: 여기서는 기본 플랫폼과 옵션만 다룹니다. 모든 플랫폼 옵션에 대한 설명은 Basic Analysis, Essential Graphing, 그리고 내용 소개에 나열된 설명서에서 확인하십시오.
표 5.3 관계 유형에서는 네 가지 기본 유형의 관계를 보여 줍니다.
로지스틱 회귀에 대해서는 자세한 설명이 필요합니다. 자세한 내용은 Basic Analysis의 "로지스틱 분석" 장에서 확인하십시오.
먼저, 직원 수와 매출 수익 간의 관계를 확인하기 위해 산점도를 생성합니다. 이 산점도는 데이터 시각화 장의 산점도 생성에서 생성되었습니다. 그림 5.12 Sales ($M)# Employ 산점도의 산점도는 여기에서 이상치 하나(직원 수와 매출이 현저하게 높은 회사)를 숨기고 제외한 후의 결과를 보여 줍니다.
그림 5.12 Sales ($M)# Employ 산점도
직원 수로 매출 수익을 예측하려면 회귀 모형을 적합시켜야 합니다. "이변량 적합"의 빨간색 삼각형을 클릭하고 선형 적합을 선택합니다. 산점도에 회귀선이 추가되고 보고서 창에 보고서가 추가됩니다.
그림 5.13 회귀선
p 값이 .0001보다 작음
"# Employ" 모형 항의 p 값이 작습니다. 이는 유의 수준 0.05에서 "# Employ"에 대한 계수가 0이 아니라는 것을 뒷받침합니다. 따라서 예측 모형에 직원 수를 포함하면 직원 수가 포함되지 않은 모형에 비해 평균 매출을 예측하는 능력이 크게 향상됩니다.
2.
> 제외/제외 해제를 선택합니다.
그림 5.14 모형 비교
그림 5.14 모형 비교의 결과를 바탕으로 데이터 분석가는 다음과 같은 결론을 내릴 수 있습니다.
이 질문에 답하려면Type을 기준으로 Profits ($M)를 적합시킵니다.
1.
도움말 > 샘플 데이터 라이브러리를 선택하고 Companies.jmp를 엽니다.
2.
Companies.jmp 샘플 데이터 테이블을 열어 둔 상태라면 제외되었거나 숨겨진 행이 있을 수 있습니다. 행을 기본 상태로 되돌려 숨겨진 행 없이 모든 행을 포함하려면 > 행 상태 지우기를 선택합니다.
3.
분석 > X로 Y 적합을 선택합니다.
4.
Profits ($M)를 선택하고 Y, 반응을 클릭합니다.
5.
Type을 선택하고 X, 요인을 클릭합니다.
6.
확인을 클릭합니다.
그림 5.15 회사 유형별 수익
2.
> 제외/제외 해제를 선택합니다. 해당 데이터 점이 더 이상 계산에 포함되지 않습니다.
3.
> 숨기기/숨기기 해제를 선택합니다. 해당 데이터 점이 모든 그래프에서 숨겨집니다.
4.
이상치를 제외하고 그림을 다시 생성하려면 "Profits ($M) 대 Type의 일원 분석"을 클릭하고 다시 실행 > 분석 다시 실행을 선택합니다. 원래의 산점도 창은 닫아도 됩니다.
그림 5.16 업데이트된 그림
표시 옵션 > 평균 선. 이 옵션을 선택하면 산점도에 평균 선이 추가됩니다.
평균 및 표준편차. 이 옵션을 선택하면 평균 및 표준편차를 제공하는 보고서가 표시됩니다.
그림 5.17 평균 선 및 보고서
이 질문에 답하려면 2표본 t-검정을 수행합니다. t-검정을 통해 표본의 데이터를 사용하여 더 많은 모집단에 대한 추론을 할 수 있습니다.
t-검정을 수행하려면 "일원 분석"의 빨간색 삼각형을 클릭하고 평균/ANOVA/합동 t를 선택합니다.
그림 5.18 t-검정 결과
p 값 0.0001은 유의 수준 0.05보다 작으므로 통계적으로 유의함을 나타냅니다. 따라서 재무 분석가는 표본 데이터에 대한 평균 수익의 차이가 우연으로 인한 것이 아니라고 결론 내릴 수 있습니다. 즉, 더 큰 모집단에서 제약 회사의 평균 수익은 컴퓨터 회사의 평균 수익과 다릅니다.
신뢰 구간 한계를 사용하여 두 회사 유형의 수익에 얼마나 많은 차이가 있는지 파악합니다. 그림 5.18 t-검정 결과에서 차이 CL 상한차이 CL 하한을 살펴봅니다. 재무 분석가는 제약 회사의 평균 수익이 컴퓨터 회사의 평균 수익보다 높은 3억 4천 3백만 달러에서 9억 2천 6백만 달러 사이라고 결론을 내립니다.
범주형 X 변수와 Y 변수를 사용할 때는 Y 변수 내 수준의 비율을 X 변수 내의 수준과 비교할 수 있습니다.
이 예에서는 계속해서 Companies.jmp 데이터 테이블을 사용합니다. 한 변수에 대한 평균 비교에서 재무 분석가는 제약 회사가 컴퓨터 회사보다 평균적으로 더 높은 수익을 얻는 것으로 판단했습니다.
1.
도움말 > 샘플 데이터 라이브러리를 선택하고 Companies.jmp를 엽니다.
2.
이전 예의 Companies.jmp 데이터 파일을 계속 열어 둔 상태라면 제외되거나 숨겨진 행이 있을 수 있습니다. 행을 기본 상태로 되돌려 숨겨진 행 없이 모든 행을 포함하려면 > 행 상태 지우기를 선택합니다.
3.
분석 > X로 Y 적합을 선택합니다.
4.
Size Co를 선택하고 Y, 반응을 클릭합니다.
5.
Type을 선택하고 X, 요인을 클릭합니다.
6.
확인을 클릭합니다.
그림 5.19 회사 유형별 회사 규모
분할표에는 이 예에 적용할 수 없는 정보가 포함되어 있습니다. "분할표"의 빨간색 삼각형을 클릭하고 총 %열 %를 선택 취소하여 해당 정보를 제거합니다. 그림 5.20 업데이트된 분할표에서는 업데이트된 테이블을 보여 줍니다.
그림 5.20 업데이트된 분할표
이 질문에 답하려면 검정 보고서에서 Pearson 검정의 p 값을 사용해야 합니다(회사 유형별 회사 규모). p 값 0.011이 유의 수준 0.05보다 작기 때문에 재무 분석가는 다음과 같이 결론을 내립니다.
한 변수에 대한 평균 비교 섹션에서는 범주형 변수 하나의 여러 수준에서 평균을 비교했습니다. 한 번에 두 개 이상의 변수에 대해 여러 수준에서 평균을 비교하려면 분산 분석 기법(또는 ANOVA)을 사용해야 합니다.
Type(Pharmaceutical 또는 Computer)
Size(small, medium, big)
1.
도움말 > 샘플 데이터 라이브러리를 선택하고 Companies.jmp를 엽니다.
2.
그래프 > 그래프 빌더를 선택합니다. "그래프 빌더" 창이 나타납니다.
3.
Profits ($M)를 클릭하고 Y 영역으로 드래그하여 놓습니다.
4.
Size Co를 클릭하고 X 영역으로 드래그하여 놓습니다.
5.
Type을 클릭하고 그룹 X 영역으로 드래그하여 놓습니다.
그림 5.21 회사 수익 그래프
6.
이 이상치를 선택한 후 마우스 오른쪽 버튼을 클릭하고 행 > 행 제외를 선택합니다. 해당 점이 제거되고 그래프 범위가 자동으로 업데이트됩니다.
그림 5.22 이상치가 제거된 그래프
1.
이상치 데이터 점이 제거된 Companies.jmp 샘플 데이터로 돌아갑니다. 자세한 내용은 관계 발견에서 확인하십시오.
2.
분석 > 모형 적합을 선택합니다.
3.
Profits ($M)를 선택하고 Y를 클릭합니다.
4.
TypeSize Co를 모두 선택합니다.
5.
매크로 버튼을 클릭하고 완전 요인을 선택합니다.
6.
"강조" 메뉴에서 효과 선별을 선택합니다.
7.
대화상자 열린 채 유지 옵션을 선택합니다.
그림 5.23 완료된 모형 적합 창
8.
실행을 클릭합니다. 보고서 창에 모형 결과가 나타납니다.
참고: 모든 모형 적합 결과에 대한 자세한 내용은 Fitting Linear Models의 "Model Specification" 장에서 확인하십시오.
"효과 검정" 보고서(그림 5.24 효과 검정 보고서)는 통계 검정 결과를 보여 줍니다. "모형 적합" 창에는 모형에 포함된 "Type", "Size Co" 및 "Type*Size Co" 효과에 대한 검정이 있습니다.
그림 5.24 효과 검정 보고서
먼저, 모형에서의 교호작용에 대한 검정인 "Type*Size Co" 효과를 살펴봅니다. 그림 5.22 이상치가 제거된 그래프에서는 제약 회사의 규모에 따라 수익이 다르게 나타난다는 것을 보여 주었습니다. 그러나 이 효과 검정은 수익과 관련하여 유형과 규모 간에 교호작용이 없음을 나타냅니다. p 값 0.218은 매우 큰 값으로, 유의 수준 0.05보다도 큽니다. 따라서 해당 효과를 모형에서 제거하고 모형을 다시 실행합니다.
2.
"모형 효과 생성" 상자에서 Type*Size Co 효과를 선택하고 제거를 클릭합니다.
3.
실행을 클릭합니다.
그림 5.25 업데이트된 효과 검정 보고서
"Size Co" 효과의 p 값은 크며, 이는 더 광범위한 모집단에서 크기에 따른 차이가 없음을 나타냅니다. "Type" 효과의 p 값은 작아서, 컴퓨터와 제약 회사 간의 데이터에서 확인된 차이가 우연히 발생한 것이 아님을 나타냅니다.
하나의 예측 변수가 있는 회귀 사용 섹션에서는 하나의 예측 변수와 하나의 반응 변수로 구성된 단순 회귀 모형을 생성하는 방법을 소개했습니다. 다중 회귀는 둘 이상의 예측 변수를 사용하여 평균 반응 변수를 예측합니다.
이 예에서는 초코바의 영양 정보가 포함된 Candy Bars.jmp 데이터 테이블을 사용합니다.
다중 회귀를 사용하여 이 세 가지 예측 변수를 통해 평균 반응 변수를 예측합니다.
1.
도움말 > 샘플 데이터 라이브러리를 선택하고 Candy Bars.jmp를 엽니다.
2.
그래프 > 산점도 행렬을 선택합니다.
3.
Calories를 선택하고 Y, 열을 클릭합니다.
4.
Total fat g, Carbohydrate gProtein g를 선택하고 X를 클릭합니다.
5.
확인을 클릭합니다.
그림 5.26 산점도 행렬 결과
Candy Bars.jmp 샘플 데이터 테이블을 계속 사용합니다.
1.
분석 > 모형 적합을 선택합니다.
2.
Calories를 선택하고 Y를 클릭합니다.
3.
Total fat g, Carbohydrate gProtein g를 선택하고 추가를 클릭합니다.
4.
"강조" 옆에서 효과 선별을 선택합니다.
그림 5.27 모형 적합 창
5.
실행을 클릭합니다.
참고: 모든 모형 결과에 대한 자세한 내용은 Fitting Linear Models의 "Model Specification" 장에서 확인하십시오.
실제값 대 예측값 그림은 실제 칼로리와 예측된 칼로리를 보여 줍니다. 예측값이 실제값에 가까워질수록 산점도의 점이 빨간색 선 주위로 모입니다(그림 5.28 실제값 대 예측값 그림). 점이 모두 선에 매우 가깝기 때문에 모형이 선택한 요인을 기반으로 칼로리를 정확하게 예측한다는 것을 알 수 있습니다.
그림 5.28 실제값 대 예측값 그림
모형 정확도의 또 다른 측도는 R² 값입니다. 이 값은 그림 5.28 실제값 대 예측값 그림의 그림 아래에 나타납니다. R² 값은 모형에 의해 설명된 대로 칼로리의 변동률을 측정합니다. 1에 가까운 값은 모형이 정확하게 예측한다는 것을 의미합니다. 이 예에서 R² 값은 0.99입니다.
모수 추정값 해석
그림 5.29 모수 추정값 보고서
이 예에서 p 값은 모두 매우 작습니다(<.0001). 이것은 칼로리를 예측할 때 세 가지 효과(지방, 탄수화물 및 단백질)가 모두 유의하게 기여함을 나타냅니다.
그림 5.30 예측 프로파일러
그림 5.31 Milky Way의 요인 값
참고: 예측 프로파일러에 대한 자세한 내용은 Profilers의 "Profiler" 장에서 확인하십시오.