관계 분석

산점도 및 기타 그래프는 변수 간의 관계를 시각화하는 데 도움이 됩니다. 관계를 시각화한 후에는 다음 단계로 그 관계를 분석하여 수치로 설명할 수 있습니다. 변수 간의 관계를 수치로 정의한 것을 모형이라고 합니다. 더욱 중요한 것은 모형에서 한 변수(Y)의 평균 값을 다른 변수(X)의 값을 바탕으로 예측할 수도 있다는 것입니다. X 변수를 예측 변수라고도 합니다.일반적으로 이러한 모형을 회귀 모형이라고 합니다.

JMP의 X로 Y 적합 플랫폼과 모형 적합 플랫폼에서는 회귀 모형을 생성합니다.

참고: 여기서는 기본 플랫폼과 옵션만 다룹니다. 모든 플랫폼 옵션에 대한 설명은 Basic Analysis, Essential Graphing, 그리고 내용 소개에 나열된 설명서에서 확인하십시오.

표 5.3 관계 유형에서는 네 가지 기본 유형의 관계를 보여 줍니다.

표 5.3 관계 유형

섹션

연속형

•	하나의 예측 변수가 있는 회귀 사용

•	다중 예측 변수가 있는 회귀 사용

범주형

연속형

•	한 변수에 대한 평균 비교

•	여러 변수의 평균 비교

로지스틱 회귀에 대해서는 자세한 설명이 필요합니다. 자세한 내용은 Basic Analysis의 "로지스틱 분석" 장에서 확인하십시오.

하나의 예측 변수가 있는 회귀 사용

시나리오

이 예에서는 제약 및 컴퓨터 업계의 32개 회사에 대한 재무 데이터가 포함된 Companies.jmp 데이터 테이블을 사용합니다.

직원 수가 많은 회사가 직원 수가 적은 회사보다 많은 매출 수익을 창출한다는 것은 직관적으로 알 수 있습니다. 데이터 분석가는 직원 수에 따라 각 회사의 전체 매출 수익을 예측하려고 합니다.

이 작업을 완수하려면 다음을 수행하십시오.

•

•

•

먼저, 직원 수와 매출 수익 간의 관계를 확인하기 위해 산점도를 생성합니다. 이 산점도는 데이터 시각화 장의 산점도 생성에서 생성되었습니다. 그림 5.12 Sales ($M) 대 # Employ 산점도의 산점도는 여기에서 이상치 하나(직원 수와 매출이 현저하게 높은 회사)를 숨기고 제외한 후의 결과를 보여 줍니다.

그림 5.12 Sales ($M) 대 # Employ 산점도

이 산점도는 매출과 직원 수 간의 관계를 명확하게 보여 줍니다. 예상대로, 회사의 직원이 많을수록 매출액이 높아질 수 있습니다. 이 산점도로 데이터 분석가의 추측을 시각적으로 확인할 수 있지만 특정 수의 직원에 대한 매출을 예측할 수는 없습니다.

회귀 모형 적합

직원 수로 매출 수익을 예측하려면 회귀 모형을 적합시켜야 합니다. "이변량 적합"의 빨간색 삼각형을 클릭하고 선형 적합을 선택합니다. 산점도에 회귀선이 추가되고 보고서 창에 보고서가 추가됩니다.

그림 5.13 회귀선

보고서에서 다음 결과를 확인하십시오.

•	p 값이 .0001보다 작음

•	R² 값이 0.618임

이러한 결과를 바탕으로 데이터 분석가는 다음과 같은 결론을 내릴 수 있습니다.

•	"# Employ" 모형 항의 p 값이 작습니다. 이는 유의 수준 0.05에서 "# Employ"에 대한 계수가 0이 아니라는 것을 뒷받침합니다. 따라서 예측 모형에 직원 수를 포함하면 직원 수가 포함되지 않은 모형에 비해 평균 매출을 예측하는 능력이 크게 향상됩니다.

•	R² 값 0.618은 이 모형이 매출 변동의 약 62%를 설명하고 있음을 나타냅니다. R² 값은 결정 계수로서, 모형으로 설명되는 종속(반응) 변수의 분산 비율을 나타냅니다. R²는 0에서 1 사이입니다. R²가 0인 모형은 설명력이 없습니다. R²가 1인 모형은 반응을 완벽하게 예측합니다.

평균 매출 예측

회귀 모형을 사용하면 특정 수의 직원이 있을 때 회사에서 기대할 수 있는 평균 매출을 예측할 수 있습니다. 이 모형에 대한 예측 방정식이 보고서에 포함되어 있습니다.

평균 매출 = 1059.68 + 0.092*직원 수

예를 들어 직원 수가 70,000명인 회사의 매출은 약 7,500달러로 예측됩니다.

7,499.68달러 = 1059.68 + 0.092*70,000

현재 산점도의 오른쪽 아래에는 다른 회사의 일반적인 패턴을 따르지 않는 이상치가 있습니다. 데이터 분석가는 이 이상치가 제외될 때 예측 모형이 바뀌는지에 대해 알고 싶습니다.

이상치 제외

1.	이상치를 클릭합니다.

2.	행 > 제외/제외 해제를 선택합니다.

3.	이 모형을 적합시키려면 "Sales (SM) 대 # Employ의 이변량 적합" 옆의 빨간색 삼각형을 클릭하고 선형 적합을 선택합니다.

다음 항목이 보고서 창에 추가됩니다(그림 5.14 모형 비교).

•

새 회귀선

•	다음을 포함하는 새 선형 적합 보고서

–

새 예측 방정식

–

새 R² 값

그림 5.14 모형 비교

결과 해석

그림 5.14 모형 비교의 결과를 바탕으로 데이터 분석가는 다음과 같은 결론을 내릴 수 있습니다.

•	이상치는 큰 회사의 회귀선을 끌어내리고 작은 회사의 회귀선을 끌어올립니다.

•	이상치가 없는 데이터에 대한 새 모형은 첫 번째 모형보다 강력한 모형입니다. 새 R² 값 0.88은 초기 분석보다 높고 1에 더 가깝습니다.

결론

새 예측 방정식을 사용하면 7만 명의 직원이 있는 회사의 예측 평균 매출을 다음과 같이 계산할 수 있습니다.

8,961.37달러 = 631.37 + 0.119*70,000

첫 번째 모형의 예측값은 약 7,500달러입니다. 두 번째 모형에서는 총 매출을 첫 번째 모형에 비해 1,460달러 늘어난 약 8,960달러로 예측합니다.

이상치를 제거한 두 번째 모형은 직원 수를 기준으로 한 매출 총액을 첫 번째 모형보다 더욱 정확하게 설명하고 예측합니다. 데이터 분석가는 이제 사용하기 적절한 모형을 확보했습니다.

한 변수에 대한 평균 비교

연속형 Y 변수와 범주형 X 변수가 있으면 X 변수의 수준에서 평균을 비교할 수 있습니다.

시나리오

이 예에서는 제약 및 컴퓨터 업계의 32개 회사에 대한 재무 데이터가 포함된 Companies.jmp 데이터 테이블을 사용합니다.

재무 분석가가 다음과 같은 질문에 대한 답을 구하려고 합니다.

•	컴퓨터 회사의 수익은 제약 회사의 수익과 어떻게 비교됩니까?

이 질문에 답하려면Type을 기준으로 Profits ($M)를 적합시킵니다.

관계 발견

1.	도움말 > 샘플 데이터 라이브러리를 선택하고 Companies.jmp를 엽니다.

2.	Companies.jmp 샘플 데이터 테이블을 열어 둔 상태라면 제외되었거나 숨겨진 행이 있을 수 있습니다. 행을 기본 상태로 되돌려 숨겨진 행 없이 모든 행을 포함하려면 행 > 행 상태 지우기를 선택합니다.

3.	분석 > X로 Y 적합을 선택합니다.

4.	Profits ($M)를 선택하고 Y, 반응을 클릭합니다.

5.	Type을 선택하고 X, 요인을 클릭합니다.

6.	확인을 클릭합니다.

그림 5.15 회사 유형별 수익

컴퓨터 유형에 이상치가 있습니다. 이 이상치는 산점도의 범위를 늘리고 수익을 비교하기 어렵게 만듭니다. 이상치를 제외하고 숨깁니다.

1.	이상치를 클릭합니다.

2.	행 > 제외/제외 해제를 선택합니다. 해당 데이터 점이 더 이상 계산에 포함되지 않습니다.

3.	행 > 숨기기/숨기기 해제를 선택합니다. 해당 데이터 점이 모든 그래프에서 숨겨집니다.

4.	이상치를 제외하고 그림을 다시 생성하려면 "Profits ($M) 대 Type의 일원 분석"을 클릭하고 다시 실행 > 분석 다시 실행을 선택합니다. 원래의 산점도 창은 닫아도 됩니다.

그림 5.16 업데이트된 그림

이상치를 제거하면 재무 분석가가 데이터를 보다 명확하게 파악할 수 있습니다.

5.	관계 분석을 계속하려면 "Profits ($M) 대 Type의 일원 분석" 옆의 빨간색 삼각형에서 다음 옵션을 선택합니다.

–	표시 옵션 > 평균 선. 이 옵션을 선택하면 산점도에 평균 선이 추가됩니다.

–	평균 및 표준편차. 이 옵션을 선택하면 평균 및 표준편차를 제공하는 보고서가 표시됩니다.

그림 5.17 평균 선 및 보고서

결과 해석

재무 분석가는 컴퓨터 회사의 수익이 제약 회사의 수익과 어떻게 비교되는지 알고자 했습니다. 업데이트된 산점도는 제약 회사의 평균 수익이 컴퓨터 회사보다 높다는 것을 보여 줍니다. 이 보고서의 경우 한 쪽 평균 값에서 다른 쪽의 평균 값을 뺀 수익 차이는 약 6억 3,500만 달러입니다. 이 산점도는 또한 컴퓨터 회사 중 일부의 수익이 마이너스이고 모든 제약 회사의 수익은 플러스임을 보여 줍니다.

t-검정 수행

재무 분석가는 회사 표본(데이터 테이블에 있는 회사)만을 살펴보았습니다. 재무 분석가는 이제 다음 질문을 검토하고자 합니다.

•	더 광범위한 모집단에서 차이가 있습니까? 아니면 6억 3,500만 달러의 차이는 우연입니까?

•	차이가 있다면 얼마입니까?

이 질문에 답하려면 2표본 t-검정을 수행합니다. t-검정을 통해 표본의 데이터를 사용하여 더 많은 모집단에 대한 추론을 할 수 있습니다.

t-검정을 수행하려면 "일원 분석"의 빨간색 삼각형을 클릭하고 평균/ANOVA/합동 t를 선택합니다.

그림 5.18 t-검정 결과

p 값 0.0001은 유의 수준 0.05보다 작으므로 통계적으로 유의함을 나타냅니다. 따라서 재무 분석가는 표본 데이터에 대한 평균 수익의 차이가 우연으로 인한 것이 아니라고 결론 내릴 수 있습니다. 즉, 더 큰 모집단에서 제약 회사의 평균 수익은 컴퓨터 회사의 평균 수익과 다릅니다.

결론

신뢰 구간 한계를 사용하여 두 회사 유형의 수익에 얼마나 많은 차이가 있는지 파악합니다. 그림 5.18 t-검정 결과에서 차이 CL 상한 및 차이 CL 하한을 살펴봅니다. 재무 분석가는 제약 회사의 평균 수익이 컴퓨터 회사의 평균 수익보다 높은 3억 4천 3백만 달러에서 9억 2천 6백만 달러 사이라고 결론을 내립니다.

비율 비교

범주형 X 변수와 Y 변수를 사용할 때는 Y 변수 내 수준의 비율을 X 변수 내의 수준과 비교할 수 있습니다.

시나리오

이 예에서는 계속해서 Companies.jmp 데이터 테이블을 사용합니다. 한 변수에 대한 평균 비교에서 재무 분석가는 제약 회사가 컴퓨터 회사보다 평균적으로 더 높은 수익을 얻는 것으로 판단했습니다.

재무 분석가는 회사의 규모가 수익에 미치는 영향이 회사 유형별로 달라지는지 알아보려고 합니다. 그러나 이 질문을 검토하기 전에 재무 분석가는 컴퓨터 및 제약 회사의 모집단에서 소규모, 중간 규모 및 대규모 기업이 동일한 비율로 구성되었는지 알아야 합니다.

관계 발견

1.	도움말 > 샘플 데이터 라이브러리를 선택하고 Companies.jmp를 엽니다.

2.	이전 예의 Companies.jmp 데이터 파일을 계속 열어 둔 상태라면 제외되거나 숨겨진 행이 있을 수 있습니다. 행을 기본 상태로 되돌려 숨겨진 행 없이 모든 행을 포함하려면 행 > 행 상태 지우기를 선택합니다.

3.	분석 > X로 Y 적합을 선택합니다.

4.	Size Co를 선택하고 Y, 반응을 클릭합니다.

5.	Type을 선택하고 X, 요인을 클릭합니다.

6.	확인을 클릭합니다.

그림 5.19 회사 유형별 회사 규모

분할표에는 이 예에 적용할 수 없는 정보가 포함되어 있습니다. "분할표"의 빨간색 삼각형을 클릭하고 총 % 및 열 %를 선택 취소하여 해당 정보를 제거합니다. 그림 5.20 업데이트된 분할표에서는 업데이트된 테이블을 보여 줍니다.

그림 5.20 업데이트된 분할표

결과 해석

분할표의 통계량은 모자이크 그림에 그래픽으로 표시됩니다.모자이크 그림과 분할표는 두 업계의 소규모, 중간 규모 및 대규모 기업 비율을 비교합니다. 예를 들어 모자이크 그림은 컴퓨터 업계가 제약 업계에 비해 소규모 기업의 비율이 높음을 보여 줍니다. 분할표에서는 정확한 통계량을 보여 줍니다. 즉, 컴퓨터 회사의 70%가 소규모이고 제약 회사의 약 17%가 소규모입니다.

검정 해석

재무 분석가는 회사 표본(데이터 테이블에 있는 회사)만을 살펴보았습니다. 재무 분석가는 모든 컴퓨터 및 제약 회사의 더 광범위한 모집단에서 비율이 다른지 알아야 합니다.

이 질문에 답하려면 검정 보고서에서 Pearson 검정의 p 값을 사용해야 합니다(회사 유형별 회사 규모). p 값 0.011이 유의 수준 0.05보다 작기 때문에 재무 분석가는 다음과 같이 결론을 내립니다.

•	표본 데이터에서의 차이는 우연으로 인한 것만이 아닙니다.

•	더 광범위한 모집단에서는 비율이 달라집니다.

이제 재무 분석가는 소규모, 중간 규모 및 대규모 기업의 비율이 다르다는 것을 알고 있으며 다음 질문에 답할 수 있습니다.

여러 변수의 평균 비교

한 변수에 대한 평균 비교 섹션에서는 범주형 변수 하나의 여러 수준에서 평균을 비교했습니다. 한 번에 두 개 이상의 변수에 대해 여러 수준에서 평균을 비교하려면 분산 분석 기법(또는 ANOVA)을 사용해야 합니다.

시나리오

재무 분석가는 비율 비교 섹션에서 검토하기 시작한 질문에 대답할 수 있습니다. 유형(제약 또는 컴퓨터)에 따라 회사의 규모가 회사의 수익에 미치는 영향이 달라집니까?

이 질문에 대답하려면 다음 두 변수를 기준으로 회사 수익을 비교하십시오.

•	Type(Pharmaceutical 또는 Computer)

•	Size(small, medium, big)

관계 발견

유형과 크기의 모든 조합에 대해 수익 간의 차이를 시각화하려면 그래프를 사용하십시오.

1.	도움말 > 샘플 데이터 라이브러리를 선택하고 Companies.jmp를 엽니다.

2.	그래프 > 그래프 빌더를 선택합니다. "그래프 빌더" 창이 나타납니다.

3.	Profits ($M)를 클릭하고 Y 영역으로 드래그하여 놓습니다.

4.	Size Co를 클릭하고 X 영역으로 드래그하여 놓습니다.

5.	Type을 클릭하고 그룹 X 영역으로 드래그하여 놓습니다.

그림 5.21 회사 수익 그래프

그래프에서는 한 대규모 회사의 수익이 매우 크다는 것을 보여 줍니다. 이 이상치는 그래프의 범위를 늘려 다른 데이터 점을 비교하기 어렵게 만듭니다.

6.	이 이상치를 선택한 후 마우스 오른쪽 버튼을 클릭하고 행 > 행 제외를 선택합니다. 해당 점이 제거되고 그래프 범위가 자동으로 업데이트됩니다.

7.	막대 아이콘을 클릭합니다. 막대 차트를 사용하면 점을 사용할 때보다 쉽게 평균 수익을 비교할 수 있습니다.

그림 5.22 이상치가 제거된 그래프

업데이트된 그래프는 제약 회사의 평균 수익이 더 높다는 것을 보여 줍니다. 이 그래프는 또한 제약 회사만 회사 규모에 따라 수익이 달라진다는 것을 보여 줍니다. 한 변수(회사 규모)의 효과가 다른 변수(회사 유형)의 여러 수준에 대해 변경될 때 이를 교호작용이라고 합니다.

관계 수량화

이 데이터는 표본일 뿐이므로 재무 분석가는 다음을 판단해야 합니다.

•	차이가 이 표본에 국한되고 우연에 기인하는지 여부

또는

•	더 광범위한 모집단에 동일한 패턴이 존재하는지 여부

1.	이상치 데이터 점이 제거된 Companies.jmp 샘플 데이터로 돌아갑니다. 자세한 내용은 관계 발견에서 확인하십시오.

2.	분석 > 모형 적합을 선택합니다.

3.	Profits ($M)를 선택하고 Y를 클릭합니다.

4.	Type과 Size Co를 모두 선택합니다.

5.	매크로 버튼을 클릭하고 완전 요인을 선택합니다.

6.	"강조" 메뉴에서 효과 선별을 선택합니다.

7.	대화상자 열린 채 유지 옵션을 선택합니다.

그림 5.23 완료된 모형 적합 창

8.	실행을 클릭합니다. 보고서 창에 모형 결과가 나타납니다.

수익의 차이가 실제로 발생했는지 아니면 우연히 발생했는지를 판단하려면 효과 검정 보고서를 검토해야 합니다.

참고: 모든 모형 적합 결과에 대한 자세한 내용은 Fitting Linear Models의 "Model Specification" 장에서 확인하십시오.

효과 검정 보기

"효과 검정" 보고서(그림 5.24 효과 검정 보고서)는 통계 검정 결과를 보여 줍니다. "모형 적합" 창에는 모형에 포함된 "Type", "Size Co" 및 "Type*Size Co" 효과에 대한 검정이 있습니다.

그림 5.24 효과 검정 보고서

먼저, 모형에서의 교호작용에 대한 검정인 "Type*Size Co" 효과를 살펴봅니다. 그림 5.22 이상치가 제거된 그래프에서는 제약 회사의 규모에 따라 수익이 다르게 나타난다는 것을 보여 주었습니다. 그러나 이 효과 검정은 수익과 관련하여 유형과 규모 간에 교호작용이 없음을 나타냅니다. p 값 0.218은 매우 큰 값으로, 유의 수준 0.05보다도 큽니다. 따라서 해당 효과를 모형에서 제거하고 모형을 다시 실행합니다.

1.	"모형 적합" 창으로 돌아갑니다.

2.	"모형 효과 생성" 상자에서 Type*Size Co 효과를 선택하고 제거를 클릭합니다.

3.	실행을 클릭합니다.

그림 5.25 업데이트된 효과 검정 보고서

"Size Co" 효과의 p 값은 크며, 이는 더 광범위한 모집단에서 크기에 따른 차이가 없음을 나타냅니다. "Type" 효과의 p 값은 작아서, 컴퓨터와 제약 회사 간의 데이터에서 확인된 차이가 우연히 발생한 것이 아님을 나타냅니다.

결론

재무 분석가는 유형(제약 또는 컴퓨터)에 따라 회사의 규모가 회사의 수익에 미치는 영향에 차이가 있는지 알아보려고 했습니다. 재무 분석가는 이제 다음과 같이 질문에 답할 수 있습니다.

•	더 광범위한 모집단에서 컴퓨터와 제약 회사 간의 수익에는 실제로 차이가 있습니다.

•	회사의 규모와 유형 및 수익 간에는 상관관계가 없습니다.

다중 예측 변수가 있는 회귀 사용

하나의 예측 변수가 있는 회귀 사용 섹션에서는 하나의 예측 변수와 하나의 반응 변수로 구성된 단순 회귀 모형을 생성하는 방법을 소개했습니다. 다중 회귀는 둘 이상의 예측 변수를 사용하여 평균 반응 변수를 예측합니다.

시나리오

이 예에서는 초코바의 영양 정보가 포함된 Candy Bars.jmp 데이터 테이블을 사용합니다.

영양사는 다음 정보를 사용하여 칼로리를 예측하려고 합니다.

•

총 지방

•

탄수화물

•

단백질

다중 회귀를 사용하여 이 세 가지 예측 변수를 통해 평균 반응 변수를 예측합니다.

관계 발견

칼로리와 총 지방, 탄수화물 및 단백질 간의 관계를 시각화하려면 산점도 행렬을 생성합니다.

1.	도움말 > 샘플 데이터 라이브러리를 선택하고 Candy Bars.jmp를 엽니다.

2.	그래프 > 산점도 행렬을 선택합니다.

3.	Calories를 선택하고 Y, 열을 클릭합니다.

4.	Total fat g, Carbohydrate g 및 Protein g를 선택하고 X를 클릭합니다.

5.	확인을 클릭합니다.

그림 5.26 산점도 행렬 결과

산점도 행렬은 칼로리와 세 변수 간에 양의 상관관계가 있음을 보여 줍니다. 칼로리와 총 지방 간의 상관관계가 가장 강합니다. 이제 영양사는 관계가 있다는 것을 알고 있으므로 평균 칼로리를 예측하기 위해 다중 회귀 모형을 생성할 수 있습니다.

다중 회귀 모형 생성

Candy Bars.jmp 샘플 데이터 테이블을 계속 사용합니다.

1.	분석 > 모형 적합을 선택합니다.

2.	Calories를 선택하고 Y를 클릭합니다.

3.	Total fat g, Carbohydrate g 및 Protein g를 선택하고 추가를 클릭합니다.

4.	"강조" 옆에서 효과 선별을 선택합니다.

그림 5.27 모형 적합 창

5.	실행을 클릭합니다.

보고서 창에 모형 결과가 나타납니다. 모형 결과를 해석하려면 다음 영역에 중점을 둡니다.

•	실제값 대 예측값 그림 보기

•

모수 추정값 해석

•	예측 프로파일러 사용

참고: 모든 모형 결과에 대한 자세한 내용은 Fitting Linear Models의 "Model Specification" 장에서 확인하십시오.

실제값 대 예측값 그림 보기

실제값 대 예측값 그림은 실제 칼로리와 예측된 칼로리를 보여 줍니다. 예측값이 실제값에 가까워질수록 산점도의 점이 빨간색 선 주위로 모입니다(그림 5.28 실제값 대 예측값 그림). 점이 모두 선에 매우 가깝기 때문에 모형이 선택한 요인을 기반으로 칼로리를 정확하게 예측한다는 것을 알 수 있습니다.

그림 5.28 실제값 대 예측값 그림

모형 정확도의 또 다른 측도는 R² 값입니다. 이 값은 그림 5.28 실제값 대 예측값 그림의 그림 아래에 나타납니다. R² 값은 모형에 의해 설명된 대로 칼로리의 변동률을 측정합니다. 1에 가까운 값은 모형이 정확하게 예측한다는 것을 의미합니다. 이 예에서 R² 값은 0.99입니다.

모수 추정값 해석

"모수 추정값" 보고서는 다음과 같은 정보를 보여 줍니다.

•

모형 계수

•

각 모수의 p 값

그림 5.29 모수 추정값 보고서