JMP Background

JMP®를 사용한 통계, 예측 모형화 및 데이터 마이닝

통계는 데이터를 수집, 설명 및 분석하여 변동을 정량화하고 유용한 관계를 밝혀내는 분야입니다. 통계를 통해 문제를 해결하고 기회를 포착하며 불확실한 상황에서 정보에 기초한 의사 결정을 내릴 수 있습니다. 통계를 효과적으로 응용한다면 처해 있는 상황에 관계없이 통찰력과 선견지명을 얻고 지속적인 학습과 개선의 수단을 확보할 수 있습니다.

목표로 하는 바가 설명이든, 예측이든, 해명이든 관계없이 시각화와 모델링 간의 고유한 시너지를 이용한 통계적 발견이라는 JMP의 패러다임은 누구에게나 유용합니다. 데이터의 형태 및 크기에 관계없이 메모리 용량만 초과하지 않으면 사용자의 현재 통계 전문 지식 수준이 낮더라도 JMP에서 데이터의 활용도를 극대화할 수 있습니다.

JMP는 일변량 선형/비선형 회귀 분석, 보다 유용한 다변량 탐색법, 차원 축소 및 모델링, 시계열 및 범주형 데이터 분석 등을 포괄적으로 지원하는 기능을 제공합니다. JMP와 JMP Pro는 언제 어떤 사용자가 통계를 필요로 할지라도 이를 충족할 수 있도록 하기 위해 다양한 기법과 결과를 쉽게 이해하도록 표면화하면서도 분석의 깊이는 해치지 않습니다. 또한 JMP에는 일반적인 데이터 문제를 직접적으로 다루는 일련의 모델링 유틸리티가 들어 있으며, JMP Pro에는 정리되지 않은 데이터로 효과적인 모형을 구축할 수 있는 정교하고 다양한 알고리즘이 포함되어 있습니다.

JMP를 사용하면 공식 저장소(JMP Pro)를 사용하여 빠르고 정확하게 모델링 작업을 수행할 수 있을 뿐 아니라, 다양한 기법으로 구축한 모형을 손쉽게 비교 및 대조하고 C, Python, JavaScript 또는 SAS로 코드를 생성한 후 배포하여 새로운 사례에 대한 점수를 매길 수 있습니다.

JMP는 통계 기법에 익숙하지 않으나 결과를 파악하여 조치를 취해야 하는 사람에게 간단하거나 복잡한 결과물을 전달할 수 있도록 하기 위해 상호작용 방식의 시각적인 보고서 및 프로파일러를 제공합니다. JMP에서 생성되는 모형 결과를 모바일 또는 데스크톱 웹 브라우저에서 동적으로 프로파일링할 수도 있습니다.

마지막으로, 통합 기능을 지원하는 JMP Pro에서는 몬테카를로 시뮬레이션을 통해 적합화된 모형(단순 또는 복잡)에 대해 손쉽게 표본 크기 계산을 수행할 수 있습니다. 이 기능은 수집된 데이터의 검정력을 평가하여 문제를 해결하는 데 도움이 됩니다.

회귀

선형 회귀 모형 종류는 매우 다양하면서도 다목적으로 활용됩니다. JMP는 이 강력한 기법을 다양한 숙련도의 실무자가 쉽게 활용할 수 있는 방식으로 제공합니다.

단순 모형 적합을 사용하면 단일 입력과 단일 결과 간의 종속성을 검정하고 모델링할 수 있습니다. JMP는 일반적으로 서로 관련 없다고 여겨지는 여러 통계 기법을 일관되고 이해하기 쉽게 하나로 통합하고 결과를 쉽게 알아볼 수 있도록 그래픽 출력을 제공합니다.

다중 모형 적합 플랫폼은 간단하거나 복잡한 모형을 지정된 고정 효과/임의 효과 및 정의된 오류 항으로 적합화하는 환경을 제공합니다. 효과 요약 보고서에서는 항을 모형으로 끌어 놓고 효과를 확인할 수 있습니다.

어떤 모형 구축 방식을 선택하든 JMP는 모든 수동 및 자동 기법을 적절한 진단 기능과 함께 완벽하게 제공하고 대부분의 선형 모형 유형을 신속하게 구축할 수 있도록 해줍니다. "결측 정보 포함" 접근법은 행에 있는 모든 정보가 활용될 수 있도록 해줍니다.특정 적합화 옵션에는 적절한 주의가 필요합니다. JMP Pro는 혼합 모형(반복적이고 공간적인 측정을 올바르게 처리하기 위해)과 일반화 회귀(설명 능력이 있는 X를 찾도록 해주는 Elastic Net 같이 정규화되거나 벌점이 적용된 회귀 기법을 사용)를 추가함으로써 유형을 확장합니다. JMP Pro는 분위수 회귀도 지원합니다.

JMP에서는 경쟁 모형을 손쉽게 비교할 수 있습니다. 다중 반응은 통합된 방식으로 처리되며, 프로파일러를 통해 다양한 적합의 해석력과 결과를 간편하게 비교하고 대조할 수 있습니다. 또한 프로파일러를 통해 Y를 최적화할 설정을 찾을 수 있으며, 몬테카를로 시뮬레이션은 X의 변동이 Y로 어떻게 전이되는지를 평가하는 데 유용합니다.

비선형 플랫폼에서는 비선형 관계를 모델링할 수 있습니다. 비선형 모형에는 표준 최소 제곱 또는 사용자 정의 손실 함수가 사용됩니다. JMP는 생물 검정 및 약동학 연구에 필요한 비선형 모형 유형의 라이브러리를 제공하므로 사용자가 시작값이나 보조 공식을 입력할 필요가 없습니다. 그룹화 변수가 지원되므로 그래픽 표시를 사용하여 모든 개체 효과를 손쉽게 분리할 수 있습니다. 사용자 정의 손실 함수 기능은 로버스트 회귀에 반복적으로 가중치가 변경되는 최소 제곱을 사용할 수 있도록 하는 등의 추가적인 유연성을 제공합니다.

범주형 데이터

JMP의 범주형 플랫폼은 측정된 반응이 특정 범주에 속한 것으로 나타나면 반응 데이터와 다중 반응 데이터에 대한 테이블, 요약 및 통계적 검정을 제공합니다. 이와 같은 데이터는 검정 결과, 결함/부작용 분류, 설문조사 관리 등 다양한 설정에서 생성됩니다.

이렇듯 다양하게 응용되기 때문에 범주형 데이터는 다양한 형식으로 존재하게 됩니다. 범주형 플랫폼의 특별한 장점은 탐색 및 분석 전에 데이터의 형태를 변형하지 않고도 이러한 다양성을 처리할 수 있다는 점입니다. 범주를 하나 이상의 열로 정의하여 범주 내부와 범주 간에 반응의 변동을 평가할 수 있으며, 범주형 보고서에는 범주별로 공유 및 빈도에 대한 결과 차트가 포함됩니다. 이러한 차트는 JMP에서 데이터 필터와 함께 사용되어 대규모 설문조사 데이터를 쉽고 빠르게 검토할 수 있게 해 줍니다. 이 보고서에서는 연관된 테이블과 교차표도 표시할 수 있으며, 보거나 인쇄하기 쉽도록 필요에 따라 이들의 위치를 신속하게 바꿀 수 있습니다.

반응의 특성에 따라 다음과 같은 문제를 통계적으로 해결할 수도 있습니다.

  • 반응의 패턴이 표본 범주에 따라 다르고 시간의 경과에 따라 변화되었는가?
  • 전체 표본 범주에서 각 표본 범주의 비율이 동일한가?
  • 비율이 얼마나 가깝게 일치하는가?
  • ?서로 다른 처리 간의 상대 위험도는 얼마인가?

트리

JMP의 분할 플랫폼을 사용하면 입력(X) 내에서 출력(Y)의 변동을 가장 효과적으로 예측할 수 있는 경계 또는 군집을 찾을 수 있습니다. X와 Y는 둘 다 범주형일 수도 있고 연속형일 수도 있습니다. 적절한 X를 찾고 해당 X에 대한 적절한 군집 또는 경계점을 찾아 데이터를 분할하는 프로세스는 반복적으로 수행되며, 이러한 과정은 유용한 적합을 얻을 때까지 계속할 수 있습니다. 기본적으로 결과는 트리로 나타내며, X 중 어느 것이 Y의 변동을 설명하는 데 가장 크게 기여하는지에 대한 중요한 정보를 얻을 수도 있습니다.

트리는 결측값이 있는 경우에 견고하며 X의 모든 결합 효과를 직접적으로 수용합니다. 의사 결정 트리, 부트스트랩 포리스트(JMP Pro만 해당) 또는 부스트 트리(JMP Pro만 해당)를 사용하여 트리를 확장할 수 있습니다. 단순 의사 결정 트리는 새 데이터로 제대로 일반화되지 않으므로 예측 검정력이 필요한 경우 JMP Pro를 조사해야 합니다.

신경망

JMP의 신경망 플랫폼을 사용하면 하나(JMP) 또는 두 개(JMP Pro) 계층에 있는 숨겨진 노드로 완벽하게 연결된 신경망을 구축할 수 있습니다. JMP에서는 모든 노드의 활성화 함수가 동일합니다. JMP Pro에서는 각 노드에 세 가지 활성화 함수 중 하나를 사용할 수 있습니다. 각 계층의 노드 수에는 제한이 없습니다.

또한 JMP Pro에서는 결측치를 자동으로 처리할 수 있고, 플랫폼 내에서 X를 변환할 수 있으며, 4가지 벌점 방식 중 하나를 적용하여 네트워크가 까다로운 사례를 학습하도록 부스팅 기능을 사용할 수 있습니다.

다변량 상호 의존 기법

다변량 분석은 관측치(행) 또는 변수(열)에 초점을 맞출 수 있으며, 여러 변수를 대등한 관계로 취급(상호 의존 기법)하거나 효과 X와 반응 Y를 서로 구분(종속 기법)할 수 있습니다. 분석 목적이 무엇이든 JMP로 작업을 완수할 수 있습니다. X 및 Y와 관련한 다변량 방식에 대한 자세한 내용은 다변량 종속 기법 섹션을 참조하십시오.

다변량과 관련해서는 데이터 품질, 이상치의 식별과 처리, 결측치의 패턴을 고려하는 것이 무엇보다 중요합니다. JMP는 이러한 문제를 해결하는 데 있어서 번거로운 과정을 처리해 주는 유틸리티를 제공합니다.일반적으로 이러한 문제는 분석이 펼쳐지는 과정에서 반복적으로 해결해야 하며, JMP의 상호작용 방식은 이와 같은 작업에 적합하도록 만들어졌습니다.

다변량 플랫폼은 다수의 열을 사용하는 분석에서 진입점으로 종종 사용됩니다. 이 플랫폼을 사용하면 모든 숫자 변수 쌍 간의 연관성과 모수적/비모수적 상관 관계를 신속하게 평가하고, 이상치를 파악하며, 결측치의 원인을 밝힐 수 있습니다.

상호 의존 기법과 관련하여 JMP는 주성분 분석(PCA), 요인 분석, 군집화, 잠재 클래스 분석, 다차원 척도, 연관성 분석(JMP Pro), 정규 혼합 및 SOM(Self-Organizing Map)을 제공합니다. 이들은 각각 펼치기 분석 스타일을 사용하므로 데이터에서 드러나는 정보에 따라 접근법을 결정할 수 있습니다.

PCA를 사용하면 상관 관계가 있을 경우 기술(description)의 차원을 축소할 수 있으므로 JMP에서 구현할 때 매우 광범위한 데이터를 효율적으로 수용할 수 있습니다. 양적 변수가 아니라 범주형 변수인 경우 JMP에서 PCA 대신 다중 대응 분석을 수행하여 비슷한 결과를 얻을 수 있습니다. 요인 분석에서는 더 적은 수의 관찰되지 않은 요인과 관련하여 관찰된 변수 간의 변이를 모델링할 수 있습니다. 요인 분석 플랫폼을 사용하면 하나의 보고서에서 여러 적합과 회전이 허용되며, 조건부 서식 지정을 통해 작은 값을 숨길 수 있습니다.

비지도(unsupervised) 학습의 핵심 기법인 군집화는 특정 하위 그룹의 사례가 다른 하위 그룹의 사례보다 더 유사성이 높도록 하위 그룹을 형성합니다. JMP의 군집 플랫폼을 사용하면 분석 전에 변수의 배율을 조정 및 변환하고, 다양한 거리 측정치를 제공하며, 계층적 군집화 및 K-평균 군집화를 포함할 수 있습니다. 계층적 군집화에서는 사용자가 군집 요약 또는 기타 발견적 방법을 사용하여 상호작용 방식으로 조작함으로써 가장 유용한 군집 수를 결정할 수 있는 덴드로그램을 생성합니다. 또한 누적 데이터에 공간적 측정치를 추가하여 특정 결함 패턴을 군집화할 수 있습니다.

잠재 클래스 분석은 군집화의 대안으로 사용할 수 있으며, 연관성 분석(장바구니 분석이라고도 함)은 특정 조사 대상(예: 종종 함께 구매되는 물품) 간의 연관성을 파악합니다.

다변량 종속 기법

다변량 종속 기법과 관련해 JMP는 부분 최소 자승법 회귀(PLS), 판별 분석, 나이브 베이즈 및 최근접 이웃 분류자 및 가우스 과정 모형을 제공합니다.

PLS는 X 및 Y의 수에 관계없이 모든 형태의 데이터를 사용할 수 있는 다용도 기법으로, 행보다 X의 수가 많아 선형 회귀를 사용하기 어려운 상황에 주로 적용되지만, 예측 모델링 내에서는 일반적으로 유용한 기법이라고도 할 수 있습니다.

JMP의 PLS 플랫폼은 기본 기능을 제공하는 반면, JMP Pro의 경우 다중 모형 적합 플랫폼에는 검정력 및 상호작용 항과 관련하여 보다 복잡한 모형을 적합화할 수 있는 PLS의 특별한 기능도 포함되어 있습니다. 또한 JMP Pro에서는 결측치의 원인을 밝히고, 다양한 유효성 검사 방법을 사용하여 PLS 모형을 구축할 수 있습니다.

JMP는 NIPALS 알고리즘과 SIMPLS 알고리즘을 모두 제공하여 적합화를 지원하며, 모형에 포함할 가장 적절한 잠재 요인 수를 자동으로 찾아 줍니다. 일반적인 진단 기능이 모두 제공되므로 모형의 타당성을 검사할 수 있습니다. 또한 그래픽 출력에서 적절하게 선택하거나 VIP 임계값을 정의함으로써 항의 수를 줄인, 가지치기 된 PLS 모형을 신속하게 생성할 수도 있습니다. 반응이 범주형인 경우 JMP Pro의 PLS-판별 분석을 사용할 수 있습니다.

판별 플랫폼에서는 Y의 범주 멤버십을 설명하는 데 도움이 되는 X의 조합을 파악할 수 있습니다. 필요에 따라 선형, 2차 또는 정규화된 판별 방식으로 단계별로 X를 선택할 수 있으며, 불명확하거나 잘못 분류된 행을 손쉽게 조사하여 필요한 후속 조치 또는 시정 조치를 결정할 수 있습니다. 판별 기능을 사용하면 비대각 항목을 적절히 축소하여 구한 최적 추정 공분산 행렬을 사용함으로써 광범위한 문제 또는 매우 광범위한 문제를 효율적으로 다룰 수 있습니다.

가우스 과정은 X(개수에 제한 없음)의 함수인 Y 값을 정확하게 보간(결정적 시스템의 대체 모형 구축을 위해)하는 데 사용하거나 일반적인 모델링 도구로 사용할 수 있습니다.

시계열

JMP의 시계열 플랫폼에서는 일변량 시계열을 탐색하고 모델링하고 예측할 수 있습니다. 자기상관 및 편자기상관, 변동도, AR 계수 및 스펙트럼 밀도 도표를 비롯한 일반적인 진단을 통해 통계 모델링 방식에 정보를 제공할 수 있습니다. 시계열을 간단히 분해하여 X11 방법 사용을 비롯한 추세 및 계절 효과를 제거할 수 있습니다.

클릭 한 번으로 특정 시계열에 대해 다양한 모수를 사용한 여러 개의 ARIMA 모형을 구축하고, AIC, SBC, MAPE, MAE 등 다양한 성능 지수를 사용하여 최상의 모형을 선택할 수 있습니다. 필요한 경우 입력에 사전백색화(pre-whitening)를 적용하여 하나 이상의 입력 계열과 관련한 출력 시계열을 모델링하는 전이 모형을 구축할 수 있습니다. 또한 동등한 PROC ARIMA 코드를 생성하여 필요에 따라 SAS에서 모형을 실행할 수 있습니다.

시계열 플랫폼에는 홀트 지수 평활, 계절 지수 평활, Winter 방법 등 다양한 시계열 평활 기법도 포함되어 있습니다.

어떠한 경우든 예측된 미래 행동에 대한 상호작용 방식의 예측을 신뢰 구간과 함께 생성할 수 있습니다.

Back to Top