JMP Background

JMP®를 이용한 통계와 예측 모형화, 데이터 마이닝

통계학은 변동을 계량화하고 데이터 간의 유용한 관계를 밝혀내기 위해 데이터를 수집, 설명, 분석하는 학문입니다. 불확실성이 존재할 때에도 통계를 통해 문제를 해결하고 기회를 포착하며 정보에 입각한 결정을 내릴 수 있습니다. 또한 통계의 효과적인 적용을 통해 어떠한 복잡한 상황에서도 통찰력과 예지력, 그리고 지속적인 학습 및 개선 수단을 얻을 수 있습니다.

여러분께서 하시고자 하는 작업이 데이터를 통한 기술, 예측, 설명 중 어떠한 것이라도, 시각화와 모델링간의 본질적인 시너지 효과를 활용하는 JMP의 통계적 발견 패러다임의 진가를 확인하실 수 있습니다. 데이터가 메모리에 수용되기만 하면, JMP는 데이터 크기와 형태, 그리고 사용자의 통계 전문 지식 수준과 관계없이 데이터를 최대한 활용할 수 있습니다.

JMP는 일변량 선형회귀 및 비선형 회귀 분석과 탐색적 데이터 분석, 차원 축소 및 모델링을 위한 보다 유용한 다변량 접근방식, 시계열 및 범주형 데이터 분석을 위한 포괄적인 기능을 제공합니다. JMP및 JMP Pro는 대부분의 사용자가 통계적으로 필요로 하는 바를 충족하도록 설계되어 있으며, 다양한 기법과 결과를 손쉽게 파악할 수 있지만 분석의 깊이는 손상시키지 않습니다. 또한 JMP는 일반적인 데이터 문제를 초기에 해결하는 모델링 유틸리티를 갖추고 있으며, JMP Pro는 지저분한 데이터로도 더 좋은 모형을 구축할 수 있는 정교한 알고리즘을 갖추고 있습니다.

JMP를 이용하면 모형화를 빠르고 정확하게 할 수 있음은 물론, 계산식 저장소(JMP Pro)를 이용하여 서로 다른 접근법을 사용하는 모형을 손쉽게 비교, 대조할 수 있고 C, Python, JavaScript, SAS로 코드를 만들어 새로운 사례를 작성할 수도 있습니다.

JMP는 시각적인 대화식 보고서와 프로파일러를 통해 통계에 친숙하지 않지만 결과를 이해하고 실행에 옮겨야 하는 사람들에게 결과를 알기 쉽게 전달할 수 있습니다. 또 JMP에서 나온 모형 결과는 모바일이나 데스크톱 웹 브라우저에서 동적으로 프로파일링될 수도 있습니다.

마지막으로, JMP Pro는 통합된 기능을 이용, 몬테카를로 시뮬레이션을 통해 적합한 모형(단순한 모형이나 복잡한 모형)에 대한 표본 크기를 쉽게 계산할 수 있습니다. 이를 통해 수집한 데이터의 성능을 평가하여 당면한 문제를 해결할 수 있습니다. 

회귀

선형 회귀 모형은 다양하며 흔히 볼 수 있는 분석방법입니다. JMP에서는 숙련도와 관계 없이 누구나 선형회귀분석을 손쉽게 사용할 수 있는 형태로 제공합니다.

Fit Y By X 플랫폼을 이용하면 단일 설명변수와 결과변수 간의 종속성을 테스트하고 모형화할 수 있습니다. JMP는 이질적인 통계 기법들을 일관성 있고 이해할 수 있는 하나의 기법으로 통합해 그래픽으로 결과를 제시하므로 누구나 쉽게 이해할 수 있습니다.

Fit Model 플랫폼에서는 단순한 모형이든 복잡한 모형이든 특정된 고정 효과와 랜덤 효과, 정의된 오차항을 적용할 수 있습니다. 효과 요약 보고서를 통해 항을 드래그 앤드 드롭하면서 모형에 대한 영향을 평가할 수 있습니다.

JMP에서는 선호하는 모형 구축 방법이 무엇이든 적합한 진단기능과 함께 완전한 수동 및 자동 방법이 가능해 대부분의 선형 모형을 신속하게 구축할 수 있습니다. “결측치 정보화” 접근법을 통해 모든 행에 포함된 정보를 활용할 수 있습니다. 특정한 적합(fitting) 옵션은 사용자의 주의를 적절하게 집중시킵니다. 즉, JMP Pro는 여기서 한 걸음 더 나아가 혼합 모형(반복측정이나 공간 측정을 올바르게 처리하기 위한)과 일반화 회귀모형(Elastic Net 등 설명력을 지닌 X 값을 찾아내는 정규화 또는 벌점화 회귀 기법이 있음) 기능을 갖추고 있습니다. 또한 JMP Pro는 분위수 회귀도 지원합니다.

JMP에서는 경쟁 모형도 쉽게 비교할 수 있습니다. 복수의 반응도 통합된 방식으로 처리되며 프로파일러가 있어 여러가지 적합된 결과와 다양한 해석의 의미를 간단히 비교하고 대조할 수 있습니다. 또한 프로파일러를 사용하여 Y를 최적화하기 위한 설정을 찾을 수 있으며, 몬테카를로 시뮬레이션을 통해 X의 변동이 Y에 어떻게 영향을 미치는지 평가할 수 있습니다.

비선형 플랫폼을 통해서는 비선형 관계를 모형화할 수 있습니다. 비선형 모형은 표준 최소 제곱과 사용자 손실 함수 중 하나를 사용합니다. JMP에는 생물검사 및 약물동력학 연구에 필요한 비선형 모형 유형 라이브러리가 있어 시작 값이나 보조 식을 입력할 필요가 없습니다. 변수 그룹화가 지원되므로 그래픽 화면을 이용하여 대상 효과를 손쉽고 빠르게 분리할 수 있습니다. 사용자 손실 함수는 유연성이 커 로버스트 회귀에 반복 재가중 최소 제곱 등을 사용할 수 있습니다.

Categorical Data(범주형 데이터)

JMP의 범주형 플랫폼은 측정된 반응이 특정 범주에 속하게 되면, 반응 데이터와 다중 반응 데이터의 테이블, 요약 및 통계적 검정결과를 제시합니다. 이 같은 데이터는 검정 결과나 분류 결함, 부작용, 설문 조사 관리 등 다양한 설정에서 생성됩니다.

범주형 데이터는 적용 분야가 넓어 다양한 형식으로 표현될 수 있습니다. 범주형 플랫폼의 특별한 장점은 데이터 탐색 및 분석 전에 데이터를 재구성할 필요 없이 이러한 다양성을 처리할 수 있다는 것입니다. 하나 이상의 열로 범주를 정의할 수 있으며, 그 범주 안에서 또는 범주 사이에서 반응 내 변이가 평가됩니다. 범주형 보고서에는 공유와 빈도 결과 차트가 범주 별로 수록됩니다. 이 차트들을 JMP 데이터 필터와 함께 사용하면 대규모 설문 조사 데이터를 빠르고 쉽게 검토할 수 있습니다. 이 보고서에는 또 연결된 표와 교차표도 표시돼 신속하게 변환하여 빠르게 검토하고 필요 시 인쇄할 수도 있습니다.

반응의 속성에 따라 통계적으로 다음과 같이 문제를 처리할 수도 있습니다.

  • 반응 패턴이 표본 범주에 따라 다양하며 시간 경과에 따라 변하는가?
  • 각 반응 범주에서 비율이 표본 범주 간에 동일한가?
  • 등급간엔 얼마나 일치하는가?
  • 다른 처리의 상대 위험도는 얼마인가?

Trees(의사결정나무)

JMP의 Partition 플랫폼을 이용하면 출력(Y)의 변화를 가장 잘 예측할 수 있는 입력(X) 안에서 자르기 또는 그룹화를 찾을 수 있습니다. X 및 Y는 범주형 또는 연속형일 수 있습니다. 적절한 X와 이 X에 대한 적절한 그룹화 또는 자르기 점을 찾아 데이터를 분할하는 과정은 반복적이므로 유용한 적합을 찾을 때까지 계속할 수 있습니다. 결과는 트리 형태로 표현되며 Y의 변이를 설명하는 데 어떤 X가 가장 크게 영향을 미치는지도 확인할 수 있습니다.

트리 기법은 결측치가 존재해도 robust하며 X의 결합 효과를 직접 수용합니다. 의사 결정 트리, Bootstrap Forest(JMP Pro에만 해당) 또는 Boosted Tree(JMP Pro에만 해당)를 이용하여 트리를 확장할 수 있습니다. 단순한 의사결정나무 분석은 새 데이터로 일반화되지 못할 가능성이 높으므로, 예측 검정력이 필요할 경우 JMP Pro를 사용해야 합니다.

Neural Networks(신경망 분석)

JMP의 신경망 플랫폼을 이용하면 하나(JMP) 또는 두 계층(JMP Pro)에 숨겨진 노드로 완전히 연결된 신경망을 구축할 수 있습니다. JMP에서는 모든 노드의 활성화 함수가 같습니다. JMP Pro의 경우, 각 노드에는 세 가지 활성화 함수 3개 중 하나를 선택할 수 있습니다. 각 계층에서 노드 수는 제한이 없습니다.

JMP Pro에서는 또 결측치를 자동으로 처리하고 플랫폼 내에서 X의 변환이 자유로우며, 부스트를 통해 4가지 패널티 방법 중 하나를 적용하여 네트워크에게 까다로운 사례를 학습시킬 수 있습니다.

Text Explorer(텍스트 탐색기)

JMP의 텍스트 탐색기 플랫폼으로는 설문조사 응답, 수리 기록, 엔지니어링 보고서 및 자유 응답 필드 등 다양한 형태의 자유 형식 텍스트 데이터를 탐구할 수 있습니다. 텍스트 탐색기는 "단어 가방" 접근법을 이용하여 텍스트를 토큰으로 구문 분석하여 문서 용어 매트릭스를 구성합니다. 이렇게 하면 수동으로 텍스트 데이터를 처리하거나 완전히 무시할 필요없이 텍스트 데이터를 손쉽게 분류하고 의미를 찾아낼 수 있습니다.

또한, JMP의 텍스트 탐색기는 기본적인 키워드 추출을 제공하고, 원본 텍스트를 변경하지 않고도 문서를 정리할 수 있는 지역적 재코딩을 지원하며, 주제어별 클라우드를 개발할 수 있는 옵션을 갖추고 있습니다. 따라서 텍스트 데이터에서 잠재된 정보를 찾고 텍스트 데이터를 처리하여 정보를 추출할 수 있습니다.

JMP Pro의 텍스트 탐색기는 특이값 분해(SVD)를 이용하는 추가 분석 도구를 갖춰 유사한 문서를 주제별로 그룹화할 수 있습니다. 이 플랫폼을 이용하면 잠재 계층 분석을 통해 텍스트 문서를 군집화하거나 문서 집합에 포함된 항 또는 문서를 군집화할 수 있습니다. 또한 판별 분석을 수행하고 예측 모형 워크플로에서 훈련/검증/테스트 구분을 사용할 수 있습니다.

Multivariate Interdependence Techniques(다변량 상호의존 기법)

다변량 분석은 관측치(행) 또는 변수(열) 중 하나에 중점을 두며 변수를 대등하게 취급(상호의존 기법)하거나 효과(X) 및 반응(Y)을 구분(종속적 기법)합니다. JMP는 분석 목적이 무엇이든 사용자를 도와 작업을 완료합니다. (X 및 Y와 관련된 다변량 방법은 다변량 종속 기법 섹션 참조.)

다변량 분석에서 데이터 품질, 이상치 식별 및 처리와 결측치 패턴은 반드시 고려해야 하는 요소입니다. JMP는 이 같은 문제를 해결하는 유틸리티를 갖추고 있습니다. 일반적으로, 이 문제는 분석이 전개되는 동안 반복해서 해결해야 하는데, JMP의 상호작용기능은 이 같은 처리 방식에 맞춰 설계되었습니다.

다변량 플랫폼은 수많은 열을 사용하는 분석의 진입점이 되기도 합니다. 다변량 플랫폼을 통해 모든 수치형 변수 쌍 간의 관계와 모수 및 비모수 상관관계를 신속하게 평가하고, 이상치를 찾아낼 수 있으며 결측치를 대체할 수 있습니다.

상호의존 기법의 경우, JMP는 주성분 분석(PCA), 요인 분석, 군집분석, 잠재 계층 분석, 다차원 척도법, 연관 분석(JMP Pro), 정규 혼합, SOM(self-organizing map)이 가능합니다. 각 분석은 데이터 표시 내용에 따라 접근 방식을 구체화할 수 있도록 전개되는 분석 스타일을 사용합니다.

PCA로는 상관관계가 존재할 때 변수의 차원수를 줄일 수 있고 JMP에 구현된 기능은 매우 폭넓은 데이터를 효율적으로 수용할 수 있습니다. 정량적 변수 대신 범주형 변수가 있을 경우, JMP로 PCA 대신 다중 대응 분석을 수행하여 유사한 결과를 얻을 수 있습니다. 요인 분석은 관찰되지 않은 요인의 수가 적을 때, 관찰된 변수들 간의 변동을 모형화할 수 있습니다. 요인 분석 플랫폼으로는 한 보고서에서 다중 적합과 회전이 가능하며 조건부 형식 지정을 통해 작은 값을 억제할 수 있습니다.

군집분석은 자율 학습의 주된 기법으로, 특정 부분군의 사례가 다른 부분군의 사례보다 더욱 유사하도록 부분군을 형성합니다. JMP의 군집 플랫폼은 분석 이전에 변수를 척도화하고 변환할 수 있으며 다양한 거리 측정이 가능하며 계층적 군집화와 K 평균 군집화가 포함됩니다. 계층적 군집화는 사용자가 대화식으로 조작할 수 있는 덴드로그램을 만들어 군집 요약 또는 기타 휴리스틱을 이용하는 가장 유용한 군집 수를 결정합니다. 또한 누적 데이터에 공간 척도를 추가할 수 있으므로 특정 결함 패턴의 군집화가 가능합니다.

잠재 계층 분석은 군집화의 대안이 되며 연관성 분석(장바구니 분석이라고도 알려짐)은 특정 개체(함께 구매하는 품목 등) 간 연결을 찾아냅니다.

Multivariate Dependence Techniques(다변량 종속 기법)

다변량 종속적 기법에서는 JMP가 부분 최소 제곱 회귀(PLS)와 판별 분석, Naïve Bayes, 최인접 분류자와 가우스 프로세스를 수행할 수 있습니다.

PLS는 모든 형태의 데이터를 사용할 수 있는 다양한 기법이며 X 및 Y의 수에 제한이 없습니다. 이 기법은 때로 행보다 X가 많기 때문에 선형 회귀를 실행할 수 없는 상황에 적용되기도 하지만 일반적으로 예측 모형화에서 유용한 기법으로 보기도 합니다.

JMP의 PLS 플랫폼은 기본 기능만을 갖추고 있는 반면, JMP Pro는 Fit Model 플랫폼에 검정력과 교호작용 항이 있는 복잡한 모형을 적합할 수 있는 PLS 분석법이 있습니다. JMP Pro를 이용하면 결측치를 대체하고 다양한 검증(validation) 방법을 이용하여 PLS 모형을 구축할 수 있습니다.

JMP는 적합을 위한 NIPALS 및 SIMPLS 알고리즘과, 모형에 넣을 가장 적절한 잠재 요인 수를 자동으로 찾는 기능을 제공합니다. JMP는 모형 적합성을 확인할 수 있는 모든 일반 진단방법을 제공합니다. 또한 그래픽 출력에서 적절한 수의 조건을 선택하거나 VIP 임계값을 정의하여 항이 적은 PLS 모형을 신속하게 생성할 수 있습니다. 반응이 범주형일 경우엔, JMP Pro의 PLS 판별 분석을 이용할 수 있습니다.

판별 플랫폼을 사용하면 어느 X 조합이 Y의 판별에 도움이 되는지 파악할 수 있습니다. 이 플랫폼은 판별분석을 위한 선형, 2차 또는 정규화된 방법을 제공하고, 필요시 X의 단계별 선택이 가능하며, 불확실하거나 분류되지 않은 행을 손쉽게 검사하여 필요한 후속 조치나 시정 조치를 결정할 수 있습니다. 판별은 비대각 항목을 축소하여 최적으로 추정된 공분산 행렬을 이용하여 광범위한 문제를 효율적으로 해결할 수 있습니다.

가우스 프로세스를 이용해 X의 함수인 Y값을 정확하게 보간할 수 있으며(결정적 시스템의 대리 모형 구축하기 위해서) 보다 일반적인 모형화 도구로도 이용할 수 있습니다.

Time Series(시계열)

JMP의 시계열 플랫폼을 이용하여 일변량 시계열을 탐구, 모형화 및 예측할 수 있습니다. 사용자의 통계 모형화 접근법은 자기상관 및 부분 자기상관 그림, 변동도, AR 계수 및 스펙트럼 밀도 등 일반 진단을 통해 확인할 수 있습니다. 시계열을 손쉽게 분해하여 X11 법의 사용 등을 통해 추세 및 계절적 영향을 제거할 수 있습니다.

한 번의 클릭으로 다양한 매개 변수를 사용하여 여러 ARIMA 모델을 구축할 수 있고, AIC, SBC, MAPE 및 MAE와 같은 다양한 성능 지수를 사용하여 최고의 모델을 선택할 수 있습니다. 전송 모형을 구축하여 하나 이상의 입력 시계열에 대한 출력 시계열을 모형화할 수 있으며 필요하다면 입력에 사전 백색화(pre-whitening)를 적용할 수 있습니다. 또한 필요한 경우 SAS에서 모형을 실행하기 위해 동등한 PROC ARIMA 코드를 생성 할 수도 있습니다.

시계열 플랫폼에는 홀트 지수 평활, 계절 지수 평활 및 윈터법 등 시계열에 대한 여러 평활 기법도 포함되어 있습니다.

어떤 사례에서든 예상되는 미래 행동에 대한 대화식 예측을 신뢰 구간을 적용해 생성할 수 있습니다.

Back to Top