예측 및 전문 모델링 > 붓스트랩 포레스트 > 붓스트랩 포레스트 플랫폼 시작
발행일 : 03/10/2025

Image shown here붓스트랩 포레스트 플랫폼 시작

분석 > 예측 모델링 > 붓스트랩 포레스트를 선택하여 붓스트랩 포레스트 플랫폼을 시작합니다.

그림 5.7 붓스트랩 포레스트 시작 창 

Bootstrap Forest Launch Window

"열 선택"의 빨간색 삼각형 메뉴에 포함된 옵션에 대한 자세한 내용은 열 필터 메뉴JMP 사용에서 확인하십시오.

붓스트랩 포레스트 플랫폼 시작 창에는 다음과 같은 옵션이 있습니다.

Y, 반응

분석할 하나 이상의 반응 변수입니다.

X, 요인

예측 변수입니다.

가중치

분석의 각 행에 가중치를 할당하는 숫자 값이 포함된 열입니다.

빈도

분석의 각 행에 빈도를 할당하는 숫자 값이 포함된 열입니다.

검증

검증 데이터 집합을 정의하는 숫자 열입니다. 이 열에는 최대 세 개의 구분되는 값이 포함되어야 합니다.

검증 열에 두 개의 수준이 있는 경우 더 작은 값이 훈련 데이터 집합을 정의하고 더 큰 값이 검증 데이터 집합을 정의합니다.

검증 열에 세 개의 수준이 있는 경우 작은 값부터 순서대로 훈련 데이터 집합, 검증 데이터 집합, 테스트 데이터 집합을 각각 정의합니다.

검증 열에 네 개 이상의 수준이 있는 경우 가장 작은 세 개의 값을 포함하는 행이 검증 데이터 집합을 정의합니다. 다른 모든 행은 분석에서 제외됩니다.

붓스트랩 포레스트 플랫폼에서는 검증 열을 사용하여 모형을 훈련 및 조정하거나 모형을 훈련, 조정 및 평가합니다. 검증에 대한 자세한 내용은 JMP 모델링의 검증에서 확인하십시오.

"열 선택" 목록에서 아무 열도 선택하지 않은 상태로 "검증" 버튼을 클릭하면 데이터 테이블에 검증 열을 추가할 수 있습니다. "검증 열 생성" 유틸리티에 대한 자세한 내용은 검증 열 생성에서 확인하십시오.

기준

개별 분석을 정의하는 수준이 포함된 하나 이상의 열입니다. 지정된 열의 각 수준에 대해 해당 행은 사용자가 지정한 다른 변수를 사용하여 분석됩니다. 결과는 개별 보고서에 제공됩니다. 기준 변수가 둘 이상 할당되면 기준 변수의 가능한 각 수준 조합에 대해 개별 보고서가 생성됩니다.

방법

분할 방법(의사 결정 나무, 붓스트랩 포레스트, 부스티드 트리, K 최근접 이웃 또는 나이브 베이즈)을 선택할 수 있습니다. 의사 결정 나무를 제외한 이 대체 방법은 JMP Pro에서 사용할 수 있습니다.

이러한 방법에 대한 자세한 내용은 파티션 모형, 부스티드 트리, K 최근접 이웃나이브 베이즈에서 확인하십시오.

검증 데이터 비율

검증 데이터 집합으로 사용할 데이터 비율입니다.

결측값 정보화

이 옵션을 선택하면 범주형 예측 변수에 대한 결측값 범주화 및 연속형 예측 변수에 대한 결측값 정보화 처리가 활성화됩니다. 자세한 내용은 ROC 곡선에서 확인하십시오.

순서형의 순서를 지킴

이 옵션을 선택하면 순서를 유지하는 분할만 고려하도록 제한됩니다.

Image shown here규격 창

"붓스트랩 포레스트 규격" 창에서 행과 항 수, 포레스트 상세 정보, 다중 적합 및 재현성을 지정할 수 있습니다. "붓스트랩 포레스트" 시작 창에서 "확인"을 선택하면 "붓스트랩 포레스트 규격" 창이 나타납니다.

그림 5.8 붓스트랩 포레스트 규격 창 

Bootstrap Forest Specification Window

Image shown here규격 패널

행 수

데이터 테이블의 행 수입니다.

항 수

예측 변수로 지정된 열 수입니다.

Image shown here포레스트 패널

포레스트의 트리 수

증가 후 평균을 구할 트리 수입니다.

분할당 표집되는 항 수

각 분할에서 분할 후보로 고려할 예측 변수의 수입니다. 각 분할에 대해 예측 변수의 새 랜덤 표본이 후보 집합으로 사용됩니다.

붓스트랩 표본 비율

각 트리를 증가시키기 위해 표집할 관측값의 비율입니다(복원 추출법 사용). 각 트리에 대해 새 랜덤 표본이 생성됩니다.

트리당 최소 분할 수

각 트리의 최소 분할 수입니다.

트리당 최대 분할 수

각 트리의 최대 분할 수입니다.

최소 크기 분할

후보 분할에 필요한 최소 관측값 수입니다.

조기 중지

(검증을 사용하는 경우에만 사용 가능) 이 옵션을 선택하면 트리를 추가해도 검증 통계량이 개선되지 않을 경우 추가 트리 증가가 중지됩니다. 검증 통계량은 검증 데이터 집합의 엔트로피 R² 값(범주형 반응의 경우) 및 R² 값(연속형 반응의 경우)입니다. 이 옵션을 선택하지 않으면 지정된 트리 수에 도달할 때까지 프로세스가 계속됩니다.

Image shown here다중 적합 패널

여러 항에 대한 다중 적합

이 옵션을 선택하면 분할당 표집된 항 수의 여러 값에 대한 붓스트랩 포레스트가 생성됩니다. 결과가 표시되는 모형은 검증 데이터 집합의 엔트로피 R² 값(범주형 반응의 경우) 또는 R² 값(연속형 반응의 경우)이 가장 큰 모형입니다.

하한은 "분할당 표집되는 항 수" 규격 값입니다. 상한은 다음 옵션으로 지정됩니다.

최대 항 수

분할에 대해 고려할 최대 항 수입니다.

설계 조정 테이블 사용

"포레스트" 패널 조정 모수의 값이 포함된 데이터 테이블(설계 조정 테이블)을 선택할 수 있는 창을 엽니다. 설계 조정 테이블에는 지정할 각 옵션에 대한 열과 각 붓스트랩 포레스트 모형 설계에 대한 행이 있습니다. 설계 조정 테이블에 옵션이 지정되지 않으면 기본값이 사용됩니다.

JMP에서는 지정된 조정 모수를 사용하여 테이블의 각 행에 대해 붓스트랩 포레스트 모형을 생성합니다. 설계 조정 테이블에 둘 이상의 모형이 지정된 경우 "모형 검증 집합 요약" 보고서에 각 모형의 R² 값이 나열됩니다. "붓스트랩 포레스트" 보고서에는 R² 값이 가장 큰 모형의 적합 통계량이 표시됩니다.

사용자 설계 또는 공간 채움 설계와 같은 실험 설계 기능을 사용하여 설계 조정 테이블을 생성할 수 있습니다. 자세한 내용은 붓스트랩 포레스트 플랫폼의 추가 예에서 확인하십시오. 붓스트랩 포레스트 설계 조정 테이블에는 다음 열이 임의의 순서로 포함될 수 있습니다.

트리 수

항 수

부분 붓스트랩

트리당 최소 분할 수

트리당 최대 분할 수

최소 크기 분할

Image shown here재현성 패널

멀티스레딩 제한

이 옵션을 선택하면 모든 계산이 단일 스레드에서 수행됩니다.

난수 시드값

이후 플랫폼 실행을 위해 결과를 재현하는 데 사용할 0이 아닌 숫자 난수 시드값을 지정합니다. 기본적으로 난수 시드값은 0으로 설정되어 재현 가능한 결과를 생성하지 않습니다. 분석을 스크립트에 저장하면 사용자가 입력한 난수 시드값이 스크립트에 저장됩니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).