발행일 : 03/10/2025

Image shown here추정 방법 옵션

"일반화 회귀" 제어판에서 사용할 수 있는 추정 방법은 다음 기법으로 그룹화할 수 있습니다.

선택 및 벌점이 없음

단계별 모형 선택

벌점 회귀

최대 가능도, 표준 최소 제곱 및 로지스틱 회귀 방법은 "모형 적합" 시작 창에 지정된 전체 모형을 적합시킵니다. 변수 선택은 수행되지 않습니다. 이러한 모형은 다른 방법과의 비교를 위한 기준으로 사용될 수 있습니다.

참고: 제공된 보고서에 대해 최대 가능도, 표준 최소 제곱 및 로지스틱 회귀 중 하나만 사용할 수 있습니다. 이 추정 방법의 이름은 "모형 적합" 시작 창에 지정된 분포에 따라 다릅니다.

후진 제거, 전진 선택, 가지 치기 전진 선택, 최량 부분집합 및 2단계 전진 선택 방법은 각 단계에서 모형에 추가되거나 제거되는 변수를 기반으로 합니다. 그러나 회귀 계수에 벌점을 부과하지 않습니다.

Dantzig 선택기, Lasso 회귀, Elastic Net, 능형 회귀 및 이중 Lasso 회귀 방법은 벌점 회귀 기법입니다. 모형의 예측 능력을 향상시키기 위해 회귀 계수 크기를 축소하고 추정값 분산을 줄입니다.

참고: 데이터의 공선성이 높은 경우 Lasso 회귀와 Elastic Net의 적응형 버전에서 적절한 해를 제공하지 못할 수 있습니다. 적응형 버전은 MLE가 적절한 추정값을 제공한다고 가정하기 때문입니다. 이러한 경우에는 "적응형" 옵션을 사용하지 않는 것이 좋습니다.

이러한 기법에는 다음과 같은 두 가지 유형의 벌점이 사용됩니다.

l1 벌점 - 회귀 계수의 절대값 합에 벌점을 부과합니다.

l2 벌점 - 회귀 계수의 제곱합에 벌점을 부과합니다.

관측 데이터에 대한 기본 추정 방법은 Lasso 회귀입니다. 데이터 테이블에 DOE 스크립트가 포함되어 있고 특이성이 없는 경우 기본 추정 방법은 효과 유전성 옵션이 활성화된 전진 선택입니다. 데이터 테이블에 DOE 스크립트가 포함되어 있고 설계 행렬에 특이성이 있는 경우 기본 추정 방법은 효과 유전성 옵션이 활성화된 2단계 전진 선택입니다.

모형 적합에 다음 방법을 사용할 수 있습니다.

선택 및 벌점이 없는 추정 방법

최대 가능도

모형 모수에 대한 MLE(최대 가능도 추정값)를 계산합니다. 벌점이 부과되지 않습니다. 분위수 회귀의 경우 최대 가능도 추정 방법만 사용할 수 있습니다. "모형 적합" 시작 창에서 "검증" 열을 지정한 경우 최대 가능도 모형이 훈련 데이터 집합에 적합됩니다. 다음 조건이 충족되면 최대 가능도 모형 보고서가 기본적으로 나타납니다.

예측 변수 사이에 선형 종속성이 없습니다.

관측값이 예측 변수보다 더 많습니다.

예측 변수가 250개 이하입니다.

"최대 가능도" 옵션을 사용하면 일반화 회귀 분석법에서 지원하는 반응 분포에 대한 전통적 모형을 생성할 수 있습니다. 또한 최대 가능도 기반 모형을 모형 비교를 위한 기준으로 사용할 수 있습니다.

정규 또는 이항 분포가 지정된 경우 "최대 가능도" 방법을 각각 "표준 최소 제곱" 또는 "로지스틱 회귀"라고 합니다.

표준 최소 제곱

정규 분포를 지정하면 "최대 가능도" 추정 방법이 "표준 최소 제곱" 추정 방법으로 대체됩니다. 기본 보고서는 일반적인 표준 최소 제곱 결과를 제공하는 "표준 최소 제곱" 보고서입니다.

로지스틱 회귀

이항 분포를 지정하면 "최대 가능도" 추정 방법이 "로지스틱 회귀" 추정 방법으로 대체됩니다. 기본 보고서는 "로지스틱 회귀" 보고서입니다. 로지스틱 결과는 최대 가능도 결과와 동일합니다.

단계별 추정 방법

참고: 다항 분포가 지정된 경우에는 단계별 추정 방법을 사용할 수 없습니다.

후진 제거

후진 제거 회귀를 사용하여 모수 추정값을 계산합니다. 선택한 모형은 선택한 검증 방법과 관련된 최적 해를 제공합니다. 후진 제거는 모형에 모든 모수를 포함하고 모형에 절편만 남을 때까지 각 단계에서 하나의 효과를 제거하는 것으로 시작됩니다. 각 단계마다 각 모수에 대해 Wald 검정을 사용하여 제거할 모수를 결정합니다.

주의: 후진 제거를 위한 해 경로의 가로 축은 다른 추정 방법에서 동일한 축의 반대입니다. 따라서 후진 제거 추정 방법에 대한 해 경로에서 왼쪽에서 오른쪽으로 이동하면 모형에 항이 추가되는 것이 아니라 제거됩니다.

전진 선택

단계별 전진 회귀를 사용하여 모수 추정값을 계산합니다. 각 단계에서 스코어 검정이 가장 유의한 효과가 모형에 추가됩니다. 선택한 모형은 선택한 검증 방법과 관련된 최적 해를 제공합니다.

교호작용이 있고 효과 유전성 옵션이 활성화된 경우 교락 효과는 다음과 같은 방식으로 처리됩니다. 주어진 단계에서 스코어 검정이 가장 유의한 효과가 효과 유전성을 위반하는 경우 교락 효과가 생성됩니다. 교락 효과는 스코어 검정이 가장 유의한 효과 및 효과 유전성을 충족하는 데 필요한 기타 비활성 효과를 포함합니다. 교락 효과에 스코어 검정이 가장 유의한 효과가 있는 경우 교락 효과의 모든 효과가 모형에 추가됩니다.

가지 치기 전진 선택

전진 단계와 후진 단계를 혼합하여 모수 추정값을 계산합니다. 절편만 있는 모형으로 알고리즘이 시작됩니다. 첫 번째 단계에서는 스코어 검정이 가장 유의한 효과가 모형에 추가됩니다. 첫 번째 단계 이후 알고리즘은 각 단계에서 다음과 같은 세 가지 가능성을 고려합니다.

1. 모형에 없는 효과 중 스코어 검정이 가장 유의한 효과를 추가합니다.

2. 모형에 있는 효과 중 Wald 검정이 가장 유의하지 않은 효과를 제거합니다.

3. 한 단계에서 위의 두 작업을 모두 수행합니다.

각 단계에서 수행되는 작업을 선택하기 위해 알고리즘은 지정된 검증 방법을 사용합니다. 예를 들어 BIC 검증 방법이 지정된 경우 알고리즘은 결과 BIC 값이 가장 작은 작업을 선택합니다. 교호작용이 있고 효과 유전성 옵션이 활성화된 경우 교락 효과는 효과 추가에만 고려되고 효과 제거에는 고려되지 않습니다.

모형이 포화 상태가 되면 알고리즘은 후진 단계를 시도하여 모형이 개선되는지 확인합니다. 알고리즘의 최대 단계 수는 모수 수의 5배입니다. 선택한 모형은 선택한 검증 방법과 관련된 최적 해를 제공합니다.

가지 치기 전진 선택은 단계별 회귀 분석법의 혼합 단계 옵션 대신 사용할 수 있습니다. 그러나 모형에 추가되거나 제거되는 변수를 결정할 때 p 값을 사용하지 않습니다.

팁: 가지 치기 전진 선택 추정 방법에는 조기 중지 옵션을 사용하지 않는 것이 좋습니다.

최량 부분집합

각 단계에서 모형의 활성 효과 수를 늘려 모수 추정값을 계산합니다. 각 단계마다 단계 번호에 지정된 수의 효과를 포함하는 모든 가능 모형 중에서 적절한 모형이 선택됩니다. 해 경로 그림의 가로 축에 있는 값은 모형의 활성 효과 수를 나타냅니다. 단계 0은 절편만 있는 모형에 해당합니다. 단계 1은 활성 효과가 하나만 포함된 모형 중 최적 모형에 해당합니다. 단계는 "모형 시작" 보고서의 "고급 컨트롤"에 지정된 "최대 효과 수" 값까지 계속됩니다. 자세한 내용은 고급 컨트롤에서 확인하십시오.

팁: 최량 부분집합 추정 방법은 계산량이 많습니다. 따라서 큰 문제에는 권장되지 않습니다.

2단계 전진 선택

(모형에 2차 이상 효과가 있는 경우에만 사용 가능) 모수 추정값을 두 단계로 계산합니다. 첫 번째 단계에서는 주효과에 대해 단계별 전진 회귀 모형을 실행하여 모형에 유지할 효과를 결정합니다. 두 번째 단계에서는 첫 번째 단계에서 선택된 주효과로만 구성된 모든 고차 효과에 대해 단계별 전진 회귀 모형을 실행합니다. 이 방법은 강한 효과 유전성을 가정합니다.

첫 번째 단계에서 유지되지 않은 항은 "모수 추정값" 보고서에 0인 항으로 나타납니다. 그러나 두 번째 단계 모형을 적합시킬 때 무시됩니다. 첫 번째 단계에서 선택된 항은 두 번째 단계에 강제 적용되지 않으며 두 번째 단계에서 선택할 수 있습니다.

SVEM 전진 선택

(Cox 비례 위험, 베타 이항, 다항, 순서형 로지스틱, ZI 이항 또는 ZI 베타 이항 분포가 지정된 경우에는 사용 불가능) 전진 선택에 적용되는 SVEM(자체 검증 앙상블 모델링) 방법을 사용하여 모수 추정값을 계산합니다. 앙상블 모형의 개별 모형 수는 "모형 시작" 제어판의 "표본" 옵션을 사용하여 지정됩니다. 자세한 내용은 자체 검증 앙상블 모형에서 확인하십시오.

벌점 추정 방법

Dantzig 선택기

(정규 분포가 지정되고 "절편 없음" 옵션이 선택되지 않은 경우에만 사용 가능) 선형 프로그래밍 방식으로 l1 벌점을 적용하여 모수 추정값을 계산합니다. 자세한 내용은 Candes and Tao 연구 자료(2007)에서 확인하십시오. Dantzig 선택기는 설계된 실험의 결과를 분석하는 데 유용합니다. 직교 문제의 경우 Dantzig 선택기와 Lasso 회귀에서 동일한 결과를 제공합니다. 자세한 내용은 Dantzig 선택기에서 확인하십시오.

올가미

l1 벌점을 적용하여 모수 추정값을 계산합니다. l1 벌점으로 인해 일부 계수가 0으로 추정될 수 있습니다. 따라서 적합 절차의 일부로 변수 선택이 수행됩니다. 일반 Lasso 회귀의 경우 모든 계수에 동일하게 벌점이 적용됩니다.

적응형 Lasso 회귀

회귀 계수 절대값의 가중 합에 벌점을 적용하여 모수 추정값을 계산합니다. l1 벌점의 가중치는 oracle 특성(Zou 2006)을 유지하는 것과 같은 방식으로 데이터에 의해 결정됩니다. 이 옵션은 MLE를 사용하여 l1 벌점에 가중치를 적용합니다. 예측 변수의 수가 관측값 수를 초과하거나 예측 변수 사이에 엄격한 선형 종속성이 있으면 MLE를 계산할 수 없습니다. 회귀 모수의 MLE를 계산할 수 없는 경우 일반화 역 해 또는 능형 회귀 해가 l1 벌점 가중치에 사용됩니다. 자세한 내용은 적응형 방법에서 확인하십시오.

일반적으로 "Lasso 회귀" 및 "적응형 Lasso 회귀" 옵션은 예측 변수의 상관관계가 높을 때 간결한 모형을 선택합니다. 이러한 기법은 상관관계가 높은 예측 변수 그룹 중 하나만 선택하는 경향이 있습니다. 고차원 데이터의 예측 변수는 대개 상관관계가 높습니다. 이러한 유형의 데이터에는 Lasso 회귀보다 Elastic Net을 사용하는 것이 좋습니다. 자세한 내용은 Lasso 회귀에서 확인하십시오.

Elastic Net

l1 벌점과 l2 벌점을 모두 적용하여 모수 추정값을 계산합니다. l1 벌점을 적용하면 변수 선택이 수행됩니다. l2 벌점은 능형 회귀와 같이 계수를 축소하여 예측 능력을 향상시킵니다.

적응형 Elastic Net

적응형 l1 벌점과 l2 벌점을 사용하여 모수 추정값을 계산합니다. 이 옵션은 MLE를 사용하여 l1 벌점에 가중치를 적용합니다. 예측 변수의 수가 관측값 수를 초과하거나 예측 변수 사이에 엄격한 선형 종속성이 있으면 MLE를 계산할 수 없습니다. 회귀 모수의 MLE를 계산할 수 없는 경우 일반화 역 해 또는 능형 회귀 해가 l1 벌점 가중치에 사용됩니다. "고급 컨트롤" 패널에서 "Elastic Net 알파" 값을 설정할 수 있습니다. 자세한 내용은 적응형 방법에서 확인하십시오.

예측 변수의 상관관계가 높을 때 Elastic Net의 예측 정확성이 Lasso 회귀보다 높은 경향이 있습니다. 실제로 능형 회귀와 Lasso 회귀 모두 Elastic Net의 특수한 사례입니다. 예측 능력 면에서는 적응형 Elastic Net이 Elastic Net 및 적응형 Lasso 회귀를 능가하는 경우가 많습니다. Elastic Net에는 상관관계가 높은 예측 변수 그룹을 선택하고 관련 예측 변수에 적절한 모수 추정값을 할당하는 기능이 있습니다. 자세한 내용은 Elastic Net에서 확인하십시오.

참고: "Elastic Net" 적합을 선택하고 "Elastic Net 알파"를 결측으로 설정하면 알고리즘이 Lasso 회귀, Elastic Net, 능형 회귀 적합을 순서대로 계산합니다. 적합에 시간이 많이 소요되는 경우 진행률 표시줄이 나타납니다. "현재 추정값 채택"을 클릭하면 계산이 중지되며 보고된 모수 추정값은 해당 지점에서 최적 모형 적합에 해당합니다. 진행률 표시줄은 알고리즘이 각각 Lasso 회귀, Elastic Net 및 능형 회귀를 적합시키고 있음을 나타냅니다. 이 정보를 사용하여 "현재 추정값 채택"을 클릭할 시기를 결정할 수 있습니다.

능형 회귀

능형 회귀를 사용하여 모수 추정값을 계산합니다. 능형 회귀는 l2 벌점을 적용하고 모수 추정값이 0이 되지 않는 편향 회귀 기법입니다. 모형의 모든 예측 변수를 유지하려는 경우에 유용합니다. 자세한 내용은 능형 회귀에서 확인하십시오.

이중 Lasso 회귀

모수 추정값을 두 단계로 계산합니다. 첫 번째 단계에서는 Lasso 회귀 모형을 적합시켜 두 번째 단계에 사용할 항을 결정합니다. 두 번째 단계에서는 첫 번째 단계에서 결정된 항을 사용하여 Lasso 회귀 모형을 적합시킵니다. 표시된 해 경로 결과 및 모수 추정값 보고서는 두 번째 단계 적합에 대한 것입니다. 첫 번째 단계에서 모형에 추가되는 변수가 없으면 두 번째 단계 없이 첫 번째 단계의 결과가 보고서에 나타납니다.

이중 Lasso 회귀는 관측값 수가 예측 변수의 수보다 적을 때 특히 유용합니다. 변수 선택 및 축소 작업을 두 단계로 나누면 두 번째 단계의 Lasso 회귀에서 모형에 포함되어야 할 항에 과도하게 벌점을 부과할 가능성이 적습니다. 이중 Lasso 회귀는 완화 Lasso 회귀와 비슷합니다. 완화 Lasso 회귀는 Hastie et al. 연구 자료 (2009, p. 91)에 설명되어 있습니다.

적응형 이중 Lasso 회귀

모수 추정값을 두 단계로 계산합니다. 첫 번째 단계에서는 적응형 Lasso 회귀 모형을 적합시켜 두 번째 단계에 사용할 항을 결정합니다. 두 번째 단계에서는 첫 번째 단계에서 결정된 항을 사용하여 적응형 Lasso 회귀 모형을 적합시킵니다. 두 번째 단계에서는 첫 번째 단계 모형에 포함된 항만 고려하고 첫 번째 단계의 모수 추정값을 기반으로 한 가중치를 사용합니다. "고급 컨트롤"의 "적응형 벌점 가중치" 옵션을 사용하여 가중치 계산 방법을 선택할 수 있습니다. 자세한 내용은 고급 컨트롤 옵션에서 확인하십시오. 표시된 결과는 두 번째 단계 적합에 대한 것입니다. 첫 번째 단계에서 모형에 추가되는 변수가 없으면 두 번째 단계 없이 첫 번째 단계의 결과가 보고서에 나타납니다. 자세한 내용은 적응형 방법에서 확인하십시오.

SVEM Lasso

(Cox 비례 위험, 베타 이항, 다항, 순서형 로지스틱, ZI 이항 또는 ZI 베타 이항 분포가 지정된 경우에는 사용 불가능) Lasso 회귀 모형에 적용되는 SVEM(자체 검증 앙상블 모델링) 방법을 사용하여 모수 추정값을 계산합니다. 앙상블 모형의 개별 모형 수는 "모형 시작" 제어판의 "표본" 옵션을 사용하여 지정됩니다. 자세한 내용은 자체 검증 앙상블 모형에서 확인하십시오.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).