일반화 회귀 분석법 개요모형 적합 플랫폼의 일반화 회귀 분석법은 정규화(벌점) 회귀 기법을 특징으로 합니다. 이 기법은 모형 계수를 0에 가까워지도록 축소하여 더 나은 모형을 적합시키려고 합니다. 결과 추정값은 편향되어 있습니다. 편향이 증가하면 예측 분산이 감소되어 벌점 없는 모형에 비해 전체 예측 오차를 낮출 수 있습니다. 이 중에서 Elastic Net과 Lasso 회귀라는 두 가지 기법은 모델링 절차의 일부로 변수 선택을 포함합니다.
Elastic Net 및 Lasso 회귀와 같은 모델링 기법은 일반적으로 공선성이 문제가 되는 대규모 데이터 집합에 특히 유용합니다. 또한 최신 데이터 집합에는 관측값보다 변수가 더 많이 포함될 때가 종종 있습니다. 이 상황을 p > n 문제라고도 하며, 여기서 n은 관측값 수이고 p는 예측 변수의 수입니다. 기존 모델링 기법을 사용할 경우 이러한 데이터 집합에 대해 변수 선택이 필요합니다.
설계된 실험을 포함하여 상관관계가 거의 없는 소규모 데이터 집합에도 Elastic Net과 Lasso 회귀를 사용할 수 있습니다. 예측 모형을 생성하거나, 모형 축소 또는 향후 연구를 위해 변수를 선택할 때 이 기법을 사용할 수 있습니다.
이 분석법은 다음과 같은 종류의 모델링 기법을 제공합니다.
• 최대 가능도
• 단계 기반 추정
• 벌점 회귀 방법
Elastic Net과 Lasso 회귀는 비교적 최근의 기법입니다(Tibshirani 1996, Zou and Hastie 2005). 두 기법 모두 모형 계수의 크기에 벌점을 적용하여 지속적 축소가 발생합니다. 축소 크기는 조정 모수에 의해 결정됩니다. 최적의 축소 수준은 여러 검증 방법 중 하나에 의해 결정됩니다. 두 기법 모두 계수를 0으로 축소할 수 있습니다. 이러한 방식으로 변수 선택이 모델링 절차에 기본 제공됩니다. Elastic Net 모형은 Lasso 회귀와 능형 회귀 둘 다 특수 사례로 포함합니다. 자세한 내용은 추정 방법에 대한 통계 상세 정보에서 확인하십시오.
• 최대 가능도 방법은 전통적 설계 방식입니다. 이 방법은 다른 기법과 비교할 수 있는 기준을 제공하며 가설 검정과 같은 기존 추론 기법에 대해 가장 적합합니다.
• 전진 선택은 단계별 회귀 방법입니다. 전진 선택에서는 항이 모형에 입력됩니다. 모든 항이 모형에 포함되거나 자유도가 남아 있지 않을 때까지 유의성이 가장 높은 항이 추가됩니다.
• Lasso 회귀에는 두 가지 단점이 있습니다. 상관관계가 높은 여러 변수가 있을 때 해당 그룹에서 하나의 변수만 선택하려는 경향이 있습니다. 변수 수(p)가 관측값 수(n)를 초과할 경우 Lasso 회귀는 최대 n개의 예측 변수를 선택합니다.
• 반면, Elastic Net은 상관관계가 있는 그룹에서 모든 변수를 선택하여 적절한 계수를 적합시키는 경향이 있습니다. 또한 p > n일 때 n개를 초과하는 예측 변수를 선택할 수 있습니다.
• 능형 회귀는 첫 번째로 제안된 벌점 회귀 방법입니다(Hoerl 1962, Hoerl and Kennard 1970). 능형 회귀는 계수를 0으로 축소하지 않으므로 변수 선택을 수행하지 않습니다.
• 이중 Lasso 회귀는 초기 Lasso 회귀 모형에서 변수 선택을 수행하여 선택 단계와 축소 단계를 구분하려고 합니다. 그런 다음 초기 모형에서 선택한 변수가 두 번째 Lasso 회귀 모형의 입력 변수로 사용됩니다.
• 2단계 전진 선택은 두 단계의 단계별 전진 회귀를 수행합니다. 첫 번째 단계에서 주효과에 대한 변수 선택을 수행합니다. 그런 다음 두 번째 단계에서 고차 효과를 모형에 입력할 수 있습니다.
일반화 회귀 분석법은 Lasso 회귀 및 Elastic Net의 적응형 버전에도 적합합니다. 이러한 적응형 버전은 실제 활성 집합에 포함되지 않은 변수보다 실제 활성 집합의 변수에 벌점을 적게 줍니다. 실제 활성 집합은 모형에서 반응에 실제 영향을 미치는 항 집합을 나타냅니다. 적응형 Lasso 회귀 및 Elastic Net은 oracle 특성을 유지하기 위해 개발되었습니다. oracle 특성이 유지됨으로써 추정값은 점진적으로 예측 변수의 실제 활성 집합에 모형을 적합시켰을 때 얻을 수 있는 값이 됩니다. 더 구체적으로 말하면 모형이 계수가 0이어야 하는 예측 변수를 올바르게 식별할 수 있습니다. 추정값은 실제 활성 집합만 포함하여 시작했을 때 얻을 수 있는 값에 수렴합니다. 자세한 내용은 적응형 방법에서 확인하십시오.
일반화 회귀 분석법을 사용하면 반응 변수에 대한 다양한 분포를 지정할 수 있습니다. 분포 적합에는 정규, Cauchy, 스튜던트 t, 지수, 감마, Weibull, 로그 정규, 음의 로그 정규, 베타, 이항, 베타 이항, Poisson, 음이항, 영과잉 이항, 영과잉 베타 이항, 영과잉 Poisson, 영과잉 음이항 및 영과잉 감마가 포함됩니다. 이러한 유연성을 통해 범주형 반응과 개수 반응, 연속형 반응 및 오른쪽으로 치우친 연속형 반응을 적합시킬 수 있습니다. 또한 분위수 회귀 모형과 Cox 비례 위험 모형도 적합시킬 수 있습니다. 일부 분포의 경우 중도절단 데이터에 모형을 적합시킬 수 있습니다. 이 분석법은 모형 선택을 위한 다양한 검증 기준을 제공하고 훈련, 검증 및 테스트 열을 지원합니다. 자세한 내용은 분포 지정에서 확인하십시오.