반응 변수 선별 플랫폼에서는 다수의 반응 변수에 대한 검정 수행 과정을 자동화합니다. 지정한 각 반응 변수를 지정한 각 요인에 대해 검정합니다. 반응 변수 선별은 대규모 데이터와 관련된 두 가지 주요 문제를 해결합니다. 검정을 많이 수행해야 한다는 것과 이상치 및 결측값을 효과적으로 처리하기 위한 요구 사항이 이러한 문제입니다.
반응 변수 선별은 플랫폼 및 모형 적합 분석법으로 사용할 수 있습니다. Table 24.1에 표시된 대로 두 경우 모두 X로 Y 적합 플랫폼의 검정과 유사한 검정을 수행합니다. 분석법으로 사용될 경우에는 개별 모형 효과에 대한 반응을 검정합니다.
반응 변수 선별에서는 필요한 여러 추론을 지원하기 위해 다음과 같은 기능을 제공합니다.
데이터 테이블
결과가 보고서뿐만 아니라 데이터 테이블에도 표시되므로 결과를 탐색, 정렬, 검색 및 그림에 표시할 수 있습니다. P 값의 LogWorth(-log10(p 값))와 같이 그림을 쉽게 해석할 수 있는 통계량이 제공됩니다.
False Discovery Rate
많은 수의 검정을 수행하므로 검정이 유의하다고 선언하는 전체 비율을 제어해야 합니다. 반응 변수 선별은 False Discovery Rate를 제어합니다. FDR(False Discovery Rate)은 유의한 것으로 잘못 선언할 유의성 검정의 기대 비율입니다(Benjamini and Hochberg 1995 및 Westfall et al. 2011 참조).
실제적 유의성 검정
데이터 테이블이 많은 수의 행으로 구성된 경우, 즉 n이 큰 경우 검정에 사용되는 표준 오차는 매우 작을 수 있습니다. 이로 인해 사실은 관측된 차이가 너무 작아서 실제로 중요하지 않지만 검정 결과는 통계적으로 유의할 수 있습니다. 이 문제를 해결하기 위해 실제로 유의하다고 간주할 효과 크기를 정의할 수 있습니다. 그런 다음 실제적 유의성 검정을 수행하여 현실적으로 관심을 끌 수 있는 큰 효과만 감지합니다.
동등성 검정
많은 요인을 연구할 때 반응에 근본적으로 동일한 영향을 미치는 요인에 관심을 가질 수 있습니다. 이 경우 실제적 동등성을 정의하는 효과 크기를 지정한 후 동등성 검정을 수행할 수 있습니다.
반응 변수 선별에서는 정리되지 않은 데이터를 처리할 때 발생하는 문제를 해결하기 위해 이상치 및 결측 데이터를 처리하는 기능을 제공합니다. 이러한 기능을 사용하면 데이터 품질 문제를 해결하기 위해 노력할 필요 없이 데이터를 직접 분석할 수 있습니다.
로버스트 추정
데이터에 이상치가 있으면 표준 오차 추정값이 커지고 이로 인해 검정이 실제 효과에 민감하지 않게 됩니다. 로버스트 옵션을 선택하여 Huber M-추정을 수행합니다. 이상치가 데이터에 남아 있지만 이러한 이상치에 대한 검정 민감도가 감소합니다.
결측값 옵션
이 플랫폼에는 범주형 예측 변수의 결측값을 정보가 포함된 것으로 간주하는 옵션이 포함되어 있습니다.
|
반응 |
요인 |
X로 Y 적합 분석 |
설명 |
|---|---|---|---|
|
연속형 |
범주형 |
일원 분석 |
분산 분석 |
|
연속형 |
연속형 |
이변량 |
단순 선형 회귀 |
|
범주형 |
범주형 |
분할 분석 |
카이제곱 |
|
범주형 |
연속형 |
로지스틱 |
단순 로지스틱 회귀 |
반응 변수 선별 플랫폼에서는 그림 섹션과 보고서 섹션을 생성합니다. "FDR p 값" 그림과 "결과 테이블"이 기본적으로 표시됩니다. "반응 변수 선별" 분석법을 사용하면 "효과 검정" 테이블, "효과에 대한 FDR p 값 그림" 및 "FDR LogWorth 대 효과 크기" 그림이 포함된 보고서가 생성됩니다.
JSL 명령 Summarize Y by X는 반응 변수 선별 플랫폼과 동일한 기능을 수행하지만 플랫폼 창을 생성하지 않습니다. 자세한 내용은 JSL Syntax Reference의 “Summarize YByX(X(<x columns>, Y (<y columns>), Group(<grouping columns>), Freq(<freq column>), Weight(<weight column>))”에서 확인하십시오.