Selección de variables en regresión múltiple

Style

section-padding-none

Izquierda

Azul

La tarea de identificar el mejor subconjunto de predictores a incluir en un modelo de regresión múltiple, entre -todo- los subconjuntos posibles de predictores, se denomina selección de variables.

Cuando ajustamos un modelo de regresión múltiple, utilizamos Los valores pen la tabla ANOVA para determinar si el modelo, en su conjunto, es significativo.

Una pregunta natural que sigue es cuáles predictores, entre un conjunto más grande de todos los predictores potenciales, son importantes.

Podríamos usar los valores pindividuales y reajustar el modelo solo con términos significativos. Pero, recuerde que los valores pestán ajustado para los otros términos en el modelo. Por lo tanto, elegir el subconjunto de predictores significativo puede ser algo desafiante.

Un enfoque consiste en ajustar un modelo completo y eliminar lentamente los términos uno a uno, iniciando por el término con el valor pmás alto. Esto se conoce a selección hacia atrás.

Vea cómo usar software estadístico para la selección de variables en regresión múltiple

https://share.vidyard.com/watch/duuqSxWzvysSqmfYopbHmD

Extracto de Pensamiento Estadístico para la resolución de problemas industriales, un curso online de estadística gratuito

Más información inscribiéndose en el módulo de Correlación y Regresión de nuestro curso de estadística en línea.
Descargue una prueba gratuita de JMP para probarlo usted mismo.

Veamos un ejemplo. Para los datos de impureza, ajustamos un modelo completo con interacciones bidireccionales. El tiempo de reacción tiene el valor pmás alto. Sin embargo, el símbolo de intercalación junto a los valores pindica que el tiempo de reacción está implicado en las interacciones del modelo, por lo que lo dejamos en el modelo. El siguiente valor pmás alto es Temp*Reactor.

Eliminamos este término y observamos que todas las salidas estadísticas se han actualizado, incluidas las estadísticas de ajuste y los valores p de los términos del modelo. El siguiente candidato a ser eliminado es Temp*Catalyst Conc.

Eliminamos este término de interacción y continuamos con este proceso hasta que solo queden términos con valores ppor debajo de un umbral escogido. Aquí detener la eliminación de términos cuando alcanzamos el umbral del valor pde 0,05. Detenerse en un valor pde 0.05 se llama regla de detención, y la decisión de detenerse en 0.05 fue arbitraria. Las reglas de detención típicas para el modelado explicativo son los umbrales de valor pde 0,05 y 0,10. Tenga en cuenta que hay otras reglas de detención que podríamos considerar. Por ejemplo, podríamos detener en el modelo que tenga el R cuadrado ajustado más alto o la raíz del error cuadrático medio más baja. Más adelante, presentamos otros dos estadísticos importantes para la selección de modelos: el criterio de información de Akaike (o AIC) y el criterio de información de Bayes (o BIC).

Volviendo a nuestro ejemplo, aquí está nuestro modelo reducido final.

Comparemos el ajuste del modelo completo con el de este nuevo modelo reducido. Tanto el R-cuadrado ajustado como el error cuadrático medio raíz mejoran en comparación con el modelo completo. Así que este modelo reducido es mejor.

Una alternativa a la selección hacia atrás es la selección hacia adelante. Con la selección ascendente, en lugar de comenzar con un modelo completo, comenzamos con un modelo que contiene solo la constante. Luego agregamos lentamente términos al modelo, uno a la vez, iniciando con el predictor con el valor pmás bajo. Esto continúa hasta que todos los términos restantes que no están incluidos en el modelo estén por encima de un umbral de valor pespecificado.

Un tercer enfoque clásico de selección de variables es la selección mixta. Esta es una combinación de selección ascendente (para agregar términos significativos) y selección descendente (para eliminar términos no significativos). Al igual que en la selección ascendente, comenzamos solo con el intercepto y añadimos el término más significativo al modelo. Seguimos agregando las variables más significativas, una a la vez. Nuevamente utilizamos un umbral de valor p para determinar cuándo detener la adición de términos a el modelo. Por ejemplo, podemos establecer el valor ppara ingresar al modelo en 0.05 o 0.10. En cada paso, observamos los valores pde los términos en el modelo y comparamos los valores pcon el umbral para la eliminación. Si un valor pes mayor que el umbral, el término se elimina del modelo.

El enfoque mixto aborda un inconveniente fundamental de la selección ascendente: los términos pueden volverse insignificantes después de que se hayan agregado otros términos al modelo. La selección mixta permite que se eliminen términos no significativos. En este ejemplo, la selección mixta da como resultado un modelo más pequeño que la selección hacia atrás. Pero, si comparamos estos dos modelos, el R cuadrado ajustado es más bajo y el error cuadrático medio es más alto para el modelo mixto. Por lo tanto, el modelo de selección hacia atrás supera al modelo de selección mixto.

Un enfoque final que sólo presentaremos brevemente en esta lección es la regresión de los mejores subconjuntos, o todos los modelos posibles. Aquí ajustamos todos los modelos posibles a partir de las combinaciones de los predictores potenciales. Por ejemplo, considere los datos de impureza con sólo los tres predictores continuos: Temp, Conc. de catalizador y tiempo de reacción. ¿Cuántos modelos posibles podemos ajustar usando estos tres predictores?

Podemos ajustar un modelo sin predictores. Este es el modelo de la media o el modelo nulo.
Podemos ajustar tres modelos con un predictor cada uno. Es decir, podemos ajustar un modelo sólo con temp, un modelo sólo con conc. de catalizador y un modelo sólo con tiempo de reacción.
Podemos ajustar tres modelos con dos predictores cada uno.
Y podemos ajustar un modelo con los tres predictores.

Esto nos da ocho modelos posibles.

En la regresión de los mejores subconjuntos, ajustamos todos estos modelos y luego los comparamos para elegir el mejor modelo. Tenga en cuenta que la regresión de los mejores subconjuntos puede descontrolarse rápidamente a medida que aumentamos el número de predictores potenciales. Por ejemplo, si hay 10 predictores potenciales, entonces hay 2¹⁰ o 1024 modelos potenciales.

layout

2 column

Style

columns-75-25, section-top-padding-xsmall