Modelos predictivos y validación cruzada

Cualquiera puede hacer un buen trabajo describiendo el desempeño del año pasado. Pero sin las herramientas adecuadas y las técnicas más modernas, es mucho más difícil construir un modelo para predecir lo que sucederá con nuevos clientes, nuevos procesos o nuevos riesgos. JMP Pro incluye un rico conjunto de algoritmos para la creación de mejores modelos de sus datos. Algunas de las técnicas más útiles para modelos predictivos son los árboles de decisión, el bosque bootstrap, el Bayesiano ingenuo y las redes neuronales.

La plataforma de partición de JMP Pro automatiza el proceso de creación de árboles utilizando métodos modernos. Esta plataforma también se adapta a modelos de K vecinos más cercanos (K-NN).

El bosque bootstrap, que utiliza una técnica de bosque aleatorio, genera docenas de árboles de decisión utilizando subconjuntos aleatorios de los datos y promedia la influencia calculada de cada factor en estos árboles. La técnica de árbol impulsado crea muchos árboles simples ajustando repetidamente cualquier variación residual de un árbol a otro.

La plataforma Bayesiano ingenuo se basa en los principios del teorema de Bayes para permitirle predecir una respuesta categórica. También permite hacer predicciones para combinaciones de predictores que no aparecen en los datos.

La plataforma Neuronal avanzada le permite construir redes neuronales de una o dos capas con su elección de tres funciones de activación, y también permite la construcción automática de modelos mediante el aumento del gradiente. La plataforma administra automáticamente los valores faltantes y la transformación de X continuas, lo que ahorra tiempo y esfuerzo, e incluye opciones de ajuste robustas.

Cada una de estas plataformas en JMP Pro utiliza la validación cruzada, que ofrece una forma de validar su modelo y generalizar bien a los datos futuros. Para un modelo predictivo eficaz, necesita formas sólidas de validar su modelo, y con un modelo grande, puede fácilmente meterse en problemas relacionados con el ajuste excesivo. Los modelos grandes deben tener siempre una validación cruzada, y JMP Pro lo hace a través de la partición de datos o la retención. La técnica de validación cruzada le ayuda a crear modelos que generalicen bien a los datos futuros (sobre nuevos clientes, nuevos procesos o nuevos riesgos) para que pueda realizar inferencias sobre el futuro en base a sus datos.

La división de los datos en conjuntos de datos de capacitación, validación y prueba se ha utilizado durante mucho tiempo para evitar el ajuste excesivo, lo que garantiza que los modelos que construya no dependan de las propiedades de la muestra específica que utilizó para crearlos. El enfoque general para la validación cruzada en JMP Pro es usar una columna de validación. Puede dividir fácilmente sus datos en diferentes conjuntos para diferentes propósitos mediante la utilidad de la columna de validación (ya sea con una muestra puramente aleatoria o estratificada al azar).

El conjunto de capacitación se utiliza para construir los modelos; el conjunto de validación se utiliza en el proceso de construcción de modelos para ayudar a elegir la complejidad del modelo. Por último, el conjunto de pruebas se realiza completamente a partir del proceso de construcción de modelos y se utiliza para evaluar la calidad de los modelos. Para conjuntos de datos más pequeños, también se puede utilizar la validación cruzada de k veces. Este proceso le ayuda a crear modelos que generalicen los nuevos datos de manera efectiva.

Es importante tener en cuenta que los datos de observación solo pueden llevarle hasta cierto punto. Para entender verdaderamente las causas y los efectos, muchas veces, debe emplear el diseño de experimentos (DOE). JMP proporciona herramientas de primera clase para un DOE óptimo de una manera que pueda utilizar fácilmente.

Comparación de modelos

En el mundo real, algunos tipos de modelos son adecuados en ciertas situaciones, pero en otras, no. Con JMP Pro, hay muchas maneras de realizar ajustes, y es necesario que averigüe cuál es el más apropiado en una situación dada. En un enfoque típico de la construcción de modelos, se prueban muchos modelos diferentes: modelos con mayor o menor complejidad, modelos con o sin ciertos factores/predictores, modelos construidos a partir de diferentes tipos de métodos de modelado o incluso promedios de múltiples modelos (modelos de conjunto).

Cada uno de estos modelos tiene medidas de calidad comunes que se pueden utilizar para evaluar el modelo: R2, tasa de clasificación errónea, curvas de características operativas del receptor (ROC), área bajo la curva (AUC), curvas de elevación, etc.

Mediante la comparación de modelos en JMP Pro, puede comparar todas las columnas de predicción guardadas de varios ajustes y elegir la mejor combinación de utilidad de ajuste, parsimonia y validación cruzada. JMP Pro hace esta comparación de forma automática. Al mismo tiempo, puede interactuar con los perfiladores de modelos visuales para ver cuáles son los factores importantes que selecciona cada modelo. La comparación de modelos en JMP Pro hace que sea fácil comparar varios modelos al mismo tiempo, y también hacer una promediación del modelo simple si así lo desea.

Almacén de fórmulas y generación de código de puntuación

Administrar sus modelos no tiene por qué ser doloroso: el Almacén de fórmulas en JMP Pro organiza su trabajo cuando utiliza muchos modelos. Este repositorio central le permite almacenar, perfilar, comparar e implementar modelos de JMP Pro de manera selectiva en C, SQL, SAS u otros lenguajes de programación.

Ahora, cuando crea varios modelos, las tablas de datos ya no están cargadas con numerosas columnas adicionales que contienen las fórmulas de predicción necesarias para comparar modelos. El código de puntuación se puede guardar en el Almacén de fórmulas y puede aplicarse a nuevos datos. El resultado es un centro de modelado principal para facilitar el acceso a sus modelos y la implementación sencilla en otros sistemas.

Conéctese a la riqueza de SAS®

Como parte de lo que ofrece SAS para el análisis predictivo y la extracción de datos, JMP Pro se conecta fácilmente a SAS, ampliando las opciones y dando acceso a la incomparable profundidad de análisis e integración de datos de SAS. Con o sin una conexión activa a SAS, JMP Pro puede producir código SAS para puntuar nuevos datos rápida y fácilmente con modelos creados en JMP.

Modelización moderna

La regresión generalizada es un conjunto de nuevas técnicas de modelado para crear mejores modelos de predicción, incluso con datos complejos. Se ajusta a modelos lineales generalizados utilizando métodos de regresión penalizada o regularizada.

Las técnicas de estimación estándar se descomponen cuando hay predictores estrechamente correlacionados o cuando hay más predictores que observaciones. Y cuando hay muchos predictores correlacionados (como suele ser el caso en los datos de observación), la regresión gradual u otras técnicas estándar pueden producir resultados insatisfactorios. Estos modelos, a menudo, están sobreajustados y generalizan mal los nuevos datos. Pero, ¿cómo decide qué variables se deben eliminar antes del modelado o, peor aún, cuánto tiempo pierde al preprocesar manualmente conjuntos de datos en la preparación para el modelado?

La personalidad de Regresión generalizada en el Ajuste del modelo tiene un enfoque integral para hacer regresión. Es un marco de modelado completo que va desde la selección de variables a través de diagnósticos de modelos hasta las comparaciones de medias de mínimos cuadrados, la predicción inversa y la creación de perfiles. Y esto solo está en JMP Pro.

Las técnicas de regularización disponibles con la personalidad de regresión generalizada (como Ridge, Lasso, Lasso adaptativo, red elástica y red elástica adaptativa) facilitan la identificación de las X que pueden tener poder explicativo. Aprovechar estas técnicas es tan fácil como usar cualquier otra personalidad de modelado en el Ajuste del modelo: simplemente identifique su respuesta, construya los efectos del modelo y elija el método de estimación y validación deseado. JMP se ajusta automáticamente a sus datos, realiza la selección de variables cuando es necesario y construye un modelo predictivo que puede generalizarse a nuevos datos. También puede utilizar una técnica paso a paso, llevar a cabo una regresión por cuantiles o realizar un ajuste simple utilizando el método de máxima verosimilitud.

Por último, la Regresión generalizada ofrece opciones para elegir la distribución adecuada para la respuesta que está modelando, lo que le permite modelar respuestas más diversas, como recuentos, datos con muchos valores atípicos o datos sesgados. Y al igual que todas las plataformas avanzadas de modelado en JMP Pro, puede optar por las técnicas de validación cruzada.

Diagrama de bloques de confiabilidad

A menudo, usted se puede enfrentar al análisis de la fiabilidad de un sistema analítico más complejo, por ejemplo, un arreglo de almacenamiento de matriz redundante de discos independientes (RAID) con varios discos duros, o un avión con cuatro motores. Con JMP, tiene muchas herramientas para analizar la fiabilidad de los componentes individuales dentro de esos sistemas. Pero con JMP Pro, puede tomar la fiabilidad de componentes individuales, construir un sistema complejo de múltiples componentes y analizar la confiabilidad de todo el sistema. Con el Diagrama de bloques de confiabilidad, puede diseñar y corregir con facilidad los puntos débiles del sistema, así como estar mejor informado para evitar fallos futuros del sistema.

Con esta plataforma, puede realizar análisis hipotéticos fácilmente mirando diferentes diseños y comparando parcelas a través de varios diseños de sistemas. También puede determinar los mejores lugares para agregar redundancia y disminuir la probabilidad de un fallo del sistema.

Simulación de sistemas reparables

Algunos sistemas o componentes de sistemas complejos son demasiado costosos para tener fuera de línea durante mucho tiempo. Para mantener la integridad de estos sistemas, es necesario programar reparaciones para los componentes del sistema o maximizar el beneficio que se obtiene de una interrupción no planificada completando reparaciones adicionales mientras el sistema no está disponible. Con JMP Pro, puede utilizar la Simulación de sistemas reparables para determinar durante cuánto tiempo no estará disponible un sistema y responder preguntas clave sobre cuántos eventos reparables se pueden esperar en un período de tiempo determinado y cuánto costará un caso de reparación.

Arreglos de cobertura

Los arreglos de cobertura se utilizan en aplicaciones de prueba donde las interacciones de los factores pueden provocar fallos y cada ejecución experimental puede resultar costosa. Como resultado, es necesario diseñar un experimento para maximizar la probabilidad de encontrar defectos y, al mismo tiempo, reducir el coste y el tiempo. Los arreglos de cobertura le permiten hacer exactamente eso. JMP Pro le permite diseñar un experimento para probar sistemas deterministas y cubrir todas las combinaciones posibles de factores hasta un cierto orden de interacciones.

Y cuando hay combinaciones de factores que crean condiciones inverosímiles, puede utilizar el filtro interactivo de Combinaciones no permitidas para excluir automáticamente estas combinaciones de ajustes de factores de diseño.

Una de las principales ventajas de los arreglos de cobertura en JMP Pro es que JMP Pro es una herramienta de análisis estadístico, no solo una herramienta de diseño de arreglos de cobertura. Por tanto, JMP Pro también le permite realizar todo tipo de análisis estadísticos. Actualmente no existe ningún otro software que permita diseñar arreglos de cobertura y analizar datos mediante la regresión generalizada. Esta es una gran ventaja de JMP Pro frente a otras herramientas de diseño de arreglos de cobertura.

JMP Pro no solo es una herramienta de diseño, también le permite importar cualquier diseño de arreglos de cobertura (generado por cualquier software), optimizarlo aún más y analizar los resultados. Puede diseñar los arreglos usted mismo sin tener que recurrir a otras personas para construir sus experimentos. Realice pruebas de forma más inteligente con arreglos de cobertura en JMP Pro.

Modelos mixtos

Los modelos mixtos contienen efectos fijos y efectos aleatorios en el análisis. Estos modelos le permiten analizar datos que implican tiempo y espacio. Por ejemplo, puede utilizar modelos mixtos en un diseño de estudio en el que se midan varios sujetos en varias ocasiones durante el transcurso de un ensayo de medicamentos, o en diseños cruzados en las industrias farmacéutica, de fabricación o química.

JMP Pro le permite ajustar modelos mixtos a sus datos y le permite especificar efectos fijos, aleatorios y repetidos; correlacionar grupos de variables; y configurar efectos de sujeto y continuos, todo con una interfaz intuitiva del tipo «arrastrar y soltar».

Además, ahora puede calcular los parámetros de covarianza para una amplia variedad de estructuras de correlación. Estos ejemplos incluyen cuándo las unidades experimentales en las que se miden los datos pueden agruparse en clústeres, y cuándo los datos de un clúster común están correlacionados. Otro ejemplo es cuando se toman mediciones repetidas en la misma unidad experimental, y estas mediciones repetidas se correlacionan o muestran una variabilidad que cambia.

También es fácil determinar visualmente qué estructura de covarianza espacial, si existe, es adecuada para utilizar en la especificación del modelo cuando se construyen modelos mixtos en JMP Pro.

Modelos uplift

Es posible que desee maximizar el impacto de su presupuesto de marketing limitado al enviar ofertas solo a personas que probablemente respondan de manera favorable. Pero esa tarea puede parecer desalentadora, especialmente cuando tiene grandes conjuntos de datos y muchos predictores de comportamiento o demográficos posibles. Aquí es donde los modelos uplift pueden ayudar. También conocido como modelado incremental, modelado de elevación real o modelado de red, los modelos uplift se desarrollaron para ayudar a optimizar las decisiones de marketing, definir protocolos de medicina personalizados o, de manera más general, identificar las características de individuos que son propensos a responder a alguna acción.

El modelado de uplift en JMP Pro le permite realizar estas predicciones. JMP Pro se ajusta a modelos de partición que encuentran divisiones para maximizar una diferencia de tratamiento. Los modelos ayudan a identificar grupos de individuos que son más propensos a responder favorablemente a una acción; ayudan a conducir decisiones eficientes y específicas que optimizan la asignación de recursos y el impacto en la persona.

Estadísticas computacionales avanzadas

JMP Pro incluye pruebas estadísticas exactas para tablas de contingencia y pruebas estadísticas no paramétricas exactas para ANOVA de un factor. Además, JMP Pro incluye un método general para estadísticas de bootstrapping en la mayoría de los informes JMP.

El bootstrapping se aproxima a la distribución de muestreo de un estadístico. JMP Pro es el único paquete de software estadístico que le permite utilizar el bootstrapping con un estadístico sin programación. Con el bootstrapping de un clic, simplemente haga clic en cualquier estadístico de un informe JMP y se aplicará bootstrap.

Esta técnica resulta útil cuando los supuestos teóricos están en duda o no existen. Por ejemplo, trate de aplicar técnicas de bootstrapping a los resultados de modelos no lineales que se utilizan para hacer predicciones o determinar los intervalos de cobertura alrededor de los cuantiles. Además, puede utilizar bootstrapping como una forma alternativa de medir la incertidumbre en los modelos predictivos. El bootstrapping le permite evaluar la confiabilidad de sus estimaciones con menos suposiciones, y el bootstrapping de un clic de JMP Pro lo hace aún más fácil.

Comparta y comunique sus resultados

Dow Chemical ha escogido JMP Pro para proporcionar a sus empleados la mejor herramienta del mercado para explorar grandes conjuntos de datos y extraer la mayor cantidad de información posible de ellos.

Leer su testimonio

JMP siempre se ha enfocado en descubrir y encontrar la mejor manera de comunicar esos descubrimientos en toda su organización. JMP Pro incluye todas las características visuales e interactivas de JMP, lo que hace que sus datos sean accesibles de maneras que nunca ha experimentado. A través de datos, gráficos y estadísticas, JMP Pro da vida a sus investigaciones en un gráfico 3D o en un gráfico animado que muestra los cambios a lo largo del tiempo. De esta manera, genera nuevas y valiosas perspectivas que informan tanto el proceso de construcción de modelos como del proceso de explicación.

Características principales exclusivas de JMP® Pro

JMP Pro incluye todas las características de JMP, además de las capacidades de análisis avanzado adicionales que se enumeran a continuación.


Modelos predictivos y validación cruzada

Modelado de redes neuronales
  • Gestión automática de datos faltantes.
  • Selección automática del número de unidades ocultas mediante el aumento de gradiente.
  • Ajuste de redes neuronales de una o dos capas.
  • Transformación automática de variables de entrada.
  • Tres funciones de activación (tangente hiperbólica, lineal y gaussiana).
  • Guardado de columnas de validación cruzadas generadas aleatoriamente.
  • Guardado de covariables transformadas.
  • Compatibilidad con columnas de validación.
Modelado de partición recursiva
  • Variedad de métodos: árbol de decisión, bosque bootstrap (técnica de bosque aleatorio), árbol impulsado, K vecino más cercano y Bayesiano ingenuo.
  • Definición de la semilla aleatoria, eliminación de múltiples procesos, uso de la tabla de diseño de sintonización, descenso de gradiente estocástico disponible en árboles impulsados y bosque bootstrap.
  • Compatibilidad con columnas de validación.
  • Opciones de inicio de modelos dedicadas: bosque bootstrap, árbol impulsado, K vecino más cercano y Bayesiano ingenuo.
Comparación de modelos
  • Comparación de modelos integrados en JMP Pro.
  • Perfilador.
  • Estadísticos de ajuste (R2, tasa de clasificación errónea, curvas ROC, área bajo la curva [AUC] y curvas Lift).
  • Promediación del modelo
Crear columna de validación
  • Partición automática de datos en porciones de entrenamiento, validación y prueba; y creación de columnas de validación.
  • Fórmula aleatoria, aleatorio fijo, aleatorio estratificado, aleatorio agrupado y métodos de punto de corte para crear conjuntos de retención.
  • Creación de columnas de validación desde el inicio de la plataforma haciendo clic en la función de la columna de validación (solo fórmula aleatoria).
Almacén de fórmulas
  • Almacenamiento y gestión de scripts de columnas de fórmulas.
  • Comandos de publicación disponibles para: análisis discriminante, ajuste por mínimos cuadrados (7 comandos), ajuste logístico (nominal y ordinal), árboles de decisión, bosque bootstrap, árboles impulsados, uplift, K vecino más cercano, Bayesiano ingenuo, redes neuronales, análisis de clases latentes, componentes principales (amplios y dispersos), regresión generalizada, PLS, proceso gaussiano.
  • Generar código de puntuación: SAS (DS2), C, Python, Javascript, SQL (con opciones de sintaxis para distintos destinos).
  • Comparación directa de los modelos recopilados en el Almacén de fórmulas mediante la comparación de modelos.
  • Perfilador.
  • Opciones para mostrar script, copiar script, copiar fórmula, copiar fórmula como transformación de columna y ejecutar script para generar columnas de fórmulas en la tabla de datos.
  • Adición de fórmulas desde columnas de tablas de datos.

Análisis del Explorador de texto

  • Análisis de clases latentes.
  • Análisis semántico latente (SVD dispersa).
  • Análisis de tema (SVD rotada).
  • Documentos y términos de conglomerado.
  • SVD y matriz de gráficos de dispersión de tema.
  • Guardado de columnas: vectores singulares y temáticos de documentos, DTM apilado para la asociación.
  • Guardado de fórmulas: vectores singulares y temáticos.
  • Guardado de vectores: de términos y temáticos.

Modelos de confiabilidad y supervivencia

Diagrama de bloques de confiabilidad (RBD)
  • Desarrollo de modelos de confiabilidad de sistemas complejos.
  • Creación de sistemas con nodos básicos, en serie, paralelos, en nudo y K de N.
  • Creación de diseños anidados mediante elementos de la biblioteca de diseño.
Simulación de sistemas reparables (RSS)
  • Motor de simulación de eventos discretos.
  • Soporte para el mantenimiento convencional: mantenimiento correctivo y preventivo como módulos listos para usar.
  • Introducción de una representación esquemática innovadora de las disposiciones de mantenimiento junto con un RBD en una única área de trabajo.
  • Vínculos esquemáticos entre eventos y elementos de acción en todos los componentes para el mantenimiento agrupado y las dependencias de mantenimiento.
Supervivencia paramétrica
  • Compatibilidad con la selección de variables a través de un puente a la personalidad de regresión generalizada de la plataforma Ajuste del modelo.
Regresión generalizada
  • Administración de datos censurados, lo que le permite seleccionar variables con datos de supervivencia y confiabilidad.
  • Compatibilidad con los riesgos proporcionales de Cox.
  • Compatibilidad con distribuciones Weibull, Log-normal, exponenciales, gamma, normales y de inflación de ceros (ZI).

Ajuste del modelo

Regresión generalizada
  • Técnicas de regularización: Ridge, Lasso, Lasso adaptativo, Lasso doble, red elástica y red elástica adaptativa.
  • Selección ascendente y selección ascendente de dos fases.
  • Regresión por cuantiles.
  • Administración de datos censurados, lo que le permite seleccionar variables con datos de supervivencia y confiabilidad.
  • Riesgos proporcionales de Cox.
  • Guardado de fórmulas de simulación para su uso en la plataforma de simulación general.
  • Distribución normal, Log-normal, Weibull, Cauchy, exponencial, gamma, beta, binomial, beta binomial, Poisson y binomial negativa.
  • Distribución binomial con inflación de ceros, beta binomial, Poisson, binomial negativa y gamma.
  • Variedad de métodos de validación: columna de validación, KFold, dejar uno fuera, BIC, AICc y ERIC.
Regresión paso a paso
  • Compatibilidad con columnas de validación.
Regresión logística (nominal y ordinal)
  • Compatibilidad con columnas de validación.
Mínimos cuadrados estándar
  • Compatibilidad con columnas de validación.
Mínimos cuadrados parciales (PLS)
  • La personalidad PLS en el Ajuste del modelo admite respuestas continuas y categóricas, factores continuos y categóricos, así como interacciones y términos polinómicos.
  • Imputación de valor faltante de tipo NIPALS.
  • Guardado de columnas de validación cruzadas generadas aleatoriamente.
  • Una opción Estandarizar X, que le permite centrar y escalar las variables individuales incluidas en un efecto polinomial antes de aplicar las opciones de centrado y escala.
  • Variedad de métodos de validación: columna de validación, KFold y dejar uno fuera.
Modelos mixtos
  • Especificación de efectos repetidos, fijos y aleatorios.
  • Correlación de grupos de variables y configuración de efectos de sujeto y continuos.
  • Opción de estructura de covarianza repetida.
  • Variogramas que proporcionan un diagnóstico visual para determinar la estructura de correlación espacial más adecuada, si corresponde.

Arreglos de cobertura

  • Análisis y diseño de arreglos de cobertura.
  • Optimización de los diseños una vez creados para reducir las ejecuciones.
  • Uso de filtros de combinaciones no permitidas para especificar las regiones de prueba que no son viables.
  • Importación de arreglos de cobertura creados por otro software, análisis de cobertura y optimización opcional.

Métodos multivariantes

análisis discriminante
  • Compatibilidad con columnas de validación.

Modelos especializados

Proceso gaussiano
  • Habilidad de ajustar modelos con miles de filas a través de GASP rápido.
  • Adición de variables categóricas a los modelos de proceso gaussiano.

Investigación sobre consumidores

Modelos uplift
  • Métodos de árbol de decisión que permiten identificar los segmentos de consumidores con mayor probabilidad de responder favorablemente a una oferta o un tratamiento.
  • Técnicas de modelado incremental, de elevación real y de red.
  • Compatibilidad con columnas de validación.
Modelos de elección
  • Compatibilidad con Bayesiano jerárquico en modelos de elección.
  • Guardado de estimaciones de individuo y de la cadena de Bayes.
Análisis de asociación
  • Compatibilidad con el análisis de la cesta de la compra.
  • Análisis de la matriz documento-término apilada generada por la plataforma Explorador de texto.

Estadísticas computacionales avanzadas

Análisis univariante
  • Pruebas exactas no paramétricas.
Análisis de contingencia
  • Medidas de asociación exactas.
Bootstrapping general
  • Bootstrapping de estadísticos en la mayoría de los informes con un solo clic.
Funcionalidad de simulación general
  • Simulación de estadísticos con un solo clic en la mayoría de los informes.
  • Cálculos de potencia en casi todos los elementos.
  • Compatibilidad con el bootstrapping paramétrico.
  • Pruebas aleatorias.

Requisitos del sistema

JMP se ejecuta en Microsoft Windows y Mac OS.