Estadística, modelización predictiva
y minería de datos con JMP®

La estadística es la disciplina que consiste en recoger, describir y analizar datos para cuantificar la variación y descubrir relaciones útiles. Le permite resolver problemas, revelar oportunidades y tomar decisiones informadas ante la incertidumbre. A través de la aplicación efectiva de las estadísticas, usted puede obtener información, hacer previsiones y conseguir los medios para aprender y mejorar de forma continua, sin importar el contexto en el que trabaje.

Ya sea que su objetivo sea la descripción, la predicción o la explicación, valorará el paradigma de descubrimiento estadístico de JMP, que aprovecha la sinergia intrínseca entre la visualización y la modelización. Independientemente de la forma y el tamaño de sus datos, siempre y cuando quepan en la memoria, JMP le permitirá sacar el máximo provecho de ellos, sea cual sea su nivel actual de experiencia en estadística.

JMP proporciona funciones completas de regresión lineal y no lineal univariante, enfoques multivariantes más prácticos para la exploración, la reducción de la dimensionalidad y la modelización, y para el análisis de series temporales y datos categóricos. JMP y JMP Pro están diseñados para satisfacer las necesidades estadísticas de la mayoría de los usuarios la mayor parte del tiempo, ya que aflora las diversas técnicas y los resultados de una manera que usted pueda comprender fácilmente, pero sin comprometer la profundidad del análisis. JMP también cuenta con un conjunto de utilidades de modelización que se ocupan de los problemas de datos más comunes por adelantado, mientras que JMP Pro incluye un rico conjunto de sofisticados algoritmos para crear mejores modelos con datos desordenados.

Con JMP, no solo puede realizar su modelización de forma rápida y correcta, sino que con el almacén de fórmulas (JMP Pro), puede comparar y contrastar fácilmente modelos creados con diferentes enfoques y generar código en C, Python, JavaScript o SAS que puede implementar para puntuar nuevos casos.

A través de informes y perfiladores visuales e interactivos, JMP lo ayuda a comunicar hallazgos simples o complejos a aquellos que pueden no tener afinidad con los métodos estadísticos, pero que necesitan entender y actuar de acuerdo con sus hallazgos. Los resultados de los modelos generados por JMP también se pueden perfilar dinámicamente en un navegador web móvil o de escritorio.

Por último, mediante el uso de una función integrada, JMP Pro puede realizar fácilmente cálculos del tamaño muestral para modelos ajustados (simples o complejos) a través de la simulación de Monte Carlo. Esto lo ayuda a evaluar la potencia de los datos que ha recopilado para responder a las preguntas en cuestión.

Regresión

La clase de modelos de regresión lineal es diversa y universal. JMP pone estos potentes métodos en manos de profesionales de todos los niveles de destreza, en un formato que pueden usar fácilmente.

Mediante el uso de Ajustar Y en función de X, puede probar y modelizar dependencias entre una sola entrada y una sola salida. JMP unifica lo que normalmente se considera un conjunto dispar de enfoques estadísticos en un todo coherente y comprensible, y proporciona una salida gráfica para que pueda entender los resultados fácilmente.

La plataforma Ajuste del modelo proporciona un entorno para adaptar modelos simples o complejos con efectos fijos y aleatorios específicos y términos de error definidos. Un informe de resumen de efectos le permite arrastrar y soltar términos para ver su impacto en el modelo.

Cualquiera que sea su enfoque de construcción de modelos preferido, JMP proporciona un conjunto completo de métodos manuales y automatizados, con diagnósticos apropiados, para permitirle crear rápidamente la mayoría de los tipos de modelos lineales. Un enfoque "faltante informativo" permite que la información de todas las filas sirva de aporte. Las Opciones de ajuste específico centran su atención de forma adecuada; JMP Pro amplía el repertorio añadiendo Modelos mixtos (para manejar correctamente las mediciones repetidas y espaciales) y Regresión generalizada (con técnicas de regresión regularizada o penalizada, como la Red elástica, que permiten identificar las X que pueden tener poder explicativo). JMP Pro también admite la regresión por cuantiles.

JMP le permite comparar fácilmente modelos de la competencia. Las respuestas múltiples se manejan de forma integrada, y el perfilador facilita la comparación y el contraste de la interpretabilidad y los resultados de diversos ajustes. El perfilador también le permite encontrar ajustes para optimizar sus Y, y las simulaciones de Monte Carlo lo ayudan a evaluar de qué manera la variación en las X se transmitirá a las Y.

La plataforma No lineal le permite modelizar relaciones no lineales. Los modelos no lineales utilizan mínimos cuadrados estándar o una función de pérdida personalizada. JMP ofrece una librería de tipos de modelos no lineales necesarios para bioensayos y estudios farmacocinéticos, y no requiere la introducción de valores iniciales o fórmulas auxiliares. Se admiten variables de agrupación, y puede aislar de forma rápida y sencilla cualquier efecto del individuo mediante visualizaciones gráficas. La función de pérdida personalizada proporciona flexibilidad adicional, lo que le permite utilizar, por ejemplo, los mínimos cuadrados ponderados iterativamente para una regresión robusta.

Datos categóricos

La plataforma Categórica de JMP proporciona tablas, resúmenes y pruebas estadísticas de datos de respuesta y datos de respuestas múltiples cuando las respuestas medidas indican la pertenencia a una categoría en particular. Estos datos se generan en una diversidad de situaciones, incluidos los resultados de las pruebas, la clasificación de defectos o efectos secundarios, y la realización de encuestas.

En parte debido a su aplicación diversa, los datos categóricos se pueden presentar en una variedad de formatos. Una fortaleza particular de la plataforma Categórica es que puede manejar esta diversidad sin necesidad de cambiar la forma de los datos antes de la exploración y el análisis. Se pueden utilizar una o más columnas para definir las categorías dentro de las cuales y entre las cuales se evalúa la variación en la respuesta, y el Informe de categórica contiene los gráficos de intercambio y frecuencia resultantes, por categoría. Usados junto con el filtro de datos de JMP, estos gráficos proporcionan una revisión rápida y sencilla de los datos de encuestas a gran escala. El informe también puede mostrar las tabulaciones asociadas y las tabulaciones cruzadas, que se pueden transponer rápidamente para facilitar su visualización o impresión si es necesario.

Dependiendo de la naturaleza de las respuestas, también puede responder estadísticamente a preguntas como:

  • ¿Varía el patrón de respuesta con las categorías de muestras, y han cambiado estas con el tiempo?
  • Para cada categoría de respuesta, ¿los índices son los mismos en todas las categorías de muestras?
  • ¿Qué tan de acuerdo están los calificadores?
  • ¿Cuál es el riesgo relativo de los diferentes tratamientos?

Árboles

La plataforma Partición de JMP le permite encontrar cortes o agrupaciones dentro de sus entradas (X) que pueden predecir mejor la variación en una salida (Y). Las X e Y pueden ser categóricas o continuas. El proceso de dividir los datos encontrando una X apropiada y una agrupación o un punto de corte apropiado para esta X es recursivo; puede continuar hasta que obtenga un ajuste de utilidad. El resultado se representa de manera natural como un árbol, y también se puede obtener información importante acerca de cuáles son las X que más contribuyen a explicar la variación en Y.

Los árboles son robustos ante la presencia de valores faltantes y se adaptan a cualquier efecto conjunto de las X directamente. Puede expandir su árbol usando árboles de decisión, bosques bootstrap (solo JMP Pro) o árboles impulsados (solo JMP Pro). Tenga en cuenta que no es probable que los árboles de decisión simples se generalicen bien a los datos nuevos, por lo que si necesita poder de predicción, debe investigar JMP Pro.

Redes neuronales

La plataforma Neuronal de JMP le permite crear redes neuronales completamente conectadas con nodos ocultos en una capa (JMP) o dos capas (JMP Pro). En JMP, todos los nodos tienen las mismas funciones de activación. En JMP Pro, cada nodo puede tener una de tres funciones de activación diferentes. Puede tener cualquier cantidad de nodos en cada capa.

JMP Pro también le permite manejar automáticamente los datos faltantes, transformar las X dentro de la plataforma y usar el impulso para que su red descubra casos difíciles mediante la aplicación de uno de los cuatro métodos de penalización.

Explorador de texto

La plataforma Explorador de texto de JMP le permite explorar datos de texto libre en sus múltiples formas: respuestas de encuestas, registros de reparaciones, informes de ingeniería y campos de respuesta libre, por ejemplo. El Explorador de texto emplea un enfoque de "bolsa de palabras" para analizar el texto en tokens para construir una matriz documento-término. Le permite clasificar y descubrir fácilmente el significado de los datos de texto, en lugar de tener que elegir entre procesarlos manualmente o ignorarlos por completo.

Además, el Explorador de texto en JMP proporciona métodos para la extracción de palabras clave básicas, incluye un recodificador local para limpiar documentos sin alterar el texto original y cuenta con la opción de desarrollar nubes de palabra por tema. Puede encontrar información latente en los datos de texto y procesar datos de texto de forma informativa.

En JMP Pro, el Explorador de texto contiene herramientas de análisis adicionales que utilizan la descomposición en valores singulares (SVD) para agrupar documentos similares en temas. La plataforma le permite conglomerar documentos de texto, términos que se encuentran en una colección de documentos o documentos mediante el análisis de clases latentes. También puede realizar un análisis discriminante y usar columnas de validación en un flujo de trabajo de modelización predictiva.

Técnicas de interdependencia multivariante

Los análisis multivariantes pueden centrarse en observaciones (filas) o en variables (columnas), y pueden tratar las variables en igualdad de condiciones (técnicas de interdependencia) o distinguir entre efectos, X, respuestas e Y (técnicas de dependencia). No obstante, cualquiera que sea su objetivo de análisis, JMP trabajará con usted para hacer el trabajo. (Vea la sección Técnicas de dependencia multivariante para conocer los métodos multivariantes que involucran X e Y).

En el contexto multivariante, es fundamental considerar la calidad de los datos, la identificación y el tratamiento de los valores atípicos y el patrón de valores faltantes. JMP proporciona utilidades que eliminan la monotonía de tener que abordar estos problemas. Por lo general, deben abordarse de manera iterativa a medida que se desarrolla el análisis, y la interactividad de JMP se ha creado para esta forma de trabajo.

La plataforma Multivariante es a menudo el punto de entrada a cualquier análisis con muchas columnas. Le permite evaluar rápidamente las asociaciones y correlaciones paramétricas y no paramétricas entre todos los pares de variables numéricas, identificar valores atípicos e imputar valores faltantes.

Para las técnicas de interdependencia, JMP cuenta con el análisis de componentes principales (PCA), el análisis factorial, la conglomeración, el análisis de clases latentes, el escalado multidimensional, el análisis de asociación (JMP Pro), mezclas de normales y mapas autorganizados. Cada uno utiliza un estilo de análisis que se despliega de modo que usted pueda dar forma a su enfoque de acuerdo con lo que los datos le revelan.

PCA le permite reducir la dimensionalidad de su descripción cuando hay correlaciones presentes, y la implementación en JMP puede admitir datos muy amplios de manera eficaz. Cuando se tienen variables categóricas en lugar de cuantitativas, puede usar JMP para realizar un análisis de correspondencias múltiples en lugar de PCA para lograr un resultado similar. El análisis factorial le permite modelizar la variabilidad entre las variables observadas en términos de una cantidad menor de factores no observados. La plataforma Análisis factorial admite múltiples ajustes y rotaciones en un informe, y el formateo condicional le permite suprimir valores pequeños.

La conglomeración, una técnica clave en el aprendizaje no supervisado, forma subgrupos de modo que los casos de un subgrupo en particular son más parecidos que los de otro subgrupo. La plataforma Conglomerado en JMP le permite escalar y transformar variables antes del análisis, proporciona varias medidas de distancia e incluye conglomeración jerárquica y de k medias. La conglomeración jerárquica produce un dendrograma que se puede manipular de manera interactiva para decidir cuál es la cantidad más práctica de conglomerados utilizando Resúmenes de conglomerados u otra heurística. También puede agregar medidas espaciales a los datos apilados para poder conglomerar patrones de defectos específicos.

El análisis de clases latentes proporciona una alternativa a la conglomeración, y el análisis de asociación (también conocido como análisis de la cesta de la compra) identifica conexiones entre objetos específicos (como los artículos que a menudo se compran juntos).

Técnicas de dependencia multivariante

Para las técnicas de dependencia multivariante, JMP proporciona regresión por mínimos cuadrados parciales (PLS), análisis discriminante, Bayesiano ingenuo y clasificadores de vecinos más cercanos, y el Proceso gaussiano.

PLS es una técnica versátil que puede consumir datos de cualquier forma y con cualquier cantidad de X e Y. A menudo se aplica en situaciones en las que la regresión lineal no es viable porque hay más X que filas, pero también se puede ver como una técnica útil dentro de la modelización predictiva en general.

La plataforma PLS en JMP proporciona capacidades básicas, pero con JMP Pro, también hay una personalidad PLS en la plataforma Ajuste del modelo que le permite ajustar modelos más complejos que implican potencias y términos de interacción. Con JMP Pro, también puede atribuir valores faltantes y construir modelos PLS utilizando una selección de métodos de validación.

JMP proporciona los algoritmos NIPALS y SIMPLS para el ajuste y las formas automatizadas de encontrar la cantidad más apropiada de factores latentes para incluir en el modelo. Proporciona todos los diagnósticos habituales para que pueda comprobar la idoneidad del modelo. También puede generar rápidamente modelos PLS eliminados con una cantidad reducida de términos simplemente haciendo las selecciones apropiadas en la salida gráfica o definiendo un valor de umbral de VIP. Si su respuesta es categórica, puede usar PLS y análisis discriminante en JMP Pro.

La plataforma Discriminante le permite comprender qué combinación de X ayuda a explicar la pertenencia a una categoría de una Y. Proporciona métodos lineales, cuadráticos o regularizados para la discriminación, selección paso a paso de las X si es necesario, y le permite inspeccionar fácilmente las filas inciertas o mal clasificadas para decidir qué seguimiento o acción correctiva se requiere. La plataforma Discriminante puede abordar eficazmente problemas grandes o muy grandes utilizando una matriz de covarianza calculada de forma óptima obtenida mediante la reducción adecuada de las entradas fuera de la diagonal.

El Proceso gaussiano se puede usar para interpolar de manera exacta valores Y que son una función de cualquier cantidad de X (para crear modelos suplentes de sistemas determinísticos) o como una herramienta de modelización más general.

Serie de tiempo

La plataforma Serie de tiempo en JMP le permite explorar, modelizar y pronosticar series temporales univariantes. Su enfoque de modelización estadística se puede informar mediante los diagnósticos habituales, incluidos gráficos de autocorrelaciones y autocorrelaciones parciales, variogramas, coeficientes de AR (autorregresión) y gráficos de densidad espectral. Puede descomponer fácilmente su serie de tiempo para eliminar los efectos de tendencia y estacionales, incluido el uso del método X11.

Con un solo clic, puede construir varios modelos ARIMA para una serie de tiempo con una serie de parámetros y seleccionar el mejor modelo utilizando varias figuras de mérito, como AIC, SBC, MAPE y MAE. Puede construir modelos de transferencia para modelizar una serie de tiempo de salida en términos de una o más series de entrada, aplicando preblanqueo a las entradas, si es necesario. También puede generar el código equivalente de PROC ARIMA para ejecutar su modelo en SAS si es necesario.

La plataforma Serie de tiempo también contiene varias técnicas de alisado para series de tiempo, incluido el alisado exponencial Holt, el alisado exponencial estacional y el método de Winter.

En todos los casos, puede producir pronósticos interactivos del comportamiento futuro pronosticado, con intervalos de confianza.

Back to Top