JMP Background

Estatística, Modelagem Preditiva
e Mineração de Dados com o JMP®

Estatística é a disciplina de coletar, descrever e analisar dados para quantificar a variação e descobrir relações úteis. Permite resolver problemas, revelar oportunidades e tomar decisões informadas diante de incertezas. Por meio da aplicação eficaz de estatísticas é possível fazer previsões, prognósticos e obter meios para o contínuo aprendizado e aprimoramento, não importando o contexto no qual você trabalha.

Se seu objetivo for a descrição, previsão ou explicação, você apreciará o paradigma de descoberta estatística do JMP, que explora a sinergia intrínseca entre visualização e modelagem. Não importa o formato e o tamanho de seus dado, desde que eles caibam na memória, o JMP permitirá que você os aproveite ao máximo, seja qual for o seu nível atual de conhecimento em estatística.

O JMP fornece facilidades abrangentes para regressão linear e não linear de uma única variável, as abordagens mais úteis para exploração, redução e modelagem da dimensionalidade para envolvendo múltiplas variáveis, e para análise de séries temporais e dados categóricos. O JMP e o JMP Pro destinam-se a atender às necessidades estatísticas da maioria dos usuários, na maioria das vezes, apresentando várias técnicas e resultados que facilitam a compreensão mas não comprometem a profundidade da análise. O JMP também tem um conjunto de utilitários de modelagem, que lidam antecipadamente com problemas de dados comuns, enquanto o JMP Pro inclui um valioso conjunto de sofisticados algoritmos para a construção de melhores modelos a partir de dados desorganizados.

Com o JMP, além de realizar sua modelagem de maneira rápida e correta, você pode utilizar o Repositório de Fórmulas (JMP Pro) para comparar e contrastar facilmente modelos construídos usando diferentes abordagens e gerar código em C, Python, JavaScript ou SAS, que podem ser implementados para classificar novos casos.

Por meio de relatórios e criadores de perfil visuais e interativos, o JMP ajuda a comunicar descobertas simples ou complexas para quem talvez não tenha afinidade com métodos estatísticos, mas que, ainda assim, precisa entender e agir com base em suas descobertas. Os resultados do modelo gerado pelo JMP também podem ser dispostos dinamicamente em um navegador da Web para celular ou desktop.

Por fim, usando um recurso integrado, o JMP Pro pode facilmente realizar cálculos de tamanho das amostras para modelos ajustados (simples ou complexos) por meio da Simulação de Monte Carlo. Isso ajuda a avaliar a potência dos dados coletados, para abordar as questões que se apresentarem.

Regressão

A classe de modelos de regressão linear é diversa e universal. O JMP coloca esses métodos poderosos nas mãos de profissionais de todos os níveis de habilidade e de uma forma que eles possam usar com facilidade.

Usando o recurso Fit Y by X (Ajustar Y em função de X), é possível testar e modelar as dependências entre uma única entrada e o seu resultado. O JMP unifica o que normalmente é considerado como um conjunto díspar de abordagens estatísticas em uma plataforma coerente e compreensível, bem como fornece o resultado gráfico para que se possa entender os resultados facilmente.

A plataforma Fit Model oferece um ambiente para o ajuste de modelos simples ou complexos, com efeitos especificados fixos e aleatórios e termos de erros definidos. Um relatório Resumo de Efeitos permite arrastar e soltar termos para ver seu impacto sobre o modelo.

Seja qual for a sua abordagem preferida de construção de modelos, o JMP fornece um conjunto completo de métodos manuais e automatizados, com diagnósticos adequados, para permitir que se construa rapidamente a maioria dos tipos de modelos lineares. Uma abordagem do tipo “informações faltando” permite que todas as suas linhas de dados contribuam fornecendo essas informações. As opções específicas de ajuste foca a sua atenção adequadamente; o JMP Pro amplia o repertório adicionando Modelos Mistos (para lidar corretamente com medições repetidas e espaciais) e Regressão Generalizada (com técnicas de regressão regularizadas ou penalizadas, como a Elastic Net, que ajudam a identificar os Xs que possam ter influência). O JMP Pro também oferece suporte à regressão de quantis.

O JMP permite comparar modelos concorrentes com facilidade. Múltiplas respostas são tratadas de forma integrada, e o Criador de Perfil simplifica a comparação, e ainda, contrasta a interpretabilidade e os resultados de diversos ajustes. O Criador de Perfil também permite encontrar configurações para otimizar seus Ys, e as Simulações de Monte Carlo ajudam a avaliar como a variabilidade dos Xs será transmitida para os Ys.

A plataforma Não-Linear permite modelar relações não lineares. Modelos não lineares usam o método convencional dos Mínimos Quadrados ou uma função personalizada de perdas (função de custo). O JMP fornece uma biblioteca de tipos de modelos não lineares necessários para estudos de bioensaio e farmacocinéticos e não exige que você insira valores iniciais ou fórmulas auxiliares. Há suporte para as variáveis de agrupamento, e é possível isolar de forma rápida e fácil efeitos de qualquer assunto usando exibições gráficas. O recurso de função personalizada de perdas oferece mais flexibilidade, permitindo usar, por exemplo, os Mínimos Quadrados Reponderados iterativamente para uma regressão robusta.

Dados Categóricos

A plataforma Categórica no JMP fornece tabelas, resumos e testes estatísticos de dados de resposta e dados de resposta múltipla, quando as respostas medidas indicam a associação de uma categoria específica. Esses dados são gerados em diversas configurações, incluindo resultados de teste, classificando defeitos ou efeitos colaterais e administrando pesquisas.

Em parte devido à sua aplicação diversificada, os dados categóricos podem ser apresentados em diversos formatos. Um ponto forte específico da plataforma Categórica é que ela pode lidar com essa diversidade, sem precisar remodelar os dados antes da exploração e da análise. Uma ou mais colunas podem ser usadas para definir as categorias nas quais, e entre as quais, a variação na resposta é avaliada, e o relatório Categórico contém os gráficos resultantes de compartilhamento e frequência por categoria. Usados em conjunto com o filtro de dados no JMP, esses gráficos fornecem uma análise rápida e fácil dos dados de pesquisa em grande escala. O relatório também pode exibir as tabulações associadas e tabulações cruzadas, as quais podem ser rapidamente transpostas para facilitar a visualização ou impressão, se necessário.

Dependendo da natureza das respostas, você também pode abordar estatisticamente questões como:

  • O padrão de resposta varia com as categorias da amostra e elas mudaram ao longo do tempo?
  • Para cada categoria de resposta, as taxas são as mesmas nas categorias da amostra?
  • Até que ponto os avaliadores concordam?
  • Qual é o risco relativo de tratamentos diferentes?

Árvores

A plataforma Partition, no JMP, permite encontrar cortes ou agrupamentos em suas entradas (Xs) que podem prever melhor a variação em uma saída (Y). Xs e Ys podem ser categóricos ou contínuos. O processo de divisão dos dados, por meio de encontrar um X apropriado e um agrupamento ou ponto de corte apropriado para esse X, é recorrente – é possível continuá-lo até obter um ajuste útil. O resultado é naturalmente representado como uma árvore e você também pode obter informações importantes sobre quais Xs contribuem mais para explicar a variação em Y.

As árvores são robustas à presença de valores ausentes e acomodam diretamente quaisquer efeitos conjuntos de Xs. Você pode cultivar sua árvore usando Árvores de Decisão, "Bootstrap Forest" (somente no JMP Pro) ou árvores incrementadas (somente no JMP Pro). Observe que é pouco provável que as Árvores de Decisão simples generalizem bem com novos dados; portanto, se for precisa de mais potência preditiva, experimente o JMP Pro.

Redes Neurais

A plataforma Neural no JMP permite construir redes neurais totalmente conectadas com nós ocultos em uma (JMP) ou duas camadas (JMP Pro). No JMP, todos os nós têm a mesma função de ativação. No JMP Pro, cada nó pode ter uma das três funções de ativação diferentes. Você pode ter qualquer número de nós em cada camada.

O JMP Pro também permite manipular automaticamente dados ausentes, transformar Xs dentro da plataforma e usar um técnicas avançadas, como "boosting", para ajudar sua rede a aprender casos difíceis, aplicando um dos quatro métodos de penalidade.

Explorador de Textos

A plataforma Explorador de Textos no JMP permite explorar dados de textos livres em suas diversas formas — respostas de pesquisas, logs de reparos, relatórios de engenharia e campos de respostas livres, por exemplo. O Explorador de Textos usa uma abordagem de “conjunto de palavras” para analisar o texto em códigos visando criar uma matriz de termos do documento. Ele permite classificar e descobrir facilmente o significado em seus dados de texto, em vez de precisar escolher entre processá-los manualmente ou ignorá-los completamente.

Além disso, o Explorador de Textos no JMP fornece métodos para a extração básica de palavras-chave, possui uma recodificação local para limpar documentos sem alterar o texto original e tem a opção de desenvolver nuvens de palavras por tópico. Você pode encontrar informações latentes em dados de textos e processar os dados de maneiras instrutivas.

No JMP Pro, o Explorador de Textos contém mais ferramentas de análise que usam a Decomposição em Valores Singulares (SVD) para agrupar documentos semelhantes em tópicos. A plataforma permite agrupar documentos de textos, agrupar termos que estão em uma lista de documentos ou agrupar documentos usando a análise de classe latente. Você também pode realizar Análises Discriminantes e usar colunas de validação em um fluxo de trabalho de modelagem preditiva.

Técnicas de Interdependência Multivariada

As análises multivariadas podem concentrar-se em observações (linhas) ou em variáveis (colunas), podendo tratar variáveis em bases de equidade (técnicas de interdependência) ou fazer diferença entre efeitos, Xs, respostas e Ys (técnicas de dependência). Mas seja qual for o seu objetivo analítico, o JMP trabalhará com você para realizá-lo. (Consulte a seção Técnicas de Dependência Multivariada para conhecer métodos multivariados envolvendo Xs e Ys.)

No contexto multivariado é essencial considerar a qualidade dos dados, a identificação e o tratamento de valores atípicos e o padrão de valores ausentes. O JMP fornece utilitários que eliminam a dificuldade dessas questões. Normalmente, eles precisam ser abordados iterativamente à medida que a análise se desenvolve, e a interatividade do JMP foi criada para esse modo de trabalho.

A plataforma de multivariáveis é, muitas vezes, o ponto de entrada em qualquer análise com muitas colunas. Ela permite avaliar rapidamente as associações e correlações paramétricas e não-paramétricas entre todos os pares de variáveis numéricas, identificar valores atípicos (outliers) e imputar valores ausentes.

Para técnicas de interdependência, o JMP fornece a Análise de Componentes Principais (PCA), análise fatorial, de agrupamento, análise de classes latentes, de escalonamento multidimensional, análise de associação (JMP Pro), de misturas normais e mapas auto-organizáveis. Cada uma delas usa um estilo de análise em desenvolvimento para que você possa moldar o seu método de acordo com o que os dados revelam.

A PCA permite reduzir a dimensionalidade de sua descrição, quando há correlações, e a implementação no JMP pode acomodar dados muito grandes com eficiência. Quando há variáveis categóricas, em vez de quantitativas, é possível usar o JMP para executar a Análise de Correspondência Múltipla, em vez da PCA, para obter um resultado semelhante. A análise fatorial permite modelar a variabilidade entre as variáveis observadas em termos de um número menor de fatores não observados. A plataforma Análise Fatorial permite múltiplos ajustes e rotações em um relatório, e a formatação condicional permite suprimir valores pequenos.

O agrupamento, uma técnica-chave na aprendizagem não supervisionada, forma subgrupos, de modo que os casos de um subgrupo específico sejam mais parecidos do que os de outro subgrupo. A plataforma de Agrupamento (Cluster) no JMP permite dimensionar e transformar variáveis antes da análise, fornecer diversas medidas de distância e incluir agrupamentos hierárquico e k-médias. O agrupamento hierárquico produz um dendrograma que é possível manipular interativamente, para decidir sobre o número mais útil de agrupamentos, usando Resumos de Agrupamentos ou outras heurísticas. Você também pode adicionar medidas espaciais a dados acumulados para permitir o agrupamento de padrões de defeitos específicos.

A análise de classes latentes é uma alternativa ao agrupamento e a análise de associação (também conhecida como análise da cesta de compras) identifica conexões entre objetos específicos, como itens que frequentemente são adquiridos em conjunto.

Técnicas de Dependência Multivariada

Para técnicas de dependência multivariada, o JMP fornece a regressão por Mínimos Quadrados Parciais (PLS), Análise Discriminante, Naive Bayes e Classificadores de Vizinhos Mais Próximos, e o Processo Gaussiano.

A PLS é uma técnica versátil que pode utilizar dados de qualquer formato e com qualquer número de Xs e de Ys. É frequentemente aplicada em situações em que a regressão linear não é viável, por haver mais Xs do que linhas, mas também pode ser vista como uma técnica útil dentro da modelagem preditiva em geral.

A plataforma PLS no JMP fornece recursos básicos, mas o JMP Pro também tem uma personalidade para os Mínimos Quadrados Parciais na plataforma Fit Model, que permite ajustar modelos mais complexos que envolvam poderes e termos de interação. Com o JMP Pro, você também pode imputar valores ausentes e construir modelos de PLS usando uma seleção de métodos de validação.

O JMP fornece tanto algoritmos NIPALS como SIMPLS para ajustar e automatizar maneiras de encontrar o número mais apropriado de fatores latentes a serem incluídos no modelo. Ele fornece todos os diagnósticos usuais para que você possa verificar a adequação do modelo. Da mesma forma, é possível gerar rapidamente modelos PLS podados com um número reduzido de termos, simplesmente fazendo seleções apropriadas nos gráficos de saída ou definindo um valor limite de VIP. Se sua resposta for categórica, é possível usar a Análise Discriminante por PLS no JMP Pro.

A plataforma Discriminante permite entender qual combinação de Xs ajuda a explicar a associação categórica de um Y. Ela fornece métodos lineares, quadráticos ou regularizados para discriminação, seleção "Stepwise" de Xs, se necessário, e permite inspecionar facilmente linhas incertas ou mal classificadas, para decidir qual acompanhamento ou ação corretiva são necessários. A plataforma Discriminante pode, ainda, lidar eficientemente com problemas amplos ou muito amplos, usando uma matriz de covariância estimada, de forma otimizada, obtida pela redução apropriada das entradas fora da diagonal.

O Processo Gaussiano pode ser usado para interpolar de forma exata valores de Y que sejam uma função de qualquer número de Xs (para construir modelos substitutos de sistemas determinísticos) ou como uma ferramenta de modelagem mais geral.

Séries Temporais

A plataforma Séries Temporais (Time Series) no JMP permite explorar, modelar e prever séries temporais univariadas. Sua abordagem de modelagem estatística pode ser informada pelo diagnóstico usual, incluindo gráficos de autocorrelações e autocorrelações parciais, variogramas, coeficientes AR e gráficos de densidade espectral. Você pode facilmente decompor sua série temporal para remover efeitos sazonais e de tendência, incluindo o uso do método X11.

Você pode construir diversos modelos ARIMA para uma série temporal com vários parâmetros com um único clique, e selecionar o melhor modelo usando diversas figuras de mérito, como AIC, SBC, MAPE e MAE. É possível criar modelos de transferência para modelar uma série temporal de saída em função de uma ou mais séries de entrada, aplicando pré-clareamento às entradas, se necessário. Você também pode gerar o código de procedimento ARIMA equivalente para executar seu modelo no SAS, se necessário.

A plataforma Séries Temporais também contém uma série de técnicas de suavização, incluindo Suavização Exponencial de Holt, Suavização Exponencial Sazonal e Método de Winter.

Em todos esses casos é possível produzir previsões interativas do comportamento futuro previsto, com intervalos de confiança.

Back to Top