Modelagem preditiva e validação cruzada

Qualquer pessoa pode fazer um bom trabalho ao descrever o desempenho do ano anterior. No entanto, sem as ferramentas certas e as técnicas mais modernas, desenvolver um modelo para prever o que acontecerá com novos clientes, novos processos ou novos riscos é uma tarefa muito mais difícil. O JMP Pro traz um conjunto completo de algoritmos para criação dos melhores modelos para seus dados. Algumas das técnicas mais úteis para modelagem preditiva são árvores de decisão, bootstrap forest, Naive Bayes e redes neurais.

A plataforma Partição no JMP Pro automatiza o processo de construção de árvores de decisão com métodos modernos. Essa plataforma ajusta-se também aos modelos de K-Vizinhos Mais Próximos (em inglês, K nearest neighbors, abreviado K-NN).

O bootstrap forest, que emprega uma técnica de random-forest, cultiva dezenas de árvores de decisão utilizando subconjuntos aleatórios dos dados disponíveis e calcula a média da influência computada de cada fator nessas árvores. A técnica de boosted tree constrói muitas árvores simples, ajustando repetidamente qualquer variação residual de uma árvore para a seguinte.

A plataforma de Naive Bayes emprega os princípios do Teorema de Bayes para viabilizar a previsão de uma resposta categórica. A plataforma viabiliza até mesmo previsões para combinações de preditores que não aparecem nos seus dados.

A plataforma Neural avançada permite a criação de redes neurais de uma ou duas camadas com três opções de função de ativação e proporciona também a construção automática de modelos utilizando a técnica de gradient boosting. A plataforma lida automaticamente com os valores ausentes e com a transformação de Xs contínuos, o que economiza tempo e esforço, além de incluir opções robustas de ajuste.

Cada uma das plataformas no JMP Pro utiliza validação cruzada, que oferece uma maneira de validar seu modelo e de generalizar de forma adequada os dados futuros. Para uma modelagem preditiva eficaz, são necessárias maneiras sólidas de validar o modelo e, com um modelo grande, é facilmente possível ter problemas de ajuste excessivo. Modelos grandes sempre devem ter validação cruzada, e o JMP Pro faz isso por meio do particionamento de dados ou retenção. A técnica de validação cruzada ajuda a criar modelos que generalizem bem os dados subsequentes sobre novos clientes, novos processos ou novos riscos, para que você possa fazer inferências baseadas em dados sobre o futuro.

A divisão de dados em conjuntos de treino, de validação e de teste tem sido usada há muito tempo para evitar o sobreajuste, garantindo que os modelos que você cria não dependam das propriedades da amostra específica utilizada para construí-los. A abordagem geral para a validação cruzada no JMP Pro é utilizar uma coluna de validação. Você pode facilmente dividir seus dados em diversos conjuntos para diferentes propósitos por meio do utilitário de coluna de validação (utilizando amostras puramente aleatórias ou estratificadas aleatoriamente).

O conjunto de treinamento é utilizado para construir modelos, e o conjunto de validação é usado no processo de criação do modelo para auxiliar na escolha da complexidade do modelo. Por fim, o conjunto de testes é realizado completamente a partir do processo de criação de modelos e empregado para avaliar a qualidade. Em conjuntos de dados menores, pode-se utilizar também a validação cruzada k-fold. Esse processo ajuda a criar de forma eficaz modelos de generalização para novos dados.

É importante lembrar que os dados observacionais podem chegar somente até certo ponto. Para realmente entender a causa e o efeito, muitas vezes pode ser melhor empregar o planejamento de experimentos (DOE). O JMP oferece ferramentas de excelência para um DOE ideal em um formato simples de usar.

Comparação de modelos

No mundo real, alguns tipos de modelos se ajustam bem em determinadas situações, porém mal em outras. Com o JMP Pro, há muitas formas de ajuste e é preciso descobrir a mais apropriada em uma determinada situação. Uma abordagem típica para a criação de modelos é a experimentação com muitos modelos diferentes: modelos com mais ou menos complexidade, modelos com ou sem determinados fatores/previsores, modelos criados com diversos tipos de métodos de modelagem ou até mesmo médias de vários modelos (modelos em conjunto).

Cada um desses modelos terá medidas de qualidade comuns que podem ser usadas para avaliar o modelo: R2, taxa de classificação incorreta, curvas ROC, AUC, curvas de elevação etc.

Com a comparação de modelos no JMP Pro, é possível comparar todas as colunas de previsão salvas, de diversos ajustes, e escolher a melhor combinação de qualidade de ajuste, parcimônia e validação cruzada. O JMP Pro faz essa comparação automaticamente. Ao mesmo tempo, você pode interagir com criadores de perfil de modelos visuais para ver quais fatores importantes cada modelo está identificando. A comparação de modelos no JMP Pro facilita a comparação de diversos modelos ao mesmo tempo e a execução da média de modelos simples, se desejado.

Repositório de fórmulas e Geração de Códigos de Pontuação

Gerenciar seus modelos não precisa ser uma tarefa difícil. O Repositório de Fórmulas do JMP Pro organiza seu trabalho ao lidar com muitos modelos. Este repositório central permite armazenar, definir o perfil, comparar e implementar, de maneira seletiva, os modelos do JMP Pro em C, SQL, SAS ou outras linguagens.

Agora, ao criar modelos múltiplos, suas tabelas de dados não serão mais sobrecarregadas com diversas colunas extras de fórmulas de previsão, necessárias para executar a comparação de modelos. O código de pontuação pode ser salvo no Repositório de Fórmulas e aplicado aos novos dados. O resultado é um eixo central de modelagem de fácil acesso aos seus modelos e simples implementação em outros sistemas.

Conecte-se às inúmeras opções do SAS®

O JMP Pro, sendo uma das ofertas do SAS para análise preditiva e mineração de dados, conecta-se com facilidade ao SAS, expandindo as opções e dando acesso à profundidade incomparável do SAS Analytics e da integração de dados. Com ou sem uma conexão ativa com SAS, o JMP Pro pode gerar códigos do SAS para pontuar novos dados com rapidez e facilidade com os modelos criados no JMP.

Modelagem moderna

A regressão generalizada é uma classe de novas técnicas de modelagem, adequada para a criação de melhores modelos, mesmo com dados desafiadores. Essa técnica se adequa aos modelos lineares generalizados empregando métodos de regressão regularizados ou penalizados.

As técnicas de estimativa padrão falham quando há previsores muito correlacionados ou mais previsores do que observações. Quando há muitos previsores correlacionados (como costuma ser o caso nos dados observacionais), a regressão Stepwise ou outras técnicas padrão podem produzir resultados insatisfatórios. Muitas vezes, esses modelos são ajustados em excesso e generalizados de forma precária para novos dados. Mas, como decidir quais variáveis selecionar antes de modelar ou, pior, quanto tempo se perde pré-processando manualmente conjuntos de dados em preparação para a modelagem?

A personalidade de Regressão Generalizada da plataforma Fit Model (Ajuste de Modelo) é uma abordagem abrangente para a realização de regressão. É uma estrutura de modelagem completa a partir da seleção variável, por meio de diagnósticos de modelos, para comparações das médias dos mínimos quadrados, previsão inversa e criação de perfis. E isso somente é possível no JMP Pro.

As técnicas de regularização disponíveis de personalidade de regressão generalizada incluem Ridge, Lasso, Lasso adaptativo, Elastic Net e Elastic Net adaptativa para ajudar a identificar melhor os X's que possam ter poder explicativo. Explorar essas técnicas é tão fácil quanto qualquer outra personalidade de modelagem na plataforma Fit Model. Basta identificar sua resposta, construir efeitos de modelo e escolher o método de estimativa e validação desejado. O JMP ajusta automaticamente seus dados, executa a seleção de variáveis quando apropriado e constrói um modelo preditivo que pode ser generalizado para novos dados. Também é possível usar a técnica de forward stepwise, realizar a regressão quantílica ou o ajuste simples utilizando probabilidade de máxima verossimilhança.

Por fim, a regressão generalizada oferece opções para escolher a distribuição apropriada para a resposta que você está modelando, permitindo modelar respostas mais diversas, como contagens, dados com muitos valores atípicos ou dados assimétricos. Como todas as plataformas de modelagem avançadas no JMP Pro, você pode escolher técnicas de validação cruzada.

Diagramas de blocos de confiabilidade

Muitas vezes, você é obrigado a analisar a confiança de um sistema analítico mais complexo: uma matriz de armazenamento RAID com diversos discos rígidos ou um avião com quatro motores, por exemplo. O JMP oferece muitas ferramentas para analisar a confiança dos componentes individuais nesses sistemas. Mas com o JMP Pro é possível ter a confiança de componentes individuais, construir um sistema complexo de diversos componentes e analisar a confiança de todo o sistema. Com o Diagrama de Blocos de Confiança, é fácil projetar e corrigir os pontos fracos no seu sistema, e manter-se melhor informado para impedir futuras falhas no sistema.

Com essa plataforma, você pode realizar análises de variações hipotéticas com facilidade observando diversos projetos e comparando gráficos em diversas configurações. É possível determinar também os melhores locais para adicionar redundância para diminuir a probabilidade de uma falha do sistema.

Simulação de sistemas reparáveis

Alguns sistemas ou componentes de sistemas complexos são muito caros para ficar offline por muito tempo. A manutenção da integridade desses sistemas exige a programação de reparos de componentes do sistema ou a maximização do benefício realizado por uma interrupção não planejada para executar outros reparos enquanto o sistema não está disponível. Com o JMP Pro, é possível usar a Simulação de Sistemas Reparáveis para determinar quanto tempo um sistema estará indisponível e responder as perguntas vitais de quantos eventos reparáveis devem ser esperados em um determinado período de tempo e quanto custará um evento de reparo.

Matrizes de Cobertura

As matrizes de cobertura são usadas em aplicativos de teste em que as interações fatoriais podem levar a falhas e onde cada execução experimental pode ser dispendiosa. Como resultado, é necessário projetar experimentos para maximizar a probabilidade de encontrar defeitos e, ao mesmo tempo, minimizar o custo e o tempo. As matrizes de cobertura permitem que você faça exatamente isso. O JMP Pro permite projetar um experimento para testar sistemas determinísticos e englobar todas as combinações possíveis de fatores até determinada ordem de interações.

Quando há combinações de fatores que geram condições implausíveis, é possível usar o filtro interativo de Combinações Não Permitidas para excluir automaticamente essas combinações das configurações fatoriais do projeto.

Uma das principais vantagens das matrizes de cobertura no JMP Pro é que o JMP Pro é uma ferramenta de análise estatística e não só uma ferramenta de planejamento de matrizes de cobertura. Você pode realizar todos os tipos de análises estatísticas no JMP Pro. Por exemplo, no momento não há nenhum outro software para projeto de matrizes de cobertura que possibilite também a análise dos dados empregando a regressão generalizada. Essa é uma grande vantagem do JMP Pro
sobre outras ferramentas de projeto de matrizes de cobertura.

O JMP Pro não é apenas uma ferramenta de projeto. Ele também permite importar qualquer projeto de matriz de cobertura (gerado por qualquer software) e otimizá-lo ainda mais, bem como analisar os resultados. Você mesmo pode projetar as matrizes sem precisar depender de outras pessoas para desenvolver os experimentos. Faça testes mais inteligentes com matrizes de cobertura no JMP Pro.

Modelos Mistos

Modelos mistos contêm efeitos fixos e efeitos aleatórios na análise. Esses modelos permitem analisar dados que envolvem tempo e espaço. Por exemplo, é possível usar modelos mistos em um projeto de estudo no qual diversos assuntos são medidos diversas vezes durante um estudo de medicamentos ou em projetos cruzados nas indústrias farmacêutica, manufatureira ou química.

O JMP Pro permite ajustar modelos mistos a seus dados, permitindo especificar efeitos fixos, aleatórios e repetidos, correlacionar grupos de variáveis e configurar temas e efeitos contínuos. Tudo isso com uma interface intuitiva baseada em arrastar e soltar.

Além disso, agora é possível calcular os parâmetros de covariância de uma ampla variedade de estruturas de correlação. Esses exemplos incluem situações em que as unidades experimentais nas quais os dados são medidos podem ser reunidas em agrupamentos e os dados de um conjunto comum estão correlacionados. Outro exemplo é quando são feitas medições repetidas na mesma unidade experimental, e essas medições repetidas estão correlacionadas ou apresentam uma variabilidade volúvel.

Também é fácil determinar visualmente qual estrutura de covariância espacial, se houver, é apropriada para uso na especificação de seu modelo ao construir modelos mistos no JMP Pro.

Modelos de crescimento

Talvez você queira maximizar o impacto do seu orçamento de marketing limitado enviando ofertas somente para indivíduos com probabilidade de responder de forma favorável. Mas essa tarefa pode parecer intimidadora, especialmente se você tiver grandes conjuntos de dados e muitos possíveis indicadores comportamentais ou demográficos. É nesse ponto que os modelos de crescimento podem ajudar. Chamada também de modelagem incremental, modelagem de crescimento verdadeiro ou modelagem líquida, os modelos de crescimento foram desenvolvidos para ajudar a otimizar as decisões de marketing, definir protocolos de medicamentos personalizados ou, de maneira mais geral, identificar características de indivíduos propensos a reagir a alguma ação.

A modelagem de crescimento no JMP Pro permite realizar essas previsões. O JMP Pro ajusta modelos de partição que encontram desdobramentos para maximizar um tratamento diferente. Os modelos ajudam a identificar grupos de indivíduos que têm maior probabilidade de responder favoravelmente a uma ação; eles ajudam a gerar decisões eficientes e direcionadas que otimizam a alocação de recursos e o impacto sobre o indivíduo.

Estatística computacional avançada

O JMP Pro inclui testes estatísticos exatos para tabelas de contingência e testes estatísticos não paramétricos exatos para o ANOVA unidirecional. Além disso, o JMP Pro inclui um método geral de estatísticas de bootstrap na maioria dos seus relatórios.

A técnica de bootstrap aproxima a distribuição de amostragem de uma estatística. O JMP Pro é o único pacote de software estatístico que permite realizar o bootstrap sem ter que escrever uma única linha de código. One-click bootstrapping significa que, com um único clique, você consegue realizar o bootstrap em qualquer quantidade nos relatórios do JMP.

Esta técnica é útil quando há dúvidas sobre suposições acadêmicas ou quando elas não existem. Por exemplo, tentar aplicar técnicas de bootstrap a resultados de modelos não lineares que estão sendo usados para fazer previsões ou para determinar intervalos de cobertura em torno de quantis. Além disso, é possível usar o bootstrap como uma maneira alternativa de medir a incerteza nos modelos preditivos. O bootstrap permite confiar nas suas estimativas com menos suposições, e o one-click bootstrapping no JMP Pro facilita essa tarefa.

Compartilhe e comunique resultados

A Dow Chemical incorporou o JMP Pro como sua força de trabalho porque os responsáveis pela tomadas de decisões querem a melhor ferramenta disponível para explorar grandes conjuntos de dados e extrair, com eficiência, a maior quantidade possível de informações.

Leia a matéria

O JMP sempre procurou descobrir e encontrar a melhor maneira de comunicar essas descobertas na sua organização. O JMP Pro traz todos os recursos visuais e interativos do JMP, tornando seus dados acessíveis de maneiras totalmente novas. Por meio de dados, gráficos e estatísticas vinculados de forma dinâmica, o JMP Pro dá vida à sua investigação em um gráfico 3D ou gráfico animado, indicando as alterações ao longo do tempo, gerando novas informações valiosas que embasam o processo de criação e explicação do modelo.

Principais Recursos Exclusivos do JMP® Pro

O JMP Pro contém todos os recursos no JMP, além dos recursos adicionais de análises avançadas listados abaixo.


Modelagem preditiva e validação cruzada

Modelagem de Rede Neural
  • Tratamento automatizado de dados ausentes.
  • Seleção automática do número de unidades ocultas utilizando gradient boosting.
  • Ajusta redes neurais de uma e duas camadas.
  • Transformação automatizada de variáveis de entrada.
  • Três funções de ativação (Tangente Hiperbólica, Linear e Gaussiana).
  • Salvar colunas de validação cruzada geradas de maneira aleatória.
  • Salvar covariantes transformadas.
  • Compatibilidade para coluna de validação.
Modelagem de Partição Recursiva
  • Opções de métodos: árvore de decisão, bootstrap forest (técnica de random-forest), Boosted tree, K-vizinhos mais próximos, Naive Bayes.
  • Definição de semente aleatória (random seed), supressão multithreading (fios de execução simultâneos), uso de tabela de ajuste de projeto, gradiente estocástico descendente disponíveis em Boosted Trees e Bootstrap Forest.
  • Compatibilidade para coluna de validação.
  • Opções de lançamento de modelos dedicados para: Bootstrap forest, Boosted tree, K-vizinhos mais próximos e Naive Bayes.
Comparação de Modelos
  • Compare de modelos criados no JMP Pro.
  • Criador de perfil.
  • Estatísticas de ajuste (R2, taxa de classificação incorreta, curvas ROC, AUC, curvas de crescimento).
  • Média de modelos.
Crie uma Coluna de Validação
  • Partição automática dos dados em partes de treino, de validação e de testes; criação de colunas de validação.
  • Métodos de ponto de corte para criar conjuntos de retenção: fixos aleatórios, estratificados aleatórios, agrupados aleatórios e de fórmula aleatória.
  • Criação de coluna de validação na inicialização da plataforma clicando na função da coluna de validação (somente fórmula aleatória).
Repositório de Fórmulas
  • Armazena e gerencia scripts da Coluna de Fórmulas.
  • Publicação de comandos disponíveis para discriminante, ajuste de mínimos quadrados (sete comandos), ajuste logístico (nominal e ordinal), árvore de decisão, bootstrap forest, boosted trees, crescimento, K-vizinhos mais próximos, Naive Bayes, neural, análise de classe latente, componentes principais (amplo e esparso), regressão generalizada, PLS, processo gaussiano.
  • Geração de código de pontuação: SAS (DS2), C, Python, JavaScript, SQL (com opções de sintaxe para diversos destinos).
  • Comparação direta de modelos coletados no repositório de fórmulas por meio da comparação de modelos.
  • Criador de perfil.
  • Exibir script, copiar script, copiar fórmula, copiar fórmula como transformação de coluna, executar script para gerar coluna de fórmulas na tabela de dados.
  • Adicionar fórmulas de colunas de tabela de dados.

Análise do explorador de texto

  • Análise de classe latente.
  • Análise de semântica latente (SVD esparso).
  • Análise de assunto (SVD rotacionado).
  • Agrupar termos e documentos.
  • SVD e de matriz de gráfico de dispersão de assunto.
  • Salvar colunas: documentar vetores únicos e de assunto, DTM empilhado para associação.
  • Salvar fórmula: vetor único, vetor de assunto.
  • Salvar vetores: termo e assunto.

Modelos de confiabilidade e sobrevivência

Diagrama de blocos de confiabilidade (RBD)
  • Crie modelos de confiabilidade de sistemas complexos.
  • Dos N nodos, use os básicos, seriais, paralelos, de nó e nós K para criação de sistemas.
  • Crie projetos aninhados com elementos da biblioteca de projetos.
Simulação de sistemas reparáveis (RSS)
  • Mecanismo baseado em simulação de evento discreto.
  • Aceita manutenção tradicional: manutenção corretiva e preventiva, como componentes prontos para uso.
  • Apresentação de representação diagramática de disposições de manutenção, em paralelo com um RBD em um único espaço de trabalho.
  • Vínculos diagramáticos entre eventos e elementos de ação entre os componentes, para expressar a ideia de manutenção em grupos e de dependências de manutenção.
Sobrevivência paramétrica
  • Permite a seleção de variáveis por meio de uma ponte para a personalidade da regressão generalizada do ajuste do modelo.
Regressão Generalizada
  • Trata os dados censurados permitindo a seleção de variáveis com dados de sobrevivência/confiabilidade.
  • Compatível com os riscos proporcionais de Cox.
  • Compatível com a família de distribuições de Weibull, log-normal, exponencial, gama, normal e inflado a zero (ZI).

Modelo de Ajuste

Regressão generalizada
  • Técnicas adaptativas: ridge, Lasso, Lasso adaptativo, Lasso duplo, elastic net, elastic net adaptativo.
  • Seleção forward e seleção forward de duas etapas.
  • Regressão quantílica.
  • Trata os dados censurados permitindo a seleção de variáveis com dados de sobrevivência/confiabilidade.
  • Riscos proporcionais de Cox.
  • Salve a fórmula da simulação para uso na plataforma de simulação geral.
  • Distribuição normal, log-normal, weibull, cauchy, exponencial, gama, beta, binomial, beta-binomial, poisson, binomial negativa.
  • Distribuição binomial inflacionada de zeros, beta-binomial, poisson, binomial negativa, gamma.
  • Opções de métodos de validação: coluna de validação, KFold, retenção, leave-one-out, BIC, AICc, ERIC.
Regressão stepwise
  • Compatibilidade para coluna de validação.
Regressão logística (nominal e ordinal)
  • Compatibilidade para coluna de validação.
Mínimos quadrados padrão
  • Compatibilidade para coluna de validação.
Mínimos quadrados parciais (PLS)
  • A personalidade de PLS no ajuste do modelo permite a resposta contínua ou categórica; fatores contínuos ou categóricos, interações e termos polinomiais.
  • Estilo NIPALS sem imputação de valores.
  • Salvar colunas de validação cruzada geradas de maneira aleatória.
  • Uma opção de X padronizada, que centraliza e dimensiona variáveis individuais que fazem parte de um efeito polinomial antes da aplicação das opções de centralização e dimensionamento.
  • Opções de métodos de validação: coluna de validação, KFold, retenção, leave-one-out.
Modelos Mistos
  • Especificar efeitos fixos, aleatórios e repetidos.
  • Correlacionar grupos de variáveis, configurar assunto e efeitos contínuos.
  • Opção de estrutura de covariância repetida.
  • Os variogramas atuam como diagnóstico visual para determinar qual, na existência de uma, estrutura de correlação espacial é a mais apropriada.

Matrizes de Cobertura

  • Projete e analise matrizes de cobertura.
  • Otimize os projetos após terem sido criados para reduzir ainda mais a execução.
  • Utilize o filtro de combinações rejeitadas para especificar regiões de testes inviáveis.
  • Importe matrizes de cobertura criadas por outros softwares; analise a cobertura e, como opção, realize maior otimização.

Métodos multivariados

Análise discriminante
  • Compatibilidade para coluna de validação.

Modelos especializados

Processo gaussiano
  • Capacidade de ajustar modelos com milhares de linhas por meio de fast GASP.
  • Adicione variáveis categóricas aos seus modelos de processos gaussianos.

Pesquisa do consumidor

Modelos de Crescimento
  • Método da árvore de decisão para identificar os segmentos de consumidores com maior probabilidade de responderem de maneira favorável a uma oferta ou tratamento.
  • Técnicas de modelagem líquida, incremental ou true-lift.
  • Compatibilidade para coluna de validação.
Modelos de escolha
  • Compatível com a escolha de Bayes hierárquico.
  • Salve estimativas de assuntos e cadeia de Bayes.
Análise de Associação
  • Permite a análise de cestas de mercado.
  • Analise a matriz de termos de documentos empilhados gerada pela plataforma Explorador de Textos.

Estatística Computacional Avançada

Análise unidirecional
  • Testes paramétricos não exatos.
Análise de contingência
  • Medidas exatas de associação.
Bootstrapping geral
  • Faça o bootstrap das estatísticas na maioria dos relatórios com um único clique.
Funcionalidade de simulação geral
  • Simulação de estatísticas com um único clique na maioria dos relatórios.
  • Cálculos avançados em quase tudo.
  • Permite o bootstrapping paramétrico.
  • Testes de aleatoriedade.

Requisitos do sistema

O JMP é executado no Microsoft Windows e no Mac OS. Compatível com sistemas de 32 e 64 bits.

Back to Top