Modélisation prédictive et validation croisée

S'il est relativement aisé de décrire les performances de l'année précédente, il est en revanche beaucoup plus difficile de créer un modèle pour anticiper ce qui se passera avec de nouveaux clients, nouveaux processus ou nouveaux risques sans outils adéquats et techniques modernes. JMP Pro offre une multitude d'algorithmes permettant de créer de meilleurs modèles à partir de vos données. Les arbres de décision, la forêt aléatoire (bootstrap forest), le classifieur bayésien naïf et les réseaux de neurones figurent parmi les techniques de modélisation prédictive les plus efficaces.

La plate-forme Partition de JMP Pro fait appel à des méthodes modernes pour automatiser le processus de construction arborescente. Cette plate-forme ajuste aussi les modèles K-NN (K plus proches voisins).

La forêt aléatoire développe des dizaines d'arbres de décision à partir de sous-ensembles aléatoires des données, et établit la moyenne de l'incidence calculée de chacun des facteurs de ces arbres. La technique de l'arbre augmenté (boosted tree) consiste à créer plusieurs arbres simples et à ajuster constamment de l'un à l'autre l'éventuelle variation des résidus.

La plate-forme Bayes naïf s'appuie sur les principes du théorème de Bayes pour vous permettre de prévoir une réponse catégorielle. Il est également possible d'établir des prévisions pour des combinaisons de régresseurs n'apparaissant pas dans les données.

La plate-forme avancée Réseaux de neurones permet de construire des réseaux neuronaux à une ou deux couches à l'aide de trois fonctions d'activation au choix et d'élaborer automatiquement un modèle via l'option Gradient Boosting. Cette plate-forme traite automatiquement les valeurs manquantes et la transformation des X continus, ce qui vous simplifie la tâche, et propose en outre des options d'ajustement robustes.

Chacune de ces plates-formes JMP Pro utilise la technique de validation croisée, qui permet de valider votre modèle et de généraliser les données futures. Pour une modélisation prédictive efficace, vous avez besoin d'outils de validation performants, les grands modèles étant de surcroît propices au surajustement. Les grands modèles doivent toujours faire l'objet d'une validation croisée, ce qui est possible dans JMP Pro par le biais du partitionnement de données — ou retenue. La validation croisée permet de créer des modèles qui se prêteront bien à la généralisation des données futures — relatives aux nouveaux clients, processus ou risques — de sorte que vous puissiez procéder à des inférences.

La méthode consistant à diviser les données en jeux d’apprentissage, de validation et de test est utilisée depuis longtemps pour éviter le surajustement et s'assurer que les modèles créés ne sont pas exclusivement liés aux propriétés de l'échantillon sur lequel ils reposent. Dans JMP Pro, l'approche générale de la validation consiste à utiliser une colonne de validation. L'utilitaire Colonne de validation vous permet de subdiviser facilement vos données en jeux au moyen d'un échantillon aléatoire simple ou stratifié.

Le jeu d’apprentissage sert à créer le ou les modèles, tandis que le jeu de validation sert, dans le processus de construction de modèles, à déterminer le niveau de complexité du modèle. Enfin, le jeu de test, qui est complètement exclu du processus de construction du modèle, permet d'évaluer la qualité du ou des modèles. Pour les jeux de données de petite taille, la validation en k blocs peut également être employée. Ce processus permet de créer des modèles qui se prêteront efficacement à la généralisation des nouvelles données.

Il ne faut pas non plus oublier le rôle essentiel des données observationnelles. Pour véritablement comprendre les causes et les effets, il est souvent utile de faire appel aux plans d’expérience (DOE, Design of Experiments). JMP fournit de remarquables outils permettant de réaliser des plans d'expérience optimaux très simples d'emploi.

Comparaison de modèles

Dans la réalité, un type de modèle peut être parfaitement adapté à certaines situations, mais inefficace dans d'autres. Dans JMP Pro, les techniques d'ajustement sont nombreuses et vous devez identifier celle qui convient le mieux à une situation donnée. L'une des principales approches de construction de modèle consiste à essayer un grand nombre de modèles différents : des modèles plus ou moins complexes, des modèles avec ou sans certains facteurs/régresseurs, des modèles créés à l'aide de diverses méthodes, et même des moyennes de plusieurs modèles (modèles d'ensemble).

Chacun de ces modèles inclura des mesures de qualité communes qui pourront être utilisées dans le cadre de leur évaluation : R carré, taux d'erreurs de classification, courbes ROC, AUC, courbes Lift, etc.

Avec la comparaison des modèles de JMP Pro, vous pouvez comparer les colonnes de prévision enregistrées à partir de différents ajustements et choisir la meilleure combinaison d'ajustement, de parcimonie et de validation. JMP Pro effectue automatiquement cette comparaison. Parallèlement, vous pouvez interagir avec des profileurs visuels pour identifier les facteurs importants recueillis par chaque modèle. La comparaison de modèles dans JMP Pro permet de comparer facilement plusieurs modèles à la fois, mais également de calculer la moyenne simple de modèles.

Dépôt des formules et génération d'un code de scoring

La gestion des modèles ne doit pas être une corvée. Le dépôt des formules de JMP Pro organise votre travail en présence de nombreux modèles. Ce référentiel central permet de stocker, profiler, comparer et déployer, de manière sélective, des modèles JMP Pro en C, SQL, SAS ou d'autres langages.

Désormais, lorsque vous créez plusieurs modèles, vos données ne sont plus alourdies par une multitude de colonnes contenant les formules de prévision nécessaires à la comparaison des modèles. Il est en effet possible d'enregistrer le code de scoring dans le dépôt des formules en vue de l'appliquer aux nouvelles données. Grâce à ce hub de modélisation central, vous accédez facilement à vos modèles et les déployez aisément sur les autres systèmes.

Connexion à SAS®

JMP Pro faisant partie des offres SAS d'analyse prédictive et de data mining, vous pouvez aisément le connecter à SAS pour aller plus loin et bénéficier ainsi de la sophistication de SAS Analytics et des fonctions d'intégration de données. Avec ou sans connexion active à SAS, JMP Pro est capable de produire du code SAS pour évaluer rapidement le score de nouvelles données via les modèles créés dans JMP.

Modélisation moderne

La régression généralisée est un ensemble de nouvelles techniques de modélisation permettant de créer de meilleurs modèles prédictifs, même avec des données complexes. Elle ajuste les modèles linéaires généralisés selon des méthodes de régression régularisée ou avec pénalité.

En présence de régresseurs étroitement corrélés ou d'un nombre de régresseurs supérieur au nombre d'observations, les techniques d'estimation standard échouent. Lorsque les régresseurs corrélés sont nombreux (comme c'est souvent le cas dans les données d'observation), les résultats de la régression pas à pas et des autres techniques standard sont parfois décevants. Ces modèles sont souvent surajustés et ne se généralisent pas très bien. Mais comment choisir les variables à éliminer avant la modélisation ? Et comment ne plus perdre de temps à prétraiter manuellement les données ?

La méthode d'analyse statistique Régression généralisée de la plate-forme Modèle linéaire est une approche complète de la régression. Elle inclut tout, depuis la sélection des variables jusqu'aux comparaisons des moyennes des moindres carrés, en passant par le diagnostic de modèle, la prévision inverse et le profilage. Le tout dans JMP Pro uniquement.

Les techniques de régularisation disponibles dans le cadre de la régression généralisée — Ridge, Lasso, Lasso adaptatif, Elastic Net et Elastic-net adaptatif — facilitent l'identification des X à caractère explicatif. Ces techniques sont aussi simples que les autres méthodes de modélisation de la plate-forme Modèle linéaire ; il suffit d'identifier la réponse, de choisir les effets du modèle et de sélectionner la méthode d'estimation et de validation souhaitée. JMP ajuste automatiquement les données, sélectionne les variables (le cas échéant) et crée un modèle prédictif pouvant être généralisé. Vous pouvez également utiliser une technique pas à pas ascendante, effectuer une régression quantile ou un ajustement simple à l'aide de la méthode du maximum de vraisemblance.

Enfin, grâce à des options permettant de choisir la distribution adaptée à la réponse que vous êtes en train de modéliser, la plate-forme Régression généralisée vous permet de modéliser une plus grande variété de réponses (quantités — ou dénombrements —, données aux valeurs aberrantes multiples, données faussées, etc.). Et comme dans toutes les plates-formes de modélisation avancée de JMP Pro, vous avez le choix entre plusieurs techniques de validation croisée.

Diagramme de fiabilité

Vous devez souvent analyser la fiabilité d'un système analytique complexe — une baie de stockage RAID comportant plusieurs disques durs ou un quadriréacteur, par exemple. JMP met à votre disposition de nombreux outils pour analyser la fiabilité des différents composants de ce type de système. Avec JMP Pro, vous pouvez en outre évaluer la fiabilité de composantes isolées, créer un système complexe avec de multiples composantes et analyser la fiabilité d'un système tout entier. Grâce à la fonction Diagramme de fiabilité, vous pouvez aisément concevoir un système, en combler les lacunes et mieux anticiper les dysfonctionnements à venir.

Cette plate-forme vous permet de réaliser facilement des analyses de simulation en étudiant différentes conceptions et en comparant les graphiques de plusieurs plans. Vous pouvez en outre identifier les points qui se prêtent le mieux à l'ajout de redondance et réduire la probabilité de défaillance d'un système.

Simulation des systèmes réparables

Certains systèmes ou composants de systèmes complexes sont trop coûteux pour rester inactifs très longtemps. Pour en assurer l'intégrité, vous devez planifier les réparations des composants ou profiter d'une interruption non planifiée pour réaliser d'autres réparations pendant que le système est indisponible. Avec la simulation des systèmes réparables de JMP Pro, vous pouvez déterminer la durée d'indisponibilité d'un système et répondre aux principales questions, telles que le nombre d'événements réparables à prévoir au cours d'une période donnée ou le coût d'un événement de réparation.

Tableaux de recouvrement

Les tableaux de recouvrement sont utilisés dans le domaine du test, lorsque les interactions entre les facteurs peuvent être sources d'échec et que chaque essai expérimental peut s'avérer coûteux. Il s'agit donc de créer un plan d'expériences qui maximisera la probabilité de trouver des défauts dans les délais et budgets les plus serrés possibles. C'est à cela que servent les tableaux de recouvrement. JMP Pro vous permet de créer un plan d'expériences pour tester les systèmes déterministes et couvrir toutes les combinaisons de facteurs possibles jusqu'à un certain ordre d'interactions.

Ainsi, dès lors que des combinaisons de facteurs créent des conditions non plausibles, vous pouvez utiliser le filtre interactif Combinaisons non autorisées pour les exclure automatiquement du plan d'expériences.

JMP Pro présente l'immense avantage d'être bien plus qu'un simple outil de création de tableaux de recouvrement : il permet également d'effectuer toutes sortes d'analyses statistiques. Par exemple, il n'existe à l'heure actuelle aucun autre logiciel permettant à la fois de créer des tableaux de recouvrement et d'analyser des données à l'aide d'une régression généralisée. JMP Pro a donc une véritable longueur d'avance sur les autres outils de conception de tableaux de recouvrement.

JMP Pro n'est pas seulement un outil de conception. Il offre également la possibilité d'importer tout type de tableau de recouvrement (généré à partir de n'importe quel logiciel) pour l'optimiser et analyser les résultats. Vous pouvez créer les tableaux vous-même, sans faire appel à qui que ce soit d'autre. Avec JMP Pro, vous réalisez des tests plus intelligents grâce aux tableaux de recouvrements.

Modèles mixtes

Dans un modèle mixte, l'analyse contient à la fois des effets fixes et aléatoires. Ce type de modèle permet d'analyser les données de temps et d'espace. Vous pouvez notamment vous en servir dans les plans d'étude mesurant plusieurs sujets à différents stades d'un essai pharmaceutique, ou dans les plans d'étude croisés de l'industrie pharmaceutique ou chimique ou du secteur industriel.

JMP Pro vous permet d'ajuster des modèles mixtes à vos données pour spécifier des effets fixes, aléatoires et répétés, corréler des groupes de variables et configurer des sujets et des effets continus dans une seule et même interface intuitive de type « glisser-déposer ».

Par ailleurs, il est désormais possible de calculer les paramètres de covariance d'un plus grand nombre de structures de corrélation. Par exemple, lorsque les unités expérimentales dont vous mesurez les données peuvent être regroupées en clusters et que les données d'un cluster commun sont corrélées. Ou encore, lorsque vous relevez des mesures répétées dans une unité expérimentale et que ces mesures sont corrélées ou mettent en évidence des fluctuations de la variabilité.

Déterminez également facilement (visuellement) la structure à covariance spatiale à utiliser dans la spécification de votre modèle lorsque vous créez des modèles mixtes dans JMP Pro.

Modèles uplift (levier)

Pour améliorer l'impact d'un budget marketing limité, vous envisagez peut-être d'envoyer des offres aux personnes les plus susceptibles d'y répondre favorablement. Mais cette tâche peut sembler décourageante, surtout en présence de vastes jeux de données et de nombreux régresseurs comportementaux ou démographiques possibles. C'est là qu'interviennent les modèles uplift (levier). Ce type de modélisation — également appelée modélisation incrémentielle, true-lift ou modélisation en réseau — a été développé pour optimiser les décisions marketing, définir des protocoles médicaux personnalisés ou, plus généralement, identifier les caractéristiques de sujets sensibles à certaines actions.

Dans JMP Pro, la modélisation uplift rend possibles ces prévisions. JMP Pro ajuste les modèles de partition identifiant des divisions pour optimiser une différence due au traitement. Les modèles aident à identifier les groupes d'individus les plus enclins à répondre favorablement à une action ; ils contribuent à la prise de décisions efficaces et ciblées qui améliorent l'allocation des ressources et l'impact individuel.

Calculs statistiques avancés

JMP Pro inclut des tests statistiques exacts pour les tableaux de contingence et des tests statistiques exacts non paramétriques pour les ANOVA à un facteur. Il offre également une méthode générale pour procéder au bootstrapping de statistiques dans la majorité des rapports JMP.

Le bootstrapping établit une approximation de la distribution d'échantillonnage d'une statistique. JMP Pro est le seul progiciel statistique qui permet de procéder au bootstrapping d'une statistique sans programmation. Grâce au bootstrapping en un clic, il suffit en effet d'un simple clic pour procéder au bootstrapping d'une quantité sous forme de rapport JMP.

Cette technique est utile lorsque les hypothèses théoriques sont remises en question, voire inexistantes. Par exemple, essayez d'appliquer des techniques de bootstrapping aux résultats d'un modèle non linéaire utilisés pour établir des prévisions ou essayez de déterminer des intervalles de couverture autour de quantiles. Vous pouvez également utiliser le bootstrapping pour évaluer le degré d'incertitude d'un modèle prédictif. Le bootstrapping permet d'évaluer la fiabilité de vos estimations à partir d'un nombre d'hypothèses restreint — et est largement simplifié avec la fonction de bootstrapping en un clic de JMP Pro.

Partage et diffusion des résultats

Partage et diffusion des résultats

Dow Chemical a choisi JMP Pro pour doter ses collaborateurs du meilleur outil du marché en matière d'exploration et d'extraction de données volumineuses.

Lisez l'article (en anglais)

La découverte fait partie intégrante de JMP, tout comme la communication des résultats dans l'entreprise. JMP Pro regroupe toutes les fonctions visuelles et interactives de JMP et offre ainsi des représentations de données inédites. Grâce à la liaison dynamique des données, graphiques et statistiques, JMP Pro donne vie à vos recherches sous forme de graphiques 3D ou animés qui évoluent dans le temps et mettent en évidence de nouvelles informations précieuses pour le processus de construction de modèles et d'explication.

Fonctionnalités exclusives de JMP® Pro

JMP Pro reprend toutes les fonctionnalités de JMP, auxquelles s’ajoutent les fonctions d’analyse ci-après.


Modélisation predictive

Modélisation de réseau de neurones
  • Traitement automatique des données manquantes.
  • Sélection automatique du nombre d’unités masquées grâce à l’approche Gradient Boosting.
  • Ajustement de réseaux de neurones à une ou deux couches.
  • Transformation automatique des variables d’entrée.
  • Trois fonctions d’activation (tangente hyperbolique, linéaire, gaussien).
  • Sauvegarde de colonnes de validation générées de manière aléatoire.
  • Sauvegarde de covariables transformées.
  • Prise en charge de la colonne de validation.
Modélisation des partitions récursives
  • Plusieurs méthodes au choix : arbre de décision, forêt aléatoire (bootstrap forest), arbre augmenté (boosted tree), K voisins les plus proches et Bayes naïf.
  • Définition de la graine aléatoire, élimination du multithreading, utilisation de la table du plan de tuning, descente de gradient stochastique disponible dans les arbres augmentés (boosted tree) et forêt aléatoire (bootstrap forest).
  • Prise en charge de la colonne de validation.
  • Options de lancement de modèle dédiées pour : forêt aléa­toire, arbre augmenté, K voisins les plus proches et Bayes naïf.
Comparaison de modèles
  • Comparaison de modèles créés dans JMP Pro.
  • Profileur.
  • Tests d’ajustement (R2, taux d’erreurs de classification, courbes ROC, AUC, courbes Lift).
  • Calcul de la moyenne de modèles.
Créer une colonne de validation
  • Partitionnement automatique des données en jeux d’apprentissage, de validation et de test ; création de colonnes de validation.
  • Formule aléatoire, aléatoire fixe, aléatoire stratifié, aléatoire groupé, méthode du point de rupture pour la création des jeux de retenue.
  • Création de colonnes de validation dans les fenêtres de lancement des plates-formes par simple clic sur la fonction de la colonne de validation (formule aléatoire uniquement).
Dépôt des formules
  • Stockage et gestion des scripts de colonne de formule.
  • Commandes Publier disponibles pour Analyse discriminante, Ajustement par moindres carrés (7 commandes), Ajuster la logistique (nominale et ordinale), Arbre de décision, Bootstrap forest, Boosted trees, Uplift, K voisins les plus proches, Bayes naïf, Réseaux de neurones, Analyse des classes latentes, Composantes principales (de grande dimension et parcimonieuses), Régression généralisée, PLS, Processus gaussien.
  • Génération de code de scoring : SAS (DS2), C, Python, JavaScript, SQL (avec choix de la syntaxe pour différentes destinations).
  • • Comparaison directe des modèles collectés dans le Dépôt des formules à l’aide de l’option Comparaison de modèles.
  • Profileur.
  • Afficher le script, copier le script, copier la formule, copier la formule sous forme de transformation de colonne, exécuter un script pour générer une colonne de formule dans la table de données.
  • Ajouter des formules à partir des colonnes de la table de données.

Analyses de l’Explorateur de texte

  • Analyse des classes latentes.
  • Analyse sémantique latente (SVD parcimonieuse).
  • Analyse de rubrique (SVD pivotée).
  • Classification de termes et documents.
  • Matrice de nuage de points de la SVD et de la rubrique.
  • Enregistrer dans les colonnes de la table de données : vecteurs singuliers et de rubrique du document, DTM empilée pour association.
  • Enregistrer la formule : Vecteur singulier, Vecteur de rubrique.
  • Enregistrer les vecteurs : de terme et de rubrique.

Modèles de fiabilité et de survie

Diagramme de fiabilité
  • Créez des modèles de fiabilité des systèmes complexes.
  • Créez des systèmes avec des noeuds basiques, en série, en parallèle, knot et de type K sur N.
  • Créez des plans à effets emboîtés à l’aide d’éléments de la bibliothèque de plans.
Simulation des systèmes réparables
  • Moteur de simulation à événements discrets.
  • Prise en charge de la maintenance traditionnelle : maintenance corrective et préventive comme modules prêts à l’emploi.
  • Introduction d’une représentation graphique de l’arrangement de la maintenance avec un diagramme de fiabilité, dans un même espace de travail.
  • Schéma des liens entre les éléments d’événement et d’action, suggérant une maintenance groupée et des dépendances de maintenance.
Survie paramétrique
  • Prise en charge de la sélection de variables via une passerelle vers la méthode de régression généralisée de la plate-forme Modèle linéaire.
Régression généralisée
  • Gestion des données censurées, permettant la sélection de variables avec des données de survie/fiabilité.
  • Prise en charge des risques proportionnels de Cox.
  • Prise en charge des distributions de Weibull, log-normale, exponentielle, gamma, normale et avec inflation à zéro.

Modèle linéaire

Régression généralisée
  • Techniques de régularisation : Ridge, Lasso, Lasso adaptatif, Lasso double, Elastic-net, Elastic-net adaptatif.
  • Sélection Forward et Sélection Forward en deux étapes.
  • Régression quantile
  • Gestion des données censurées permettant la sélection de variables avec des données de survie/fiabilité.
  • Risques proportionnels de Cox
  • Enregistrez la formule de simulation pour l’utiliser dans la plate-forme Générer une simulation générale.
  • Distribution log-normale, de Weibull, de Cauchy, exponentielle, gamma, bêta, binomiale, binomiale bêta, de Poisson et binomiale négative.
  • Distribution binomiale, binomiale bêta, de Poisson, binomiale négative et gamma avec inflation à zéro.
  • Méthodes de validation au choix : colonne de validation, K-fold, retenue, leave-one-out (en supprimer un(e)), BIC et AICc, ERIC.
Régression pas à pas
  • Prise en charge de la colonne de validation.
Régression logistique (nominale et ordinale)
  • Prise en charge de la colonne de validation.
Moindres carrés standard
  • Prise en charge de la colonne de validation.
Moindres carrés partiels
  • La méthode d’analyse statistique PLS de la plate-forme Modèle linéaire gère les réponses continues et catégorielles, les facteurs continus et catégoriels, ainsi que les interactions et les termes polynomiaux.
  • Imputation de valeurs manquantes de type NIPALS.
  • Sauvegarde de colonnes de validation générées de manière aléatoire.
  • L’option Standardiser X permet de centrer et d’adapter les variables individuelles incluses dans un effet polynomial avant d’appliquer les options de centrage et de mise à l’échelle.
  • Méthodes de validation au choix : colonne de validation, K-fold, retenue, leave-one-out (en supprimer un(e)).
Modèles mixtes
  • Spécifiez des effets fixes, aléatoires et répétés.
  • Corrélez des groupes de variables, configurez des sujets et des effets continus.
  • Choix de la structure de covariance répétée.
  • Les variogrammes fournissent un diagnostic visuel permettant de déterminer la structure de corrélation spatiale la plus appropriée, le cas échéant.

Tableaux de recouvrement

  • Concevez et analysez des tableaux de recouvrement.
  • Optimisez les plans une fois créés pour réduire leurs délais d’exécution.
  • Utilisez le filtre Combinaisons non autorisées pour spécifier les régions de test inapplicables.
  • Importez des tableaux de recouvrement créés dans d’autres logiciels ; analysez le recouvrement et optimisez-le, le cas échéant.

Méthodes multivariées

Analyse discriminante
  • Prise en charge de la colonne de validation.

Modèles spécialisés

Processus gaussien
  • Possibilité d’ajuster des modèles contenant plusieurs milliers de lignes grâce au GASP rapide.
  • Ajout de variables catégorielles aux modèles de processus gaussien.

Études de consummation

Modèles uplift (levier)
  • Méthode à base d’arbre de décision permettant d’identifier les segments de consommateurs les plus sensibles à une offre ou un traitement.
  • Incrémentielle, true-lift, modélisation en réseau.
  • Prise en charge de la colonne de validation.
Modèles de préférences
  • Prise en charge de la méthode hiérarchique bayésienne dans les Choix.
  • Enregistrer les estimations du sujet et la chaîne de Bayes.
Analyse d’association
  • Prise en charge de l’analyse du panier de la ménagère.
  • Analyser la DTM empilée générée par la plate-forme Explorateur de texte.

Calculs statistiques avancés

Analyse à un facteur (ANOVA)
  • Tests exacts non paramétriques.
Analyse de contingence
  • Mesures d’association exactes.
Bootstrapping général
  • D’un clic, procédez au bootstrap de statistiques dans la plupart des rapports.
Fonctionnalité de simulation générale
  • Simulation de statistiques en un clic dans la majorité des rapports.
  • Calculs de puissances possible dans presque toutes les situations.
  • Prise en charge des bootstraps paramétriques.
  • Tests de randomisation.

Configuration requise

JMP s'exécute sous Microsoft Windows et Mac OS. Il est compatible avec les systèmes 32 et 64 bits.

Back to Top