JMP Background

Statistique, modélisation prédictive
et data mining avec JMP®

La statistique est une discipline visant à collecter, décrire et analyser des données pour mesurer les variations et identifier des relations pertinentes. Elle permet de résoudre des problématiques, de découvrir des opportunités et de prendre les bonnes décisions. Utilisées correctement et à bon escient, les statistiques permettent de repérer et prévoir certaines tendances. C'est aussi un excellent moyen d'apprendre et de s'améliorer en permanence, quel que soit le contexte.

Que vous privilégiez la description, la prévision ou l'explication, vous apprécierez le modèle de découverte statistique de JMP, qui exploite la synergie intrinsèque entre visualisation et modélisation. Peu importe la forme et le volume de vos données dès lors que la mémoire est suffisante : JMP vous aidera à exploiter tout leur potentiel, quel que soit votre niveau de connaissances en statistique.

JMP offre des fonctions complètes de régression univariée linéaire et non linéaire ainsi que des méthodes multivariées pour l'exploration, la réduction de la dimensionnalité et la modélisation, et pour l'analyse de séries chronologiques et de données catégorielles. JMP et JMP Pro répondent aux besoins de la plupart des utilisateurs, en présentant les diverses techniques et résultats de manière claire et simple, sans pour autant nuire à la précision de l'analyse. Si JMP offre une série d'utilitaires de modélisation capables de gérer en amont les problèmes courants relatifs aux données, JMP Pro inclut, pour sa part, une multitude d'algorithmes sophistiqués permettant de créer de meilleures modèles à partir de données désordonnées.

JMP permet de modéliser les données rapidement et correctement à l'aide du dépôt des formules (JMP Pro), mais aussi de comparer des modèles créés de diverses manières, et de générer du code en C, Python, JavaScript ou SAS afin d'évaluer le score de nouveaux cas.

Des rapports et des profileurs interactifs et visuels vous aident à partager des résultats simples ou complexes avec des personnes peu versées dans les méthodes statistiques mais qui ont besoin de comprendre ces résultats pour agir. Les résultats d'un modèle générés par JMP peuvent également faire l'objet d'un profilage dynamique dans un navigateur web sur postes de travail ou terminaux mobiles.

Enfin, à l'aide d'une fonction intégrée, JMP Pro peut facilement calculer les tailles d'échantillon pour les modèles ajustés (simples ou complexes) via la simulation Monte-Carlo. Vous pouvez ainsi évaluer le potentiel des données collectées afin de répondre aux questions posées.

Régression

La classe des modèles de régression linéaire est à la fois diversifiée et universelle. JMP met ces méthodes ultra-performantes à la portée des spécialistes de tous niveaux.

La plate-forme Ajuster Y en fonction de X permet de tester et modéliser les dépendances entre une entrée et un résultat. JMP unifie des méthodes statistiques jugées disparates pour les rendre cohérentes et compréhensibles, et produit des résultats graphiques qui simplifient l'interprétation des résultats.

La plate-forme Modèle linéaire permet d'ajuster des modèles simples ou complexes dans lesquels sont définis des effets fixes et aléatoires ainsi que des termes d'erreur. Un rapport Résumé des effets autorise le glisser-déposer de termes en vue d'analyser leur impact sur le modèle.

Quelle que soit l'approche choisie pour créer vos modèles, JMP met à disposition une série complète de méthodes manuelles et automatisées, avec diagnostics appropriés, qui vous permettent de gagner du temps avec la plupart des types de modèles linéaires. Une approche de type « données manquantes » permet de tenir compte des informations de toutes les lignes. Certaines options d'ajustement vous permettent de cibler vos efforts. Avec ses modèles mixtes (qui traitent correctement les mesures répétées et spatiales) et la régression généralisée (techniques de régression régularisée ou avec pénalité comme Elastic Net, qui permettent d'identifier les X à caractère explicatif), JMP Pro multiplie les possibilités qui s'offrent à vous. JMP Pro prend également en charge la régression quantile.

JMP facilite la comparaison de modèles concurrents. Le traitement des réponses multiples est intégré, et le profileur permet de comparer facilement les résultats et les interprétations de différents ajustements. Grâce au profileur, vous pouvez en outre trouver les paramètres d'optimisation des Y. Les simulations Monte Carlo vous aident à évaluer la manière dont les variations des X seront transmises aux Y.

La plate-forme Non linéaire permet de modéliser des relations non linéaires. Les modèles non linéaires appliquent soit les moindres carrés standard, soit une fonction de perte personnalisée. JMP inclut une bibliothèque de types de modèles non linéaires requis pour les études de titrage biologique et de pharmacocinétique. Vous n'êtes pas tenu d'imputer des valeurs de départ ni des formules auxiliaires. Il est possible de regrouper les variables et d'isoler rapidement des effets du sujet au moyen d'affichages graphiques. La fonction de perte personnalisée offre davantage de souplesse : elle permet par exemple d'utiliser des moindres carrés itérativement repondérés pour une régression efficace.

Données catégorielles

La plate-forme catégorielle de JMP fournit des tables, des résumés et des tests statistiques des données de réponse, ainsi que plusieurs données de réponse lorsque les réponses mesurées indiquent une appartenance à une catégorie particulière. Ces données sont générées d'après plusieurs paramètres : résultats des tests, classification des défauts ou des effets secondaires et administration des enquêtes.

Du fait notamment de leurs nombreux domaines d'application, les données catégorielles peuvent être présentées dans un grand nombre de formats. L'un des principaux atouts de la plate-forme catégorielle est sa capacité à traiter cette diversité sans qu'il soit nécessaire de remanier les données avant leur exploration et leur analyse. Il est possible d'utiliser une ou plusieurs colonnes pour définir les catégories dans lesquelles et entre lesquelles évaluer la variation dans la réponse. Le rapport catégoriel contient les résultats sous forme de graphique indiquant le partage et la fréquence par catégorie. Utilisés avec le filtre de données de JMP, ces diagrammes donnent un aperçu simple et rapide des données d'une enquête à grande échelle. Le rapport peut également afficher les tabulations et les tableaux croisés, qu'il est facile de transposer pour simplifier la consultation ou l'impression.

Selon la nature des réponses, vous pouvez également poser les questions statistiques suivantes :

  • Les configurations de réponse varient-elles selon les catégories d'échantillons et évoluent-elles dans le temps ?
  • Pour chaque catégorie de réponse, les taux sont-ils les mêmes, quelle que soit la catégorie d'échantillon ?
  • Dans quelle mesure les opérateurs concordent-ils ?
  • Quel est le risque relatif des différents traitements ?

Arbres

La plate-forme Partition de JMP permet de repérer les portions ou les groupements dans les entrées (X) qui prédisent le mieux la variation d'une sortie (Y). Les X et les Y peuvent être catégoriels ou continus. Le procédé de partition des données consistant à rechercher un X approprié et un groupement ou une portion adéquat pour ce X est récursif : vous pouvez continuer jusqu'à ce que vous trouviez un bon ajustement. Le résultat est naturellement représenté sous forme d'arbre, et vous pouvez obtenir des informations importantes sur les X qui contribuent le plus à expliquer la variation des Y.

Les arbres tolèrent les valeurs manquantes et s'adaptent aux effets conjoints des X. Vous pouvez développer votre arbre à l'aide d'arbres décisionnels, de forêts aléatoires (bootstrap forests, JMP Pro uniquement) ou d'arbres augmentés (boosted trees, JMP Pro uniquement). Notez que les arbres décisionnels simples ne se généralisent pas très bien. Par conséquent, si vous avez besoin de fonctions de prévision, songez à passer à JMP Pro.

Réseaux de neurones

La plate-forme Réseaux de neurones de JMP permet de créer des réseaux de neurones entièrement connectés comportant des nœuds masqués dans une (JMP) ou deux couches (JMP Pro). Dans JMP, tous les nœuds ont les mêmes fonctions d'activation. Dans JMP Pro, chaque nœud peut se voir adjoindre l'une des trois fonctions d'activation. Chacune des couches peut comporter autant de nœuds que vous le souhaitez.

JMP Pro permet en outre de traiter automatiquement les données manquantes, de transformer les X depuis la plate-forme, et de recourir au boosting pour que le réseau apprenne les cas difficiles en appliquant l'une des quatre méthodes de pénalité.

Explorateur de texte

La plate-forme Explorateur de texte de JMP permet d'explorer des données en texte libre dans leurs multiples formes : réponses à des enquêtes, journaux de réparation, rapports techniques et commentaires libres, par exemple. L'Explorateur de texte utilise une approche de type « sac de mots » qui décompose le texte en tokens afin de créer une matrice document-terme. Le tri et l'interprétation des données textuelles sont ainsi simplifiés, et vous n'avez plus à choisir entre traiter ces données manuellement ou les ignorer tout bonnement.

Par ailleurs, l'Explorateur de texte de JMP fournit des moyens d'extraire des mots-clés, propose un script de recodage permettant de nettoyer des documents sans toucher au texte original et offre la possibilité de développer des nuages de mots thématiques. Vous pouvez trouver des informations dans les données textuelles et traiter ces dernières de manière informative.

Dans JMP Pro, l'Explorateur de texte inclut des outils d'analyse supplémentaires qui utilisent la décomposition en valeurs singulières pour regrouper des documents similaires par thème. La plate-forme permet de classer des documents contenant du texte, classer des termes apparaissant dans une collection de documents ou encore classer des documents en utilisant une analyse des classes latentes. Vous pouvez également effectuer une analyse discriminante et utiliser des colonnes de validation dans un workflow de modélisation prédictive.

Techniques d'interdépendance multivariées

Une analyse multivariée peut porter sur des observations (lignes) ou sur des variables (colonnes), et peut traiter les variables équitablement (techniques d'interdépendance) ou faire la distinction (techniques de dépendance) entre effets (X) et réponses (Y). Quel que soit votre objectif en termes d'analyse, vous pouvez compter sur JMP. (Reportez-vous à la section Techniques de dépendance multivariées pour en savoir plus sur les méthodes multivariées impliquant des X et des Y).

Si l'on considère le contexte multivarié de la qualité des données, il est essentiel de prendre en compte l'identification et le traitement des valeurs aberrantes, ainsi que la configuration des valeurs manquantes. JMP fournit des utilitaires qui facilitent la résolution de ces problèmes. En règle générale, ces derniers doivent être abordés de manière itérative à mesure que l'analyse se déroule. L'interactivité de JMP est précisément conçue pour ce mode de fonctionnement.  

La plate-forme Multivariée constitue souvent le point d'entrée d'une analyse comportant de nombreuses colonnes. Elle permet d'évaluer rapidement les associations et corrélations paramétriques et non paramétriques entre toutes les paires de variables numériques, d'identifier les valeurs aberrantes et d'imputer les valeurs manquantes.

Pour les techniques d’interdépendance, JMP propose l'Analyse en composantes principales (ACP), l'analyse factorielle, la classification, l'analyse des classes latentes, l'échelonnement multidimentionnel, l'analyse d'association (JMP Pro), les mélanges normaux et les cartes auto-organisées. Toutes ces méthodes utilisant un style d'analyse, vous pouvez façonner votre approche en fonction de ce que révèlent les données.

Si l'analyse ACP sert à réduire la dimensionnalité d'une description en présence de corrélations, l'implémentation dans JMP permet de gérer efficacement de gigantesques volumes de données. Si vos variables sont catégorielles et non quantitatives, vous pouvez réaliser dans JMP une analyse des correspondances multiples plutôt qu'une analyse ACP, pour un résultat similaire. L'analyse factorielle donne la possibilité de modéliser la variabilité entre des variables observées, en fonction du plus petit nombre de facteurs non observés. La plate-forme Analyse factorielle accepte plusieurs ajustements et plusieurs rotations au sein d'un même rapport, et le format conditionnel permet d'éliminer les petites valeurs.

La classification, qui forme des sous-groupes de sorte que les cas d'un sous-groupe particulier présentent plus de similitudes que ceux d'un autre sous-groupe, est l'une des principales techniques d'apprentissage non supervisé. La plate-forme Cluster de JMP permet de mettre à l'échelle et de transformer des variables avant une analyse. Elle fournit plusieurs mesures de distance et inclut la classification hiérarchique et le partitionnement par la méthode des k-means. La classification hiérarchique génère un dendrogramme que vous pouvez manipuler de manière interactive afin de décider du nombre de clusters le mieux adapté. Vous pouvez pour cela utiliser les résumés de clusters ou d'autres approches heuristiques. Par ailleurs, vous pouvez ajouter des mesures spatiales aux données empilées pour classifier des tendances de défauts spécifiques.

L'analyse des classes latentes constitue une alternative à la classification, et l'analyse d'association (également appelée analyse du panier de la ménagère) identifie les relations entre des objets spécifiques (par exemple, des articles souvent achetés conjointement).

Techniques de dépendance multivariées

Pour les techniques de dépendance multivariées, JMP fournit plusieurs outils : régression des moindres carrés partiels, analyse discriminante, classifieurs bayésien naïf et voisins les plus proches, et processus gaussien.

Très polyvalente, la technique des moindres carrés partiels accepte les données sous toutes les formes et n'impose pas de limite au nombre de X et de Y. Elle est souvent appliquée lorsque la régression linéaire n'est pas viable du fait que les X sont plus nombreux que les lignes. Mais de manière générale, elle se révèle également efficace dans le cadre de la modélisation prédictive.

La plate-forme Moindres carrés partiels de JMP offre des fonctionnalités de base. En revanche, la plate-forme Modèle linéaire de JMP Pro inclut une méthode d'analyse statistique par moindres carrés qui permet d'ajuster des modèles plus complexes impliquant des puissances et des termes d'interaction. Avec JMP Pro, il est également possible d'imputer des valeurs manquantes et de créer des modèles PLS par le biais de différentes méthodes de validation.

JMP inclut les algorithmes d'ajustement NIPALS et SIMPLS, ainsi que des solutions automatisées pour trouver le nombre le plus approprié de facteurs latents à inclure dans le modèle. Vous y trouverez aussi les diagnostics habituels permettant de vérifier l'adéquation du modèle. De plus, vous pourrez rapidement générer des modèles de moindres carrés partiels épurés, contenant un nombre réduit de termes. Il suffit pour cela d'effectuer les sélections appropriées dans la sortie graphique ou de définir un seuil VIP. Dans le cas d'une réponse catégorielle, vous pouvez utiliser l'analyse discriminante des moindres carrés partiels de JMP Pro.

La plate-forme Analyse discriminante permet de déterminer quelles combinaisons de X permettent d'expliquer l'appartenance d'un Y à une catégorie. Elle propose des méthodes de discrimination linéaires, quadratiques ou régularisées, ainsi que la sélection pas à pas des X, le cas échéant. Enfin, elle permet d'examiner facilement les lignes mal classées ou à probabilité peu sûre, afin de décider des mesures correctives ou de suivi à mettre en œuvre. L'analyse discriminante peut gérer efficacement une multitude de problèmes par le biais d'une matrice de covariance estimée de manière optimale et obtenue après réduction adéquate des entrées non diagonales.

Le processus gaussien peut servir à intercaler les valeurs de Y qui sont une fonction d'un nombre quelconque de X (afin de créer des modèles de substitution pour les systèmes déterministes). Il peut également être utilisé comme outil de modélisation plus général.

Série chronologique

La plate-forme Série chronologique de JMP permet d'explorer, de modéliser et de prévoir des séries chronologiques univariées. Votre approche statistique de la modélisation peut être motivée par les diagnostics habituels, tels que les graphiques d'autocorrélations et d'autocorrélations partielles, les variogrammes, les coefficients d'autorégression et les graphiques de densité spectrale. Vous pouvez aisément supprimer les effets saisonniers et de tendance de votre série chronologique, notamment en utilisant la méthode de décomposition X11.

Un simple clic permet d'élaborer plusieurs modèles ARIMA pour une série chronologique ; il suffit ensuite de sélectionner le modèle le mieux adapté au moyen de divers facteurs de mérite tels que AIC, SBC, MAPE et MAE. Il est également possible de créer des modèles de transfert en vue de modéliser une série chronologique obtenue d'après une ou plusieurs séries en entrée, en appliquant un préblanchiment aux entrées si nécessaire. Vous pouvez en outre générer le code PROC ARIMA équivalent de façon à exécuter votre modèle dans SAS, le cas échéant.

La plate-forme Série Chronologique contient par ailleurs plusieurs techniques de lissage applicables aux séries chronologiques, comme le lissage exponentiel de Holt, le lissage exponentiel saisonnier et la méthode de Winter.

Toutes ces méthodes permettent d'établir des prévisions interactives du comportement futur, avec intervalles de confiance.

Back to Top