ARTICLE
Les plans d’expériences statistiques sont les outils dont vous avez besoin pour dépasser vos réflexes de chasse aux données
par Phil Kay, JMP
Votre instinct de chasseur-cueilleur vous empêche de résoudre des problèmes
Les statistiques rencontrent un problème d'ordre humain : les scientifiques. Malgré le succès rencontré par les plans d'expériences (DOE) statistiques dans la résolution de problèmes industriels, de nombreux scientifiques et ingénieurs ne les utilisent toujours pas et perdent leur temps avec des méthodes peu efficaces. Cette situation est extrêmement frustrante. Cependant, des innovations telles que l'expérimentation automatisée et l'optimisation bayésienne pourraient être sur le point de changer la donne.
Si les scientifiques n'utilisent pas les DOE, c'est en partie au fait qu'ils ne les connaissent pas bien, mais aussi parce qu'ils exigent une manière de penser qui peut aller à l'encontre de leurs instincts scientifiques. Les innovations les plus efficaces en matière de DOE sont donc venues de ceux qui ont compris cette tension et ont su trouver un équilibre. En revenant sur ces réalisations, nous pouvons mieux voir d'où viendront les prochaines innovations.
Sortir des sentiers battus
George Box, l'un des innovateurs les plus importants du XXe siècle dans le domaine de la résolution de problèmes basée sur les données, n'était pas un adepte de la théorie pour la théorie. Il estimait qu'un outil largement utile était préférable à une solution localement optimale, comparant cette approche à la manière dont la main humaine peut accomplir de nombreuses tâches différentes.
Ces positions s’appuyaient sur l’expérience même que George Box avait acquise en sciences expérimentales. Il a débuté comme chimiste et a découvert les principes des plans d’expériences statistiques dans les manuels alors qu’il travaillait à la Chemical Defence Experimental Station de Porton Down pendant la Seconde Guerre mondiale. Dans les années 50, chez ICI Dyestuffs, il a développé la méthode des surfaces de réponse, qui allait être largement utilisée pour l’optimisation dans les industries de procédés. Son approche pratique a été couronnée de succès car elle visait à aider de véritables chimistes à résoudre de véritables problèmes : « Je devais connaître les détails des processus [...] en montant et descendant des échelles, en discutant et en débattant chaque jour avec le personnel technique et les opérateurs, et en leur enseignant quelques notions de plans et d'analyse statistiques », a expliqué G. Box.
Les expérimentateurs sont mal à l'aise avec les plans d'expériences statistiques.
Dans les années 90, les approches statistiques sont devenues plus sophistiquées. Des algorithmes permettant des « plans d'expériences optimaux » (encore utilisés aujourd'hui dans les logiciels de DOE) ont été développés afin de permettre aux expérimentateurs de créer un plan expérimental personnalisé, plutôt que d'essayer d'adapter leur problème à un plan « classique ».
Cependant, malgré leur utilité avérée et leur capacité (du moins au départ) à répondre à des besoins réels dans l'industrie, ces plans n'ont pas été largement adoptés. En revanche, un concept appelé « plans de criblage définitifs » (DSD), que les chercheurs ont découvert par hasard en explorant des algorithmes de plans optimaux, a connu un succès beaucoup plus important.
La raison en est que les plans optimaux ne répondaient pas au problème clé identifié par G. Box lorsqu'il travaillait chez ICI : les expérimentateurs sont mal à l'aise avec les expériences conçues de manière statistique. Les plans optimaux ne font qu'amplifier ce malaise avec un jargon technique complexe (la D-optimalité cherche à maximiser le déterminant de la matrice d'information !) et un éventail de choix qui rebutent la plupart des scientifiques et des ingénieurs.
Les obstacles comportementaux à l'adoption des DOE sont profondément enracinés
Un DSD, en revanche, est une solution plus générale qui offre aux scientifiques et aux ingénieurs simplicité et rapidité. J'ai moi-même constaté la valeur de ces plans lorsque je les ai utilisés pour améliorer un processus de filtration membranaire. Avec cinq variables et un temps limité sur le site pilote, nous ne parvenions pas à trouver une solution satisfaisante avec les approches de plans existantes. Grâce à un plan de criblage définitif, nous avons pu comprendre les comportements importants en seulement 15 essais et ainsi doubler la productivité !
Chasseurs-cueilleurs scientifiques
Ces obstacles comportementaux à l'adoption des plans d'expériences ont des racines profondes. Dans son blog « Apes in Lab Coats », Dennis Lendrem relate une étude menée auprès de 69 scientifiques ayant récemment participé à une université d'été sur les DOE. Les chercheurs ont reçu la simulation d'une réaction en chaîne par polymérase et ont été invités à maximiser son rendement en manipulant 12 variables différentes. Comme on pouvait s'y attendre, la plupart des scientifiques ont tenté de simplifier le problème en corrigeant les variables afin de réduire le nombre de dimensions. Cependant, ce qui est particulièrement intéressant, c'est la manière non systématique dont ils ont ensuite exploré l'espace des possibilités, en se concentrant sur les domaines les plus prometteurs, puis en s'aventurant de plus en plus loin dans d'autres régions à mesure que les résultats diminuaient. Comme le note D. Lendrem, cela ressemble beaucoup aux « stratégies de recherche de nourriture des singes et d'autres animaux [...] qui ont évolué pour exploiter des ressources inégales ».
Les stratégies les plus efficaces pour tirer parti de l’automatisation dans des expériences à grande échelle et à forte dimensionnalité restent à concevoir.
Il existe clairement un écart important entre cette approche de recherche inefficace mais instinctive et la stratégie plus efficace mais moins intuitive des plans d'expériences. L'optimisation bayésienne (BO) pourrait bien être le compromis qui permet de combler cet écart. À l'instar d'autres méthodes de DOE, il s'agit d'une stratégie basée sur les données pour explorer des systèmes multidimensionnels. La principale différence réside dans le fait qu'elle offre un retour d'information rapide, car le modèle est affiné après chaque expérience et l'algorithme propose alors où chercher ensuite pour se rapprocher de l'objectif.
La principale opportunité de l’optimisation bayésienne réside donc dans son rôle d’outil de recommandation fondé sur les données, au service des scientifiques qui mènent des expériences manuelles. Ce partenariat permet une exploration scientifique instinctive dans laquelle l’expérimentateur garde la main, tout en bénéficiant d’un accompagnement statistique pour explorer efficacement des systèmes multifactoriels.
L'avenir des DOE
Cependant, un scénario dans lequel aucune de ces méthodes de DOE n’aura réellement de sens commence déjà à émerger. LLorsque l’automatisation permet l’exécution parallèle de dizaines, voire de centaines d’essais, les approches visant à maximiser l’information à partir d’un faible nombre de runs ne sont plus adaptées. Les stratégies les plus efficaces pour tirer parti de l’automatisation dans des expériences à grande échelle et à forte dimensionnalité restent à concevoir, et elles naîtront très probablement d’une collaboration étroite entre les expérimentateurs et les chercheurs qui développent ces méthodes. Idéalement, il nous faut des profils généralistes capables de naviguer entre ces deux mondes.
L'histoire des DOE nous enseigne que nous devons suivre l'exemple de G. Box et être à l'écoute des besoins les plus pressants de l'industrie afin de mettre en œuvre des innovations réellement impactantes.
Dennis Lendrem a récemment expliqué comment nous pouvons contrôler nos instincts scientifiques et utiliser des outils pour concevoir des plans d'expériences plus intelligents. Regardez le webinaire à la demande pour en savoir plus.