présenté par Thomas Zelikman et Don McCormack
Le cycle de vie des données est un processus à plusieurs étapes, dont les premières sont l'acquisition et le stockage des données, et la dernière leur destruction. Mais aujourd'hui, les jeux de données toujours plus volumineux peuvent donner lieu à des workflows désordonnées ou particulièrement complexes. Aussi, afin de repérer plus rapidement des informations pertinentes dans la masse, les analystes ont besoin de workflows améliorés et de la bonne combinaison d'outils analytiques pour rationaliser le processus.
La souplesse, l'intégration, la standardisation et la simplification des méthodes statistiques dans le cycle de vie des données profitent à l'utilisateur final, car elles optimisent le travail au sein du système de gestion des données et rendent le processus analytique plus aisé et plus reproductible. Dans cette vidéo, vous apprendrez à :
- utiliser la visualisation des données pour rendre le nettoyage de celles-ci plus intuitif ;
- associer un logiciel bureautique d'analyse à des outils Open Source comme Python et R pour créer une interface hautement fonctionnelle ;
- exploiter des scripts personnalisés pour enregistrer et réexécuter des analyses graphiques ;
- compiler des scripts enregistrés sous forme de modules de type pointer-cliquer à déployer comme des routines analytiques sur mesure auprès des utilisateurs débutants.
Présenté en anglais