Les outils de la qualité des données
Une donnée est de bonne qualité lorsqu’elle répond aux attentes et aux besoins des consommateurs, la qualité de la donnée dépend donc du contexte d’utilisation et des besoins des utilisateurs. La gestion de la qualité des données est un programme, pas un projet. Les actions doivent s’inscrire dans la durée et selon une stratégie d’amélioration continue. Les actions d’amélioration de la qualité des données doivent être réalisées à travers le cycle de vie de la donnée grâce aux outils ci-dessous :
Le contrôle de la qualité des données grâce aux dimensions/ reporting qualité
Les dimensions de la qualité sont des éléments mesurables de la qualité des données. Ces mesures sont calculées à partir de caractéristiques/questions importantes pour le métier. Par exemple :
La complétude : Le jeu de données/tables/colonnes contient-il des valeurs nulles ou erronées ? Indicateur : Taux de données non nulles.
La cohérence : Peut-on lier les données entre deux sources ? Les données sont-elles cohérentes/ identiques entre deux sources (CRM/facturation) ? Les données sont-elles cohérentes dans un jeu de données ? Indicateur : Taux de données équivalents entre deux sources.
La validité : Les données sont-elles validées et cohérentes (format, domaine de valeur, définition) ? Respectent-elles un comportement « Normal » attendu ? Indicateur : Taux de données conformes à une formule.
La fraîcheur : Les données sont-elles à jour ? Indicateur : Taux de données mises à jour à j+2.
L’unicité : Les enregistrements sont-ils identifiables de manière unique ? Indicateur : Taux de valeurs uniques.
La résolution des problématiques de données
La résolution des problématiques de données consiste à recenser les problèmes de données, effectuer une priorisation des cas à traiter, analyser les causes racines et les impacts avec les experts métiers/SI, proposer, piloter et suivre le plan de remédiation. Les acteurs identifient des opportunités d’amélioration de la qualité des données par l’optimisation des processus et des outils.
Le profiling et l’analyse des données
Le profiling est une forme d’analyse de données utilisée pour inspecter la donnée et ses qualités intrinsèques. Le profiling utilise les techniques statistiques pour découvrir la structure, le contenu et la qualité des données.
Le traitement de la qualité des données
Les actions liées aux traitements de la qualité des données sont : le nettoyage, le formatage, le filtrage, la conversion, la transformation, la consolidation, l’enrichissement…
Découvrez sur le site web ASI notre fiche référence client : Mise en place et pilotage du dispositif de Qualité des Données chez KLESIA.
Philippe, Consultant Big DataPublié le 04/06/2018

Que prendre en compte pour la construction d’un Data Lake ?
Quelles sont les caractéristiques d'un Data Lake ? Christophe vous explique les fondamentaux pour démarrer votre projet.

Comment se délester des tâches répétitives et systématiques grâce au Robotic Process Automation ?
Couplez RPA et IA pour automatiser des processus entiers et gagner du temps !

Devenir data-driven, une affaire de culture
Pourquoi et comment lancer son programme d'acculturation à la data ?

Comment passer d'un Data Lab à une Data Factory ?
Les projets data, c’est comme les bébés tortues. Il en éclot un grand nombre mais peu arrivent à maturité !