Réflexions et points de vue

Comprendre les 9 dimensions de la qualité des données

La qualité d'un ensemble de données se définit par la mesure dans laquelle ses caractéristiques répondent à un ensemble d'exigences prédéfinies. Mesurer la qualité des données revient donc essentiellement à effectuer des comparaisons : comparer ce qui existe avec ce qui devrait exister.

Dans son chapitre consacré à la gestion de la qualité des données, la dernière édition du DMBOK présente neuf dimensions utilisées pour évaluer la qualité des données. Bien que ces dimensions ne soient pas normatives, elles sont largement reconnues par les professionnels de la gestion des données et offrent une approche plus pratique que celles proposées dans des normes telles que les normes ISO 8000 et ISO 25012 ou le modèle Strong-Wang. Le guide pratique ci-dessous illustre ce qui est comparé dans chaque cas.

1. Validité

La validité consiste à vérifier si les données elles-mêmes, ou certaines caractéristiques qui en découlent, sont conformes à des normes prédéfinies — par exemple, le type de données (numérique, alphabétique) ou le format des données (nombre de caractères, position des caractères). Ces normes constituent un ensemble autorisé de valeurs.

  • Les formats de date ne sont acceptés que sous la forme JJ/MM/AAAA ou MM/JJ/AAAA : la caractéristique évaluée est le format, qui est comparé au domaine autorisé.
  • Un numéro SIRET français est valide s'il figure dans le registre officiel SIRENE : les données brutes sont comparées au registre de tous les numéros officiellement enregistrés.

2. Exhaustivité

L'exhaustivité permet de vérifier si toutes les données requises sont présentes. Selon le DMBOK, elle peut être évaluée à trois niveaux :

  • Colonne / champ : tous les champs obligatoires ont-ils été renseignés ?
  • Ligne / enregistrement : pour un enregistrement donné, tous les champs obligatoires sont-ils remplis ?
  • Table / ensemble de données : tous les enregistrements attendus sont-ils présents ?

Le taux d'achèvement compare donc l'état d'avancement réel à l'état d'avancement prévu.

3. Cohérence

Contrairement à la validité et à l'exhaustivité, qui comparent les données à des références externes, la cohérence est un concept interne aux données. Elle permet de déterminer si des données similaires sont représentées et codées de manière uniforme. Une colonne « Nom » contenant « John Smith », « Smith John » et « Smith » serait considérée comme incohérente. Il en va de même pour les mesures physiques exprimées en différentes unités sans indication. Notez que cela reflète la perspective du DMBOK 2024 et n'est pas universellement partagé ; le groupe de travail DAMA France / ISACA-AFAI (2022) propose une définition plus proche de ce que le DMBOK appelle l'intégrité.

4. Intégrité

Tout comme la cohérence, l'intégrité est un concept inter-données. Elle permet de vérifier si les relations entre les éléments de données respectent des règles prédéfinies. L'exemple le plus courant est celui de l'intégrité référentielle : si une facture fait référence à un client, ce client doit exister dans la base de données des données de base clients. Les factures liées à des clients inexistants sont appelées « enregistrements orphelins ». Dans son chapitre consacré à la sécurité des données, le DMBOK définit également l'intégrité comme le fait que les données soient complètes et protégées contre toute modification, tout ajout ou toute suppression non autorisés.

5. Rapidité

La ponctualité peut être définie comme un délai, généralement exprimé sous la forme « D + n ». Le DMBOK la définit comme le délai prévu entre le moment où les données sont collectées ou mises à jour et celui où elles devraient être mises à la disposition des utilisateurs ou des systèmes consommateurs. Il est utile de distinguer la ponctualité prévue de la ponctualité réelle : un pipeline conçu pour fournir des données à D+1 peut, en raison de goulots d'étranglement et de volumes excessifs, ne les livrer en réalité qu'à D+2.

6. Devise

Contrairement à l'actualité, qui est liée aux événements et dynamique, la fraîcheur (ou récence) est un concept statique. Elle mesure l'écart entre le moment présent et la date de la dernière mise à jour des données. Une grande actualité n'implique pas nécessairement une grande fraîcheur, et inversement. Un inventaire mis à jour une fois par an, le 31 décembre, peut être livré immédiatement (excellente actualité) tout en datant de onze mois en novembre (faible fraîcheur).

7. Caractère raisonnable

Les trois dernières dimensions portent sur la comparaison entre les données et la réalité. Le caractère raisonnable évalue dans quelle mesure les données correspondent aux attentes fondées sur les connaissances du monde réel ou sur des tendances statistiques. Le fait qu’un jeune de 19 ans soit inscrit en CM1 serait probablement considéré comme déraisonnable. Le caractère raisonnable est proche de la validité, mais les attentes sont plus souples que les normes : les données non valides sont généralement rejetées, tandis que les données déraisonnables soulèvent des questions et peuvent conduire à une révision des attentes elles-mêmes.

8. Caractère unique

L'unicité garantit qu'un objet du monde réel n'est représenté qu'une seule fois dans un ensemble de données, en comparant les entités du monde réel plutôt que de simples valeurs de données. La détection des doublons n'en est qu'un aspect ; l'unicité implique également la détection des quasi-doublons (enregistrements partageant la plupart des attributs, mais pas tous) et l'analyse des clés primaires en double, qui constituent également un problème d'intégrité.

9. Précision

L'exactitude est peut-être la dimension la plus intuitive, mais aussi l'une des plus coûteuses à évaluer. Elle permet de déterminer si les données représentent correctement un objet du monde réel, en comparant deux éléments fondamentalement différents : les données et la réalité. Pour confirmer l'exactitude, il faut souvent reproduire le processus de collecte initial (les audits d'inventaire en sont un exemple typique). Lorsque la vérification directe s'avère trop coûteuse, l'exactitude est souvent déduite d'autres dimensions, notamment de la cohérence avec des sources de référence fiables.

Aperçu

Ces neuf dimensions mettent en évidence la diversité des éléments qui entrent en jeu dans l'évaluation de la qualité des données : les données elles-mêmes, les normes relatives aux données (types, formats), les règles de cohérence entre les éléments de données, les exigences en matière d'exhaustivité, les dates de collecte et de mise à jour, les valeurs attendues pour les données, ainsi que les objets du monde réel.

La solution d'IA T&S Data Quality permet aux organisations d'évaluer la qualité des données sur l'ensemble de ces dimensions tout en réduisant au minimum les informations préalables requises. À partir uniquement des ensembles de données existants, elle est capable de déduire automatiquement les formats et types de données attendus, les relations attendues entre les champs, les exigences de remplissage des champs et les distributions de valeurs attendues. Certains éléments ne peuvent pas être déduits à partir des données seules — tels que les dates de collecte, les dates de mise à jour ou les objets du monde réel — mais lorsqu'ils sont disponibles via des sources externes (par exemple, des capteurs IoT ou des appareils connectés), ils peuvent être intégrés pour fournir une vue d'ensemble de la qualité des données.

Partage :

Inscrivez-vous pour recevoir nos actualités

Merci ! Nous avons bien reçu votre demande !
Oups ! Une erreur s'est produite lors de l'envoi du formulaire.
Nous respectons votre vie privée. Vos données sont en sécurité et ne seront jamais vendues à des tiers.