Die 9 Dimensionen der Datenqualität verstehen

Einblicke & Perspektiven

Die 9 Dimensionen der Datenqualität verstehen

Die Qualität eines Datensatzes wird dadurch bestimmt, inwieweit seine Merkmale einer Reihe vordefinierter Anforderungen entsprechen. Die Messung der Datenqualität besteht daher im Wesentlichen aus dem Vergleichen: dem Vergleich dessen, was vorhanden ist, mit dem, was vorhanden sein sollte.

Im Kapitel „Datenqualitätsmanagement“ der neuesten Ausgabe des DMBOK werden neun Dimensionen vorgestellt, anhand derer die Datenqualität bewertet wird. Diese Dimensionen sind zwar nicht verbindlich, werden jedoch von Fachleuten im Bereich Datenmanagement weithin anerkannt und bieten einen praxisorientierteren Ansatz als die in Normen wie ISO 8000, ISO 25012 oder dem Strong-Wang-Modell vorgeschlagenen. Die folgende Übersicht veranschaulicht, was in den einzelnen Fällen verglichen wird.

1. Gültigkeit

Bei der Validierung wird geprüft, ob die Daten selbst oder daraus abgeleitete spezifische Merkmale vordefinierten Standards entsprechen – beispielsweise dem Datentyp (numerisch, alphanumerisch) oder dem Datenformat (Anzahl der Zeichen, Zeichenpositionen). Diese Standards bilden einen zulässigen Wertebereich.

Datumsformate werden nur in der Form TT/MM/JJJJ oder MM/TT/JJJJ akzeptiert: Es wird geprüft, ob das Format mit dem zulässigen Bereich übereinstimmt.
Eine französische SIRET-Nummer ist gültig, wenn sie im offiziellen SIRENE-Register vorhanden ist: Die Rohdaten werden mit dem Register aller offiziell registrierten Nummern abgeglichen.

2. Vollständigkeit

Die Vollständigkeit gibt an, ob alle erforderlichen Daten vorhanden sind. Gemäß dem DMBOK kann sie auf drei Ebenen bewertet werden:

Spalte/Feld: Sind alle Pflichtfelder ausgefüllt?
Zeile / Datensatz: Sind bei einem bestimmten Datensatz alle Pflichtfelder ausgefüllt?
Tabelle / Datensatz: Sind alle erwarteten Datensätze vorhanden?

Die Vollständigkeit vergleicht also den tatsächlichen Fertigstellungsgrad mit dem erwarteten Fertigstellungsgrad.

3. Konsistenz

Im Gegensatz zu Validität und Vollständigkeit, bei denen Daten mit externen Referenzen abgeglichen werden, ist Konsistenz ein dateninternes Konzept. Es wird dabei geprüft, ob ähnliche Daten einheitlich dargestellt und kodiert sind. Eine Namensspalte, die „John Smith“, „Smith John“ und „Smith“ enthält, würde als inkonsistent angesehen werden. Dasselbe gilt für physikalische Messwerte, die ohne Angabe in unterschiedlichen Einheiten ausgedrückt werden. Beachten Sie, dass dies die Perspektive des DMBOK 2024 widerspiegelt und nicht allgemein anerkannt ist; die Arbeitsgruppe DAMA France / ISACA-AFAI (2022) liefert eine Definition, die näher an dem liegt, was das DMBOK als Integrität bezeichnet.

4. Integrität

Genau wie Konsistenz ist auch Integrität ein datenübergreifendes Konzept. Es dient dazu zu prüfen, ob die Beziehungen zwischen Datenelementen vordefinierten Regeln entsprechen. Das bekannteste Beispiel ist die referenzielle Integrität: Wenn eine Rechnung auf einen Kunden verweist, muss dieser Kunde im Kundenstammdaten-Repository vorhanden sein. Rechnungen, die mit nicht existierenden Kunden verknüpft sind, werden als „verwaiste Datensätze“ bezeichnet. Im Kapitel „Datensicherheit“ definiert das DMBOK Integrität zudem als die Vollständigkeit von Daten sowie deren Schutz vor unbefugter Änderung, Ergänzung oder Löschung.

5. Pünktlichkeit

Pünktlichkeit kann als Verzögerung verstanden werden, die üblicherweise als „D + n“ ausgedrückt wird. Das DMBOK definiert sie als die erwartete Verzögerung zwischen dem Zeitpunkt der Datenerfassung oder -aktualisierung und dem Zeitpunkt, zu dem die Daten den Nutzern oder den verarbeitenden Systemen zur Verfügung stehen sollten. Es ist sinnvoll, zwischen erwarteter und tatsächlicher Pünktlichkeit zu unterscheiden: Eine Pipeline, die darauf ausgelegt ist, Daten am Tag D+1 bereitzustellen, kann aufgrund von Engpässen und übermäßigen Datenmengen tatsächlich erst am Tag D+2 liefern.

6. Währung

Im Gegensatz zur Aktualität, die ereignisgesteuert und dynamisch ist, handelt es sich bei der Aktualität (oder Recency) um ein statisches Konzept. Sie misst die Zeitspanne zwischen dem aktuellen Zeitpunkt und dem Datum der letzten Datenaktualisierung. Eine hohe Aktualität bedeutet nicht zwangsläufig eine hohe Aktualität, und umgekehrt. Ein Lagerbestand, der einmal jährlich am 31. Dezember aktualisiert wird, kann zwar sofort ausgeliefert werden (ausgezeichnete Aktualität), ist aber im November bereits elf Monate alt (mangelnde Aktualität).

7. Angemessenheit

Die letzten drei Dimensionen betreffen Vergleiche zwischen Daten und der realen Welt. Die Plausibilität misst, inwieweit Daten mit Erwartungen übereinstimmen, die auf realem Wissen oder statistischen Mustern beruhen. Ein 19-Jähriger, der eine vierte Klasse besucht, würde wahrscheinlich als unplausibel angesehen werden. Plausibilität ist eng mit Validität verbunden, doch sind Erwartungen flexibler als Standards: Ungültige Daten werden im Allgemeinen verworfen, während unplausible Daten Fragen aufwerfen und zu einer Überarbeitung der Erwartungen selbst führen können.

8. Einzigartigkeit

Die Eindeutigkeit stellt sicher, dass ein reales Objekt innerhalb eines Datensatzes nur einmal vertreten ist, wobei reale Entitäten und nicht lediglich Datenwerte miteinander verglichen werden. Die Erkennung von Duplikaten ist dabei nur ein Aspekt; zur Eindeutigkeit gehören auch die Erkennung von Beinahe-Duplikaten (Datensätze, die die meisten, aber nicht alle Attribute gemeinsam haben) sowie die Überprüfung auf doppelte Primärschlüssel, die ebenfalls ein Integritätsproblem darstellen.

9. Genauigkeit

Die Genauigkeit ist vielleicht die intuitivste Dimension, aber auch eine der kostspieligsten bei der Messung. Sie bewertet, ob Daten ein reales Objekt korrekt abbilden – dabei werden zwei grundlegend verschiedene Dinge verglichen: Daten und Realität. Um die Genauigkeit zu bestätigen, muss oft der ursprüngliche Erfassungsprozess nachgestellt werden (Bestandsaufnahmen sind ein typisches Beispiel). Wenn eine direkte Überprüfung zu kostspielig ist, wird die Genauigkeit häufig aus anderen Dimensionen abgeleitet, insbesondere aus der Übereinstimmung mit vertrauenswürdigen Referenzquellen.

Ein Überblick

Diese neun Dimensionen verdeutlichen die Vielfalt der Faktoren, die bei der Messung der Datenqualität eine Rolle spielen: die Daten selbst, Datenstandards (Typen, Formate), Konsistenzregeln zwischen Datenelementen, Anforderungen an die Vollständigkeit, Erfassungs- und Aktualisierungsdaten, erwartete Datenwerte sowie reale Objekte.

Die T&S Data Quality AI-Lösung ermöglicht es Unternehmen, die Datenqualität in all diesen Bereichen zu bewerten und dabei den Bedarf an Vorabinformationen auf ein Minimum zu reduzieren. Ausgehend ausschließlich von vorhandenen Datensätzen kann sie automatisch erwartete Formate und Datentypen, erwartete Beziehungen zwischen Feldern, Anforderungen an die Feldausfüllung sowie erwartete Werteverteilungen ableiten. Einige Elemente lassen sich nicht allein aus den Daten ableiten – wie Erfassungsdaten, Aktualisierungsdaten oder reale Objekte –, aber wenn sie über externe Quellen (z. B. IoT-Sensoren oder vernetzte Geräte) verfügbar sind, können sie einbezogen werden, um einen umfassenden Überblick über die Datenqualität zu bieten.