Die europäische Datenschutz-Grundverordnung (DSGVO) verlangt für die rechtskonforme Verarbeitung personenbezogener Daten die Einhaltung verschiedener Grundsätze (Art. 5 DSGVO). Einer dieser Grundsätze ist die Datenrichtigkeit, welche in Art. 5 Abs. 1 Bst. d DSGVO folgendermassen spezifiziert wird: «Personenbezogene Daten müssen sachlich richtig und erforderlichenfalls auf dem neuesten Stand sein; es sind alle angemessenen Massnahmen zu treffen, damit personenbezogene Daten, die im Hinblick auf die Zwecke ihrer Verarbeitung unrichtig sind, unverzüglich gelöscht oder berichtigt werden („Richtigkeit“)». Zudem besteht eine Nachweispflicht darüber, ob angemessene, bewährte Verfahren für die Sicherstellung der Datenqualität der personenbezogenen Daten angewandt werden („Rechenschaftspflicht“).
Eine gute Datenqualität und ein gutes Datenmanagement sind zudem elementar, um vollständigen und einfachen Zugriff auf korrekte, redundanzfreie und relevante personenbezogene Daten zu gewährleisten. Die Sicherstellung der Datenqualität ist somit eine grundlegende Voraussetzung, um personenbezogene Daten DSGVO-konform verarbeiten zu können. Ebenso wichtig ist die Datenqualität aber etwa auch für das «Recht auf Auskunft» nach Art. 15 DSGVO. So kann diesem nur dann in konformer Weise Folge geleistet werden, wenn die Daten der betroffenen Person auf der Basis regelmässiger Datenbereinigungen und Dublettenchecks im Gesamtumfang bekannt und auffindbar sind.
Die nachfolgenden Ausführungen sollen der erleichterten Verständlichkeit der Themen Datenrichtigkeit und Datenqualität dienen, und anhand möglichst praxisnaher Beispiele verdeutlichen, welche Kriterien für die Qualität von Daten existieren und wie diese zur Sicherstellung ebendieser eingesetzt werden können. Weiters wird ein kurzer Überblick zum Thema Datenqualitätsmanagement gegeben und Verweise für weiterführende Literaturempfehlungen zu dieser umfangreichen Thematik angeboten.
-
Definition: Richtigkeit von Daten und Datenqualität
Im Kontext der Datenschutz-Grundverordnung (DSGVO) ist häufig von der «Richtigkeit» personenbezogener Daten die Rede. Die Festlegung, was «richtige» Daten sind, ist ein äusserts komplexes Thema. Die DSGVO führt diesbezüglich folgendes aus: «Personenbezogene Daten müssen sachlich richtig und erforderlichenfalls auf dem neuesten Stand sein». «Sachliche Richtigkeit» liegt grundsätzlich dann vor, wenn die verarbeiteten Daten über die betroffene Person oder Sache mit der Realität übereinstimmen. Dabei kann grundsätzlich zwischen Daten unterschieden werden, welche unabhängig von einem bestimmten Zeitpunkt richtig sind (z.B. das Sterbedatum einer Person), und solchen, welche eine zeitliche Abhängigkeit aufweisen (z.B. der amtierende Fussball-Weltmeister) oder einem dynamischen Referenzpunkt unterworfen sind (z.B. die aktuell gültige Abfahrtszeit eines Zuges).
Das Thema der Datenrichtigkeit wird häufig im Zusammenhang mit dem Begriff «Datenqualität» oder dem in der Literatur oft synonym verwendeten Begriff «Informationsqualität» erwähnt. Informationen bestehen grundsätzlich immer aus zwei Teilen, nämlich den eigentlichen Daten (z.B. der Zahlenwert 1,5) und dem dazugehörigen Kontext (z.B. eine Grössenangabe). Daten, die nicht einem bestimmten Kontext zugeordnet sind, sind für die Anwender bzw. Verarbeiter wertlos, denn erst mittels einer zielgerichteten Nutzung können Informationen von diesen abgeleitet werden. Die Norm ISO/IEC 25012 bietet im Kontext des Datenschutzes und der Informationssicherheit eine gängige Definition und bezeichnet Datenqualität vereinfacht ausgedrückt als den Grad, in dem die Daten die Anforderungen ihres Verwendungszwecks erfüllen. Gemäss ISO/IEC Definition kann eine Bewertung der Qualität von Daten also ausschliesslich unter Einbeziehung des Nutzungskontexts erfolgen. So kann beispielsweise in einem bestimmten Verarbeitungsszenario die Vollständigkeit der Daten (z.B. bei der Entgegennahme eines telefonischen Notrufs) wichtiger sein als deren Genauigkeit (z.B. bei der Zeitmessung im Ski Alpin), oder umgekehrt.
Um die Eignung von Daten unter Einbeziehung des jeweiligen Nutzungskontext zu beurteilen, führt die ISO/IEC Norm eine Liste von Qualitätskriterien ein, deren Gewichtung in Bezug auf die Gesamtbewertung der Datenqualität je Verwendungszweck individuell festzulegen ist. Neben der bereits erwähnten Richtigkeit (Korrektheit) von Daten definiert die Norm folgende zusätzliche Kriterien für die Datenqualität:
- Vollständigkeit,
- Eindeutigkeit,
- Aktualität,
- Genauigkeit,
- Konsistenz,
- Redundanzfreiheit,
- Relevanz,
- Einheitlichkeit,
- Zuverlässigkeit und
- Verständlichkeit.
Hinweis: Eine gute Datenqualität ist kein «Zustand», der zu einem gewissen Zeitpunkt erreicht wird und von da an als gegeben gilt. Vielmehr bedarf die Erreichung und die fortlaufende Sicherstellung einer guten Datenqualität eines kontinuierlichen Qualitätssicherungsprozesses. Als Faustregel gilt, dass mit fortschreitender Zeit nach ihrer Erfassung das Vertrauen auf Richtigkeit von Daten wie etwa einer Anschrift sinkt. Bei einem wachsenden Datenbestand können neben der Datenrichtigkeit aber auch andere Kriterien wie zum Beispiel die Aktualität, die Vollständigkeit oder die Konsistenz der Daten einer fortschreitenden Qualitätsminderung unterliegen. Daher ist es wichtig, dass im Zuge eines Datenqualitätsmanagementprozesses Massnamen zur Betrachtung, Steuerung und Qualitätssicherung in alle Phasen entlang des Lebenszyklus von Daten – von der Erfassung bis zur Archivierung oder Löschung – vorgesehen werden. Einen Kurzüberblick zu Datenqualitätsmanagement sowie einen Ausblick auf weiterführende Literatur zu diesem umfangreichen Thema bietet das entsprechende Unterkapitel. -
Datenqualitätskriterien gemäss ISO 25012
- Korrektheit: Die Daten müssen mit der Realität übereinstimmen.
Negativbeispiel: Die Korrektheit eines Datensatzes in einer Geburten-Datenbank ist dann nicht gegeben, wenn bei einem Neugeborenen das Körpergewicht entgegen der tatsächlichen Körpermasse (bspw. 3300 Gramm) aufgrund eines Messfehlers bei der Waage mit 3500 Gramm hinterlegt wird. - Vollständigkeit: Ein Datensatz muss alle für die Verwendungszwecke erforderlichen Attribute enthalten.
Negativbeispiel: In der Datenbank einer Notrufzentrale nimmt die Vollständigkeit ab, wenn in einigen Datensätzen zu den protokollierten Notrufen keine Angaben zur Identität der anrufenden Person hinterlegt werden. - Eindeutigkeit: Jeder Datensatz muss eindeutig interpretierbar sein.
Negativbeispiel: Die Eindeutigkeit zweier Datensätze in einer Personendatenbank ist nicht gegeben, wenn diese identische Werte für alle Attribute (z.B. Vorname, Nachname, Geburtstag) aufweisen und sich somit in keinem Attribut voneinander unterscheiden. - Aktualität: Die Daten bilden den im Verwendungskontext relevanten, tatsächlichen Zustand der beschriebenen Realität ab.
Negativbeispiel: In einer Unternehmensdatenbank werden die Mitarbeiterdaten bei manchen Angestellten nach einem internen Wechsel nicht aktualisiert, weshalb die betroffenen Datensätze in mehreren Punkten (bspw. Jobrolle, Gehaltsangabe) nicht mehr die Realität wiederspiegeln. - Genauigkeit: Die Daten müssen die Realität in der erforderlichen Genauigkeit abbilden.
Negativbeispiel: Im Rahmen einer statistischen Auswertung der Körpergrösse von Personen werden einige Messwerte entgegen der vereinbarten Genauigkeit von zwei Nachkommastellen auf- oder abgerundet (z.B. 1,8 m), wodurch das Gesamtergebnis eine gewisse Ungenauigkeit aufweist. - Konsistenz: Ein Datensatz darf in sich und zu anderen Datensätzen keinen Widerspruch aufweisen.
Negativbeispiele:
- In einer Unternehmensdatenbank wird neben dem Geburtsdatum auch das Alter eines jeden Angestellten gespeichert, wobei einige Datensätze einen Widerspruch in Bezug auf diese beiden Attribute aufweisen (z.B. geboren am 01.01.2000 und 15 Jahre alt).
- In einer Schuldatenbank ist der Datensatz ein und desselben Schülers bzw. ein und derselben Schülerin mit mehreren Klassen verknüpft, obwohl ein Schüler bzw. eine Schülerin in der Realität zu einem bestimmten Zeitpunkt immer nur einer einzigen Schulklasse angehören kann.
- Redundanzfreiheit: Dieselben Datensätze dürfen niemals doppelt in einer Datenbank vorkommen.
Negativbeispiel: Im Zuge der Zusammenlegung zweier Arztpraxen kommt es zur Zusammenführung redundant vorgehaltener Patientendaten, wobei aufgrund eines Fehlers einige Patientendatensätze in der vereinheitlichten Datenbank doppelt und somit redundant vorkommen. - Relevanz: Die Datensätze müssen den erforderlichen Informationsbedarf erfüllen.
Negativbeispiel: Bei der Berechnung des durchschnittlichen Bruttogehalts von Angestellten in der Marketingabteilung eines Unternehmens werden fälschlicherweise auch nicht relevante Bruttogehälter von Angestellten aus einer anderen Abteilung miteinbezogen, weshalb das Gesamtergebnis verfälscht wird. - Einheitlichkeit: Die Daten entsprechen einer definierten Struktur. Sie folgen einer Syntax, die auf Regeln aufbaut, und sind dadurch vergleichbar.
Negativbeispiel: In einer Schuldatenbank werden die Anschriften von Lehrpersonen erfasst, wobei bei einigen in Mäls wohnhaften Lehrern und Lehrerinnen der Ortsname, entgegen der Vereinbarung zur Verwendung der geltenden Rechtschreibregeln, in unterschiedlichen Schreibweisen (z.B. Mäls, Maels, MÄLS) hinterlegt wird. - Zuverlässigkeit: Die Daten sind aufgrund einer nachvollziehbaren Herkunft und/oder Entstehung valide und vertrauenswürdig.
Negativbeispiel: Im Zuge der Planung eines Schulausfluges werden die privaten Telefonnummern der Lehrpersonen erfasst. Mangels Anwesenheit einiger Lehrpersonen stammen manche Telefonnummern nicht aus erster Hand, sondern wurden öffentlichen und unzuverlässigen Datenquellen (z.B. Online-Telefonbücher) entnommen. - Verständlichkeit: Die Daten sind für die Anwender/Verarbeiter unmittelbar verständlich und für die Verwendungszwecke einsetzbar.
Negativbeispiel: Bei einer Umfrage werden die Essgewohnheiten zufällig ausgewählter Personen erfasst, wobei bei Vegetariern der Wert «V» und bei Nichtvegetariern der Wert «NV» gespeichert wird. Mangels Dokumentation der Bedeutung der verwendeten Kürzel «V» und «NV» ist im Nachgang der Umfrage nicht mehr klar verständlich, wofür der Wert «V» (könnte bspw. für vegetarisch oder vegan stehen) oder der Wert «NV» (könnte bspw. für no value stehen) angedacht war. -
Datenqualitätsmanagement
Von Datenqualitätsmanagement ist dann die Rede, wenn die Verbesserung der Datenqualität nicht ausschliesslich das Ergebnis sporadischer Massnahmen (bspw. die reaktive Bereinigung von Datenfehlern bei der Datenverwendung) darstellt, sondern als Resultat festgelegter Verantwortlichkeiten und Vorgehensweisen hervorgeht. Entgegen einer reaktiven Vorgehensweise zur Verbesserung der Datenqualität empfiehlt es sich in einem Umfeld wie der DSGVO, in dem der Qualität bzw. Richtigkeit der Daten eine enorme Bedeutung zukommt, ein proaktives Vorgehensmodell zur Qualitätssicherung zu wählen und umzusetzen. Eine proaktive Vorgehensweise äussert sich weniger in der situativen Bereinigung von Datenfehlern zum Zeitpunkt der Datenverwendung oder der Fehlererkennung, sondern vielmehr in der Etablierung von Prozessen, Kontrollen und Massnahmen zur Aufdeckung und Behebung der Fehlerquellen selbst sowie in der darauffolgenden kontinuierlichen Überwachung der Datenqualität. Weiterführende Informationen zum Thema Datenqualitätsmanagement bietet etwa die ISO 8000 ff. Normenreihe, welche als internationaler Standard für Datenqualität und Unternehmensstammdaten anerkannt ist.