Zum Hauptinhalt springen
Suche
0
Scalefree - Blog - Data Warehouse - Datenqualität sicherstellen in Ihrem Data Warehouse

Sicherstellung der Datenqualität

Eine schlechte Datenqualität kann zu ungenauen Erkenntnissen, einem fehlerhaften Entscheidungsfindungsprozess und beeinträchtigtem Geschäftserfolg führen. Im Zeitalter von Big Data verlassen sich Unternehmen in hohem Maße auf Data Warehouses zur Speicherung, Verwaltung und Analyse großer Datenmengen. Die Effektivität eines Data Warehouses hängt jedoch von der Qualität der darin enthaltenen Daten ab. Wie kann eine hohe Datenqualität gewährleistet werden?

In diesem Blog-Artikel gehen wir auf die Bedeutung der Datenqualität in einem Enterprise Data Warehouses ein und bieten praktische Strategien zur Gewährleistung genauer, zuverlässiger und hochwertiger Daten mit Data Vault 2.0.

Vielleicht möchten Sie sich auch die Aufzeichnung des Webinars zu genau diesem Thema ansehen. Sehen Sie es sich hier kostenlos an!

Datenqualität sicherstellen in Ihrem Data Warehouse

In der heutigen datengetriebenen Kultur verlassen sich Unternehmen stark auf ihre Data Warehouses, um fundierte Entscheidungen zu treffen. Die Wirksamkeit eines Data Warehouses hängt jedoch von der Qualität der darin enthaltenen Daten ab. In dieser Präsentation wird die Bedeutung der Datenqualität erläutert und es werden praktische Strategien vorgestellt, um mit Data Vault 2.0 genaue, zuverlässige und hochwertige Daten zu gewährleisten.

Webinar-Aufzeichnung ansehen

Was sind die Gründe für schlechte Daten?

Die Datenqualität bezieht sich auf die Genauigkeit, Vollständigkeit, Konsistenz und Zuverlässigkeit der Daten. Im Kontext eines Data Warehouses ist die Aufrechterhaltung einer hohen Datenqualität entscheidend, um aussagekräftige Erkenntnisse zu gewinnen und fundierte Entscheidungen zu treffen. Mehrere Faktoren tragen zum Vorhandensein schlechter oder fehlerhafter Daten bei. Das Erkennen und Verstehen dieser Gründe ist für die Umsetzung wirksamer Strategien für das Datenqualitätsmanagement unerlässlich. Hier sind einige häufige Gründe für schlechte Daten in einem Data Warehouse:

  • Unvollständige oder fehlende Quelldaten
  • Fehlende Standardisierungen
  • Probleme bei der Datentransformation
  • Schlechte Daten-Governance
  • Unzureichende Validierung und Qualitätskontrollen
  • Mangelnde Schulung und Sensibilisierung der Nutzer

Techniken für Datenqualität

Es gibt eine Vielzahl von Datenqualitätstechniken, und es gibt keine einzige beste Option für alle Probleme. Die Schwierigkeit besteht darin, die aktuelle Situation zu verstehen und die Stärken und Schwächen der verfügbaren Techniken zu erkennen. In der Tat ist die Wirksamkeit der Techniken je nach Kontext unterschiedlich. Eine bestimmte Technik eignet sich in manchen Situationen gut, in anderen weniger gut. Scott Ambler entwickelte fünf Vergleichsfaktoren, die für die Beurteilung der Wirksamkeit einer Datenqualitätstechnik geeignet sind. Diese Faktoren, die unten aufgeführt sind, sollen Ihnen helfen, die richtige DQ-Technik für die jeweilige Situation auszuwählen:

Grafischer Vergleich der Datenqualitätstechniken für ein Data Warehouse

Quelle: https://agiledata.org/essays/dataqualitytechniquecomparison.html

  • Rechtzeitigkeit: Reagieren Sie auf ein entdecktes DQ-Problem oder wenden Sie es an, um DQ-Probleme proaktiv zu vermeiden oder zu reduzieren?
  • Automatisierungsgrad: Inwieweit ist eine Automatisierung möglich? Eine kontinuierliche Technik würde bei Bedarf automatisch aufgerufen werden.
  • Auswirkungen auf die Quelle: Hat die Technik irgendwelche Auswirkungen auf die eigentliche Datenquelle?
  • Nutzenrealisierung: Wird der Nutzen der Qualitätsverbesserung sofort eintreten oder ist ein langfristiger Nutzen zu erwarten?
  • Erforderliche Kenntnisse: Erfordert die Technik anspruchsvolle Fähigkeiten, die möglicherweise durch Ausbildung/Erfahrung erworben werden müssen, oder ist die Technik leicht zu erlernen?

Der Vorteil des Data Vault 2.0-Ansatzes

Wenn fehlerhafte Daten entdeckt werden, muss als Erstes eine Ursachenanalyse durchgeführt werden. Was ist, wenn die fehlerhaften Daten aus der Quelle stammen? Der beste Ansatz wäre, die Fehler direkt im Quellsystem zu beheben. Diese Methode wird jedoch häufig abgelehnt, da sie als kostspielig angesehen wird. Da die Quellen außerhalb der Reichweite eines Data Warehousing-Teams liegen, müssen wir einen Weg finden, die schlechten Daten irgendwo in unserer Architektur zu bereinigen. In Data Vault 2.0 betrachten wir eine Datenbereinigungsroutine als eine Geschäftsregel (Soft Rule), wobei diese Regeln im Business Vault angewendet werden.

In der gezeigten Architektur (Abbildung 1) gibt es eine in den Business Vault integrierte Qualitätsschicht, in der die Datenbereinigungsroutinen durchgeführt werden. Ziel ist es, die bereinigten Daten in hohem Maße für nachgelagerte Business Vault- und Information Mart-Objekte wiederverwendbar zu machen. Wenn sich die Datenqualitätsregeln ändern oder neue Erkenntnisse über die Daten gewonnen werden, ist es möglich, die Regeln anzupassen, ohne dass frühere Rohdaten neu geladen werden müssen.

Jetzt sind die Daten bereit für die Verwendung in einem beliebigen Dashboarding- oder Reporting-Tool. Es ist auch möglich, die bereinigten Daten zurück in die Quelle zu schreiben. Zu diesem Zweck werden die Daten über einen Interface Mart an das Quellsystem selbst zurückgesendet. Auf diese Weise können die Geschäftsanwender die hochwertigen Daten auch in ihren Quellanwendungen nutzen. Wenn die Rohdaten das nächste Mal in den Raw Data Vault geladen werden, sind die Daten bereits bereinigt.

Datenqualität in einem Data Warehouse

Der zweite in Abbildung 1 beschriebene Anwendungsfall ist die Überwachung schlechter Daten durch einen sogenannten Quality Mart. Der Quality Mart ist Teil der Informationsbereitstellungsschicht und selektiert alle schlechten Daten anstelle der bereinigten Daten. Auf dieser Grundlage können Berichte oder grafische Benutzeroberflächen für den Datenverwalter erstellt werden. Darüber hinaus kann der Datenverwalter Kommentare zu bestimmten Datensätzen hinterlassen, die nicht als schlechte Daten betrachtet werden sollten oder Ausnahmen von den Regeln darstellen. Diese Benutzeroberfläche speichert alle hinzugefügten Daten (Kommentare, Markierungen usw.) in einer Datenbank, die wiederum als Quelle für das Data Vault dient. Diese Daten können verwendet werden, um die Geschäftsregeln zu erweitern. Insbesondere, um die Ausnahmen von den Datenbereinigungsregeln herauszufiltern.

Ein weiterer Vorteil von Data Vault 2.0 sind die hohen musterbasierten und standardisierten Einheiten. Dies ermöglicht eine einfache und automatisierte Entwicklung von technischen Tests. Einmal für jede Data Vault-Entität erstellt, können diese Tests sowohl auf die Raw Data Vault-Entitäten als auch auf die Business Vault-Entitäten angewendet werden. Dies gewährleistet ein konsistentes und prüfbares Data Warehouse. Sehen Sie sich diesen Blog-Artikel an, wenn Sie ausführlichere Informationen über technische Prüfungen in Data Vault benötigen.

Gängige Datenqualitätstechniken

Im letzten Abschnitt haben wir bereits einige Techniken beschrieben, die eine hohe Datenqualität in einer Data Vault 2.0-Architektur gewährleisten. Natürlich gibt es eine Reihe anderer Techniken, die unabhängig davon sind, welcher Modellierungsansatz verwendet wird. Darüber hinaus gibt es Techniken, die sich nicht in erster Linie auf die Datenqualität konzentrieren, aber dennoch einen positiven Einfluss darauf haben. Im Folgenden wollen wir uns einige von ihnen genauer ansehen:

  • Validierung von Geschäftsregeln: An dieser Stelle müssen wir zwischen Datenqualität und Informationsqualität unterscheiden. Die Datenqualität konzentriert sich auf die intrinsischen Merkmale der Daten und befasst sich mit Problemen wie Fehlern, Inkonsistenzen und Vollständigkeit auf granularer Ebene. Informationsqualität ist ein breiteres Konzept, das nicht nur die Qualität einzelner Datenelemente, sondern auch den Gesamtwert und den Nutzen der aus diesen Daten abgeleiteten Informationen umfasst. Was für den einen Geschäftsfall eine nützliche Information ist, kann für einen anderen nicht ausreichend sein. Aus diesem Grund müssen die Geschäftsanwender stark in diesen Prozess einbezogen werden, zum Beispiel durch Benutzerakzeptanztests.

  • Data Governance beinhaltet die Festlegung von Rollen, Zuständigkeiten und Verantwortlichkeiten für die Datenqualität und stellt sicher, dass Daten als wertvolles Unternehmensgut behandelt werden. Entwicklung und Durchsetzung von Data Governance-Frameworks, einschließlich Datenqualitätsstandards, Verantwortlichkeiten für die Verwaltung und Dokumentation.

  • Daten-Leitfaden und -Standardisierung gewährleistet die Einheitlichkeit von Formaten, Einheiten und Werten im gesamten Data Warehouse und verringert so das Risiko von Fehlern aufgrund von Abweichungen in der Darstellung der Daten. Legen sie standardisierte Namenskonventionen, Maßeinheiten, Formatierungsregeln und Datensicherheits-/Privatschutzkonventionen fest und setzen sie diese durch. Darüber hinaus ist Data Vault 2.0 in dieser Hinsicht sehr hilfreich, da alle Entitäten stark standardisiert und automatisierbar sind.

  • Datenverwalter: Als Teil der Data-Governance-Praxis ist ein Datenverwalter eine Aufsichts-/Governance-Rolle innerhalb einer Organisation und dafür verantwortlich, die Qualität und Zweckmäßigkeit der Daten der Organisation sicherzustellen.

  • Kontinuierliche Integration (CI) ist eine Entwicklungspraxis, bei der die Entwickler ihre Arbeit häufig integrieren. Erfolgreiche Tests sollten eine obligatorische Bedingung für die Einführung jeder neuen Änderung an Ihrer EDW-Code-Basis sein. Dies lässt sich durch den Einsatz von DevOp-Tools und die kontinuierliche Integration in Ihrem Entwicklungszyklus erreichen. Die Durchführung automatisierter Tests bei jeder Überprüfung oder Zusammenführung von Code stellt sicher, dass Probleme mit der Datenkonsistenz oder Fehler frühzeitig erkannt und behoben werden, bevor sie in die Produktionsumgebung einfließen.

  • Ein Review ist ein Peer-Review der Implementierung (Quellcode, Datenmodelle usw.). Die Entwicklung eines soliden Review-Prozesses bildet die Grundlage für eine kontinuierliche Verbesserung und sollte Teil des Workflows eines Entwicklungsteams werden, um die Qualität zu verbessern und sicherzustellen, dass jeder Teil des Codes von einem anderen Teammitglied geprüft wurde.

  • Anwender schulen und sensibilisieren: Klären Sie Benutzer über die Bedeutung der Datenqualität auf und stellen Sie Schulungen zu den erforderlichen Themen und Fähigkeiten bereit. Fördern Sie einer Kultur des Datenqualitätsbewusstseins innerhalb der Organisation, um die proaktive Identifizierung und Lösung von Datenqualitätsproblemen zu ermutigen.

Fazit

Es steht außer Frage, dass eine hohe Datenqualität für ein erfolgreiches Data Warehousing-Projekt unerlässlich ist. Der Prozess hin zu einer hohen Datenqualität ist keine einmalige Anstrengung, sondern eine ständige Verpflichtung. Es handelt sich um einen vielschichtigen Prozess, der eine Kombination von Techniken, teamübergreifende Zusammenarbeit und die Förderung einer Kultur der Datenverantwortung umfasst.

In diesem Artikel haben wir uns mit den Ursachen für schlechte Daten befasst und verschiedene Techniken zur Bewältigung dieser Probleme erörtert. Genauer haben wir beschrieben, wie Datenqualitätstechniken in einer Data Vault 2.0-Architektur implementiert werden können.

Wenn Sie tiefer in das Thema Datenqualität eintauchen möchten, sollten Sie sich die kostenlosen Webinar-Aufzeichnung ansehen.

- Julian Brunner (Scalefree)

Das Data Vault Handbuch

Gestalten Sie Ihren Weg zu einer skalierbaren und resilienten Datenplattform

Das Data Vault Handbook ist eine leicht verständliche Einführung in Data Vault. Es richtet sich an Datenexperten und bietet einen klaren, zusammenhängenden Überblick über die Grundprinzipien von Data Vault.

Jetzt das Buch lesen

Eine Antwort hinterlassen

Menü schließen