Datenqualität als Grundlage für solide Entscheidungen
Bei geschäftlichen Entscheidungen ist die Datenqualität ein entscheidender Faktor, der in den Entscheidungsprozess einfließt. Der unmittelbare Zugriff auf die Daten und die Gewissheit über ihre Qualität können die Unternehmensleistung immens steigern. Die traurige Wahrheit ist jedoch, dass wir in operativen Systemen schlechte Daten sehen, die auf von Menschen verursachte Fehler wie Tippfehler, das Ignorieren von Standards und Duplikate zurückzuführen sind, sowie auf fehlende Eingabevalidatoren in Betriebssystemen, wie z. B. nicht deklarierte Pflichtfelder oder nicht definierte Verweise auf andere Entitäten (Primär-/Fremdschlüssel-Beschränkungen).
In diesem Artikel:
Datenqualität in Data Vault 2.0
Bei Systemen zur Entscheidungsunterstützung erwarten die Geschäftsanwender, dass sie qualitativ hochwertige Daten erhalten. Die Qualität von Daten kann jedoch subjektiv sein. Was für einen Geschäftsnutzer als falsche Daten gelten mag, kann für einen anderen Geschäftsnutzer korrekt und wertvoll sein. Aus diesem Grund würden wir beim Laden eines Data Warehouses alle Daten laden und nichts zurücklassen wollen. Auf jeden Fall sollte das Data Warehouse sowohl "einzelne Versionen von Fakten" als auch "Versionen der Wahrheit" liefern, die in Data Vault 2.0 Im Raw Data Vault und Business Vault. Dazu muss das Core Data Warehouse, d. h. die rohe Data Vault-Schicht, unangetastet bleiben. Die beste Art der Datenbereinigung sollte proaktiv sein und in den betrieblichen Informationssystemen oder operativen Systemen beginnen. Auf diese Weise können wir den kontinuierlichen Fluss schlechter Daten auf einmal vermeiden. Diese Methode wird jedoch häufig abgelehnt, da sie aufgrund von Unternehmensanpassungen oder Fehlern im Quellsystem als kostspielig angesehen wird.
Datenqualität im Business Vault
Die zweite Best Practice ist die Implementierung von Datenqualitätsroutinen durch die Anwendung von soft Business Rules im Data Warehouse. Soft Business Rules werden im Business Vault oder im Ladeprozess der Information Martsangewendet. Alle Datenqualitätsroutinen sollten auch an diesen Stellen implementiert werden. Durch die Implementierung von Datenqualität als soft Business Rule werden die eingehenden Rohdaten in keiner Weise verändert und bleiben innerhalb des Enterprise Data Warehouses für weitere Analysen. Wenn sich die Datenqualitätsregeln ändern oder neue Erkenntnisse über die Daten gewonnen werden, ist es möglich, die Datenqualitätsroutinen anzupassen, ohne dass frühere Rohdaten neu geladen werden müssen. Diese Praxis kann die erste Methode ermöglichen, wenn wir die korrekten Daten von den Information Marts in die operativen Systeme zurückschreiben.
Abbildung 1. Bereinigung von Daten
Zurückschreiben von Qualitätsdaten in das operative System (Quellsystem)
Ein Beispiel für unsere Datenqualitätsroutinen bei Scalefree ist die Qualitätskontrolle der Telefonnummern im CRM-System Salesforce. Telefonnummern erscheinen manchmal in einer unleserlichen oder schwer lesbaren Form oder können von automatisierten Prozessen und anderen betrieblichen Anwendungen nicht verstanden werden. Mit dieser Routine lesen wir also die Daten aus dem Raw Data Vault, ein Cleansing- oder Quality-Job-Skript ordnet diese Zahlen dann in eine lesbare und verständliche Form um. Danach werden die Daten einem Information Mart (oder wie wir es in diesem Fall nennen: Interface Mart) zur Verfügung gestellt, das wiederum dazu verwendet werden kann, diese Daten an das operative Quellsystem selbst zurückzusenden. Hier können Geschäftsanwender diese Daten auch in ihren Geschäftsabläufen verwenden, ohne dass sie nachgelagert werden müssen. Wenn die Rohdaten das nächste Mal in das Raw Data Vault geladen werden, sind die Daten bereits bereinigt.
Fazit
Wenn möglich, sollten Sie Ihre Daten zuerst im Quellsystem korrigieren, um die Genauigkeit an der Quelle zu gewährleisten. Der Raw Vault sollte immer ein unberührtes Abbild der vom Quellsystem gelieferten Daten sein. Die Datenqualitätsroutinen sollten im Business Vault durchgeführt werden, wo die Transformationen und Validierungen stattfinden. Abschließend schreiben Sie die bereinigten und validierten Daten bei Bedarf zurück in das Quellsystem.
- Obaidellah Al-Haddad (Scalefree)