Hybride Architektur in Data Vault 2.0
Geschäftsanwender erwarten von ihren data warehouse-Systemen, dass sie immer mehr Daten laden und aufbereiten, was die Vielfalt, das Volumen und die Geschwindigkeit der Daten betrifft. Auch die Arbeitsbelastung typischer data warehouse-Umgebungen nimmt immer mehr zu, insbesondere wenn die ursprüngliche Version des Warehouse bei den ersten Anwendern ein Erfolg geworden ist. Skalierbarkeit hat also mehrere Dimensionen. Letzten Monat sprachen wir über Satellitesdie eine wichtige Rolle bei der Skalierbarkeit spielen. Nun wird erläutert, wie strukturierte und unstrukturierte Daten mit einer hybriden Architektur kombiniert werden können.
In diesem Artikel:
Logische Data Vault 2.0-Architektur
Auch die Data Vault 2.0 Architektur basiert auf drei Ebenen: dem Staging-Bereich, in dem die Rohdaten aus den Quellsystemen gesammelt werden, dem Enterprise Data Warehouse Schicht, modelliert als Modell Data Vault 2.0und die Informationsübermittlungsschicht mit Informationskataloge wie Sternschemata und andere Strukturen. Die Architektur unterstützt sowohl das Batch-Laden von Quellsystemen als auch das Laden in Echtzeit aus dem Enterprise Service Bus (ESB) oder einer anderen serviceorientierten Architektur (SOA).
Das folgende Diagramm zeigt die grundlegendste logische Data Vault 2.0 Architektur:
In diesem Fall werden die strukturierten Daten aus den Quellsystemen zunächst in den Staging-Bereich geladen, um die Betriebs-/Leistungsbelastung durch die operativen Quellsysteme zu verringern. Anschließend werden sie unverändert in das Raw Data Vault geladen, das die Enterprise Data Warehouse-Schicht darstellt. Nachdem die Daten in dieses Data Vault-Modell (mit Hubs, Links und Satelliten) geladen wurden, werden die Geschäftsregeln im Business Vault auf die Daten im Raw Data Vault angewendet. Sobald die Geschäftslogik angewendet wurde, werden sowohl das Raw Data Vault als auch das Business Vault zusammengeführt und in das Geschäftsmodell für die Informationsbereitstellung in den information marts umstrukturiert. Der Geschäftsanwender verwendet Dashboard-Anwendungen (oder Berichtsanwendungen) für den Zugriff auf die Informationen in den information marts.
Die Architektur ermöglicht die Implementierung der Geschäftsregeln im Business Vault mit einer Mischung aus verschiedenen Technologien, wie z. B. SQL-basierter Virtualisierung (in der Regel mit SQL-Ansichten) und externen Tools, wie z. B. Business Rule Management Systems (BRMS).
Es ist jedoch auch möglich, unstrukturierte NoSQL-Datenbanksysteme über eine hybride Architektur zu integrieren. Aufgrund der Plattformunabhängigkeit von Data Vault 2.0 kann NoSQL für jede data warehouse-Schicht verwendet werden, einschließlich des Bühnenbereichs, der enterprise data warehouse layer und der Informationsbereitstellung. Daher könnte die NoSQL-Datenbank als Staging Area verwendet werden und Daten in die relationale Data Vault-Schicht laden. Sie könnte aber auch in beide Richtungen mit der Data Vault-Schicht über eine gehashter Business Key. In diesem Fall würde es sich um eine Lösung mit hybrider Architektur handeln und die information marts würden Daten aus beiden Umgebungen nutzen.
Hybride Architektur
Die Norm Data Vault 2.0 Architektur in Abbildung 1 konzentriert sich auf strukturierte Daten. Da es sich bei immer mehr Unternehmensdaten um halbstrukturierte oder unstrukturierte Daten handelt, ist die empfohlene Best Practice für ein neues Unternehmen data warehouse die Verwendung einer hybriden Architektur auf der Grundlage eines Hadoop-Clusters, wie in der nächsten Abbildung dargestellt:
Bei dieser hybriden Architekturänderung wird der relationale Staging-Bereich durch einen HDFS-basierten Staging-Bereich ersetzt, der alle unstrukturierten und strukturierten Daten erfasst. Während die Erfassung strukturierter Daten im HDFS auf den ersten Blick als Overhead erscheint, reduziert diese Strategie tatsächlich die Belastung des Quellsystems, indem sie sicherstellt, dass die Quelldaten immer extrahiert werden, unabhängig von strukturellen Änderungen. Die Daten werden dann mit Apache Drill, Hive External oder ähnlichen Technologien extrahiert.
Es ist auch möglich, das Raw Data Vault und den Business Vault (die strukturierten Daten im Data Vault-Modell) auf Bienenstock Intern.
Fazit
Durch die Integration einer hybriden Architektur in Data Vault 2.0 können Unternehmen sowohl strukturierte als auch unstrukturierte Daten effektiv verwalten, indem sie Plattformen wie Hadoop nutzen. Dieser Ansatz verbessert die Skalierbarkeit und Flexibilität und ermöglicht eine effiziente Datenverarbeitung und -speicherung. Durch das Ersetzen traditioneller relationaler Staging-Bereiche durch HDFS-basierte Systeme können Unternehmen die Belastung der Quellsysteme reduzieren und eine nahtlose Datenextraktion sicherstellen.