Was ist Data Vault 2
Data Vault 2 ist ein Business-Intelligence-System, das die Komponenten umfasst, die zur Verwirklichung Ihrer Unternehmensvision für die Datenintegration und Informationsbereitstellung erforderlich sind. Als hybride Architektur vereint es die besten Aspekte der dritten Normalform und eines Star-Schemas und führt so zu einer historisierten, detailorientierten und eindeutig verknüpften Sammlung normalisierter Tabellen.
Entscheidend ist, dass dieses robuste Fundament Ihre Infrastruktur in eine KI-fähige Datenplattform verwandelt. Indem sichergestellt wird, dass fortgeschrittene Analysen und Machine-Learning-Modelle mit hochzuverlässigen, vollständig auditierbaren Daten versorgt werden, überträgt Data Vault 2 die ursprünglichen Modellierungskonzepte in eine moderne Umgebung und ermöglicht so herausragende Skalierbarkeit, Flexibilität und Konsistenz. Es handelt sich um einen offenen Standard, der auf drei wesentlichen Säulen beruht: Architektur, Modellierung und Methodik.

Allgemeine Definitionen
Bevor wir uns damit befassen, wie Data Vault 2 funktioniert, ist es hilfreich, einige grundlegende Konzepte zu verstehen, die für das Framework wesentlich sind. Für eine vollständige, geführte Einführung ist unser Udemy-Kurs „Data Vault: An Introduction by Michael Olschimke“ ein hervorragender Ausgangspunkt.
Business Keys
Dabei handelt es sich um eindeutige Bezeichner relevanter Geschäftsobjekte (wie etwa eines Kunden, eines Produkts oder einer Bestellung). Sie schaffen eine gemeinsame Sprache in Ihrem gesamten Unternehmen und ermöglichen es unterschiedlichen Systemen, sich nahtlos zu integrieren. Ein guter Business Key weist eine geringe Veränderungsneigung auf und ist allgemein anerkannt.
Rules
Data Vault trennt Regeln strikt in zwei Typen. Hard Rules sind technische Anpassungen, die Daten für die Plattform aufbereiten, ohne ihre grundlegende Bedeutung zu verändern. Soft Rules (oder Geschäftsregeln) transformieren die Daten, um den Anforderungen der Endbenutzer und der Geschäftslogik gerecht zu werden.
1. Data-Vault-Architektur
Die Data-Vault-2-Architektur basiert auf einer hochgradig skalierbaren dreischichtigen Struktur. Dieser Ansatz trennt die Komplexität der Datenintegration und der Historisierung von der Bereitstellung handlungsrelevanter Erkenntnisse für die Endbenutzer.

Staging Area
Die erste Schicht, in der rohe, unveränderte Daten aus verschiedenen Quellsystemen gesammelt werden. Ihr Hauptzweck besteht darin, die operativen Systeme zu entlasten und die Daten ausschließlich mithilfe von Hard Rules für das Warehouse vorzubereiten.
Integration Layer
Dies ist der Kern der Plattform, der darauf ausgelegt ist, einen einheitlichen Bezugspunkt für Fakten zu schaffen. Er ist in zwei Teile gegliedert:
- Raw Data Vault: Speichert Daten in ihrem ursprünglichen, unveränderten Format und gewährleistet so einen vollständigen historischen Kontext sowie eine strikte Auditierbarkeit.
- Business Vault: Eine Zwischenschicht, in der Soft Rules und Berechnungen angewendet werden, um die Lücke zwischen Rohdaten und den Anforderungen der Endbenutzer zu schließen.
Information Delivery
Die benutzerseitige Schicht, die Daten in zugängliche Formate wie Star-Schemas oder flache Tabellen transformiert. Sie liefert Daten über spezialisierte Marts, die auf konkrete Bedürfnisse zugeschnitten sind, zum Beispiel:
- Information Mart: Konzentriert sich auf Geschäftskennzahlen und KPIs.
- Error Mart: Erfasst Dateninkonsistenzen, die gegen Hard Rules verstoßen.
- AI Mart: Ein Feature Store, der aus mehreren Datenquellen abgeleitet wird und von Data Scientists direkt zum Trainieren von Machine-Learning- und KI-Modellen genutzt wird.
2. Data-Vault-Modellierung
Die Data-Vault-Modellierung ist darauf ausgelegt, die Anforderungen heutiger Unternehmensdatenplattformen explizit zu erfüllen und Big Data sowie hohe Geschwindigkeit mühelos zu bewältigen. Das Modell basiert auf drei zentralen Entitäten, die ein Unternehmen aus seinen grundlegenden Bestandteilen abbilden:

Hubs
Repräsentieren zentrale Geschäftskonzepte durch eine eindeutige Liste von Business Keys (z. B. einen „Customer“- oder „Flight“-Hub).
Links
Dienen als Verbindungselemente, die veranschaulichen, wie unterschiedliche Hubs (Geschäftskonzepte) miteinander interagieren und in Beziehung stehen (z. B. ein Patient, der einen Arzt aufsucht).
Satellites
Speichern die beschreibenden Attribute und den historischen Kontext, die mit Hubs oder Links verbunden sind. Jedes Mal, wenn sich ein Attribut ändert, protokolliert das Satellite dies und erstellt so eine vollständige historische Zeitleiste.
Um zu veranschaulichen, wie diese zentralen Entitäten zusammenwirken, betrachten Sie ein Szenario aus der Luftfahrt:
Die zentralen Geschäftselemente – wie Flughäfen, Fluggesellschaften und Flüge – werden als eigenständige Hubs modelliert (HubAirport, HubCarrier und HubFlight). Um einen vollständigen Flug abzubilden und die Beziehung zwischen diesen unabhängigen Objekten herzustellen, verbindet ein Link (LinkFlight) alle drei dieser Hubs miteinander. Schließlich werden Satellites angefügt, um den erforderlichen Kontext und die beschreibenden Daten bereitzustellen. So verfügt HubAirport beispielsweise über mehrere Satellites (SatAirportLocation und SatAirportTZ), um unterschiedliche Arten von Flughafenattributen zu trennen und historisch nachzuverfolgen.
Sie fragen sich, wie Sie Ihre eigenen komplexen Geschäftsszenarien modellieren können? Bringen Sie Ihre Fragen zu Data Vault Friday, unserem wöchentlichen Live-Q&A-Webinar.
Um eine blitzschnelle Berichterstattung und Analyse zu gewährleisten, nutzt der Business Vault außerdem Query Assistant Tables, wie etwa Point-in-Time-(PIT-) und Bridge Tables. Diese systemgenerierten Entitäten fungieren als Indizes, um komplexe Daten-Joins zu vereinfachen und die Abfrageleistung für Endbenutzer drastisch zu beschleunigen.

3. Data-Vault-Methodik
Data Vault 2 integriert grundlegende Engineering-Standards wie Capability Maturity Model Integration (CMMI), Total Quality Management (TQM) und Six Sigma, um konsistente, wiederholbare und qualitativ hochwertige Bereitstellungen sicherzustellen.
Moderne Data-Vault-2-Umgebungen haben sich jedoch weiterentwickelt und setzen auf hochgradig agile, wertorientierte Arbeitsweisen:
Disciplined Agile
Ein evolutionärer Ansatz, der Qualität, Geschwindigkeit und Anpassungsfähigkeit in Einklang bringt. Er ermutigt selbstorganisierende Teams, iterativ zu arbeiten, technische Schulden an ihrer Wurzel anzugehen und schnell funktionsfähige Lösungen zu liefern.
Product Mindset
Anstatt eine Datenplattform als ein zeitlich begrenztes „Projekt“ mit einem Enddatum zu betrachten, fördert die Data-Vault-2-Methodik einen produktbasierten Ansatz. Die Datenplattform wird als ein fortlaufendes, sich weiterentwickelndes Produkt behandelt, das dem Unternehmen kontinuierlichen, inkrementellen Mehrwert liefert und sicherstellt, dass sie nahtlos mit den Anforderungen Ihrer Organisation mitwächst.
Möchten Sie diese Standards für Ihr eigenes Team beherrschen? Entdecken Sie unser Angebot Data Vault 2.1 Training & Certification.
Das Data Vault Handbook:
Kernkonzepte und moderne Anwendungen
Bauen Sie Ihren Weg zu einer skalierbaren und resilienten Datenplattform
Das Data Vault Handbook ist eine leicht zugängliche Einführung in Data Vault. Dieser für Datenpraktiker konzipierte Leitfaden bietet einen klaren und stimmigen Überblick über die Prinzipien von Data Vault.
Read it for Free

Marc Winkelmann
Managing Consultant
Phone: +49 511 87989342
Mobile: +49 151 22413517