Multi-Temporalität in Data Vault 2.0
Der folgende Artikel gibt einen Überblick über das theoretische Verständnis der Multi-Temporalität in einem Data Warehouse.
Multi-Temporalität in Data Vault 2.0
Vielleicht haben Sie schon einmal von bi-temporalen Daten gehört. Aber in der Regel gibt es mehr als nur zwei Zeitlinien in Ihren Daten, die Ihre Arbeit erschweren. In der Regel finden Sie in Ihren Datensätzen mehrere Zeitstempel und Daten aus verschiedenen Perspektiven, die mehrere Möglichkeiten bieten, wie Sie Ihre Daten aus einer zeitlichen Perspektive betrachten können. Aber Sie sollten auch in der Lage sein, mit diesem Ungetüm von Zeitmaschine umzugehen. Wussten Sie, dass Data Vault 2.0 in der Lage ist, multi-temporale Daten zu verarbeiten? Welchen Einfluss hat dies auf Ihre Arbeit und wie können Sie sich dies zunutze machen? Nehmen Sie an diesem Webinar teil und erfahren Sie, wie Data Vault 2.0 Ihnen helfen kann, Multi-Temporalität zu meistern.
Was ist "Multi-Temporalität" in einem Data Warehouse?
Bevor wir uns mit der Multi-Temporalität befassen, sollten wir zunächst den Begriff der Bi-Temporalität definieren, denn es ist ein weit verbreiteter Irrglaube, dass Data Vault 2.0 nur bi-temporal ist (was falsch ist):
"Bitemporale Modellierung ist ein spezieller Fall der Modellierung von Informationen in temporalen Datenbanken, die für den Umgang mit historischen Daten entlang zweier unterschiedlicher Zeitlinien entwickelt wurde. Dadurch ist es möglich, die Informationen so zurückzuspulen, "wie sie tatsächlich waren", in Kombination mit den Daten, wie sie "zu einem bestimmten Zeitpunkt aufgezeichnet" wurden. (Laut Wikipedia)
Die Bi-Temporalität bezieht sich nur auf zwei Zeitlinien, die allgemein als "Systemzeit" (die technische Zeitlinie) und "Gültige Zeit" (die geschäftliche Zeitlinie) bezeichnet werden. Data Vault-Entitäten wie Satellites, Point-in-Time-Tabellen (PIT), und Bridge-Tabellen sind in der Lage, mehrere aktive Zeitleisten in ein und demselben Datensatz anzusprechen. Lassen Sie uns nur einige von ihnen kategorisieren:
- Quellengesteuerte Zeiten
- Erstellungszeitpunkt
- Aktualisierungszeitpunkt
- Löschzeitpunkt
- Systemzeiten
- CDC-Zeit
- Zeitpunkt der Ereignismeldung
- Geschäftszeiten
- alle Zeitpunkte, die angeben, wann etwas in der "realen Welt" geschehen ist oder geschehen wird, wie z. B. ein Kauf- oder Verkaufszeitstempel.
- Zeitspannen
- kann technisch sein, kann geschäftsorientiert sein
- Datum und Uhrzeit des Vertragsbeginns und -endes
- Technische Gültig-von- und Gültig-bis-Daten/Zeitstempel
- Enterprise Data Warehouse (EDW)
- Ladedatum-Zeitstempel (wird beim Einfügen in der ersten Schicht des EDW gesetzt)
- Zeitstempel, wenn ein Datensatz in die Tabelle geschrieben wird
Alle diese Daten und Zeitstempel können in nur einem Datensatz in einer Satellitentabelle enthalten sein. Auf diese Weise können wir die Daten aus verschiedenen Zeitperspektiven betrachten. Daher berücksichtigt das Data Vault-Modell die Multi-Temporalität und nicht nur die Bi-Temporalität.
Der Ladedatum-Zeitstempel mit Multi-Temporalität
Eine Voraussetzung für die Multi-Temporalität der Daten ist, dass der Ladedatum-Zeitstempel für das Laden der Daten in die Satelliten verwendet wird, wenn die Deltaprüfung durchgeführt wird. Nur der Ladedatum-Zeitstempel kann uns eine konsistente, lückenlose und überschneidungsfreie Zeit liefern, die unter unserer Kontrolle steht. Dies ermöglicht uns eine uneingeschränkte Sicht auf die Multi-Timelines in Satellites.
Alle anderen Zeitstempel sind nicht qualifiziert. Erstens würden sie die Anzahl der möglichen Perspektiven auf die Daten auf eine einzige Instanz beschränken. Außerdem können sie Lücken und Überschneidungen aufweisen, NULL sein und werden nicht von den Enterprise Data Warehouse-Teams kontrolliert.
Kurz gesagt: Wir werden den Ladedatum-Zeitstempel nie loswerden, der während des Einfügens in der ersten Schicht der Enterprise Data Warehouse-Architektur gesetzt und so weit wie möglich durch alle Schichten mitgenommen wird (denken Sie an Aggregate im Business Vault über mehrere Ladedatum-Zeitstempel).
3 Unterschiedliche Sichtweisen auf Daten
Der Kern-Data Vault wird in Raw Data Vault (RDV) und Business Vault (BV) unterschieden. Der Grund dafür ist die Trennung von soft und hard business rules, da soft business rules den Inhalt der Daten verändern können. Das Ergebnis ist, dass die Anzahl der möglichen Perspektiven auf die Rohdaten reduziert wird, wenn soft business rules früh in der Ladearchitektur angewendet werden. Die gleichen Regeln müssen auch auf Zeitlinien angewendet werden. Zeitliniengesteuerte Geschäftsperspektiven auf Rohdaten finden frühestens im Business Vault statt.
Es gibt im Wesentlichen drei verschiedene Perspektiven in Bezug auf Zeitlinien im Data Warehouse: eine Data Warehouse-Perspektive, eine Unternehmensperspektive und eine Perspektive der Informationsbereitstellung.
Die Data Warehouse-Perspektive bezieht sich auf den Ladedatum-Zeitstempel, um eine konsistente inkrementelle Integration der Daten in den Raw Data Vault und Business Vault zu erreichen.
Die geschäftliche Perspektive bezieht sich auf alle Daten und Zeitstempel, die vom Quellsystem geliefert werden. Die technischen Felder werden genauso gezählt wie das Erstellungs-, Aktualisierungs- oder Löschdatum/-zeitstempel aus dem Quellsystem. Alles, was Teil der Nutzdaten ist, wird als beschreibende Daten beim Laden des Raw Data Vault angesehen und verarbeitet.
Mit verschiedenen Abfragen können nun alle möglichen Ansichten der Rohdaten erstellt werden, z. B. Aggregate auf der Grundlage des jüngsten Datensatzes pro Geschäftsschlüssel und gruppiert nach einem Verkaufsdatum.
Die Perspektive der Informationsbereitstellung stützt sich auf eine Momentaufnahme, um alle Daten so "einzufrieren", wie sie zu einem bestimmten Zeitpunkt aktiv waren. Die Interpretation dessen, was "aktiv" bedeutet, kann jedoch unterschiedlich sein.
Um dies zu berücksichtigen, können mehrere Perspektiven erstellt werden. Das ist auch der Grund, warum wir von einer einzigen Version der Fakten im Raw Data Vault und mehreren Versionen der Wahrheit im Business Vault sprechen (verschiedene Perspektiven auf die Rohdaten = verschiedene Wahrheiten aus verschiedenen Blickwinkeln).
Dies kann z. B. ein stündlicher, täglicher, wöchentlicher, monatlicher oder jährlicher Snapshot oder Zeitabschnitt sein. Die Data Vault-Entitäten, die hier verwendet werden, sind die PIT- und Bridge-Tabellen. Das aktuelle Delta von Stammdaten wie z.B. Kundendaten in einem Satellite kann auf der Grundlage eines täglichen Snapshots in einer PIT-Tabelle "eingefroren" werden. Auch transaktionale Daten, die in einem Non-Historized Link gespeichert werden, können an einen stündlichen Snapshot in einer Bridge-Tabelle angehängt werden..
Wie das genau aussieht, wird im nächsten Teil der multi-temporalen Newsletter-Serie gezeigt. Um Ihr Verständnis für diese Datenperspektiven zu verbessern, können Sie auch unseren Multi-temporaler Data Vault-Kurs besuchen.
Fazit
Die Integration der Multi-Temporalität in Data Vault 2.0 ermöglicht es Unternehmen, Daten über verschiedene Zeiträume hinweg zu verwalten und zu analysieren und so einen umfassenden Überblick über historische Veränderungen aus mehreren Perspektiven zu erhalten. Dieser Ansatz verbessert die Fähigkeit, die Datenentwicklung zu verfolgen und zu verstehen, was zu einer fundierteren Entscheidungsfindung und verbessertem Datenmanagement führt. Durch die effektive Handhabung mehrerer zeitlicher Aspekte bietet Data Vault 2.0 einen robusten und flexiblen Rahmen für die Erfassung der Komplexität zeitvariabler Daten.