Multi-Temporalität in Data Vault 2.0
Der folgende Artikel gibt einen Überblick über das theoretische Verständnis der Multi-Temporalität in einem Data Warehouse.
Multi-Temporalität in Data Vault 2.0
Vielleicht haben Sie schon einmal von bi-temporalen Daten gehört. Aber in der Regel gibt es mehr als nur zwei Zeitlinien in Ihren Daten, die Ihre Arbeit erschweren. In der Regel finden Sie in Ihren Datensätzen mehrere Zeitstempel und Daten aus verschiedenen Perspektiven, die mehrere Möglichkeiten bieten, wie Sie Ihre Daten aus einer zeitlichen Perspektive betrachten können. Aber Sie sollten auch in der Lage sein, mit diesem Ungetüm von Zeitmaschine umzugehen. Wussten Sie, dass Data Vault 2.0 in der Lage ist, multi-temporale Daten zu verarbeiten? Welchen Einfluss hat dies auf Ihre Arbeit und wie können Sie sich dies zunutze machen? Nehmen Sie an diesem Webinar teil und erfahren Sie, wie Data Vault 2.0 Ihnen helfen kann, Multi-Temporalität zu meistern.
Was ist "Multi-Temporalität" in einem Data Warehouse?
Bevor wir uns mit der Multi-Temporalität befassen, sollten wir zunächst den Begriff der Bi-Temporalität definieren, denn es ist ein weit verbreiteter Irrglaube, dass Data Vault 2.0 nur bi-temporal ist (was falsch ist):
"Bitemporale Modellierung ist ein spezieller Fall der Modellierung von Informationen in temporalen Datenbanken, die für den Umgang mit historischen Daten entlang zweier unterschiedlicher Zeitlinien entwickelt wurde. Dadurch ist es möglich, die Informationen so zurückzuspulen, "wie sie tatsächlich waren", in Kombination mit den Daten, wie sie "zu einem bestimmten Zeitpunkt aufgezeichnet" wurden. (Laut Wikipedia)
Die Bi-Temporalität bezieht sich nur auf zwei Zeitlinien, die allgemein als "Systemzeit" (die technische Zeitlinie) und "Gültige Zeit" (die geschäftliche Zeitlinie) bezeichnet werden. Data Vault-Entitäten wie Satelliten, Point-in-Time-Tabellen (PIT), und Bridge-Tabellen sind in der Lage, mehrere aktive Zeitleisten in ein und demselben Datensatz anzusprechen. Lassen Sie uns nur einige von ihnen kategorisieren:
- Quellengesteuerte Zeiten
- Erstellungszeitpunkt
- Aktualisierungszeitpunkt
- Löschzeitpunkt
- Systemzeiten
- CDC-Zeit
- Zeitpunkt der Ereignismeldung
- Geschäftszeiten
- alle Zeitpunkte, die angeben, wann etwas in der "realen Welt" geschehen ist oder geschehen wird, wie z. B. ein Kauf- oder Verkaufszeitstempel.
- Zeitspannen
- kann technisch sein, kann geschäftsorientiert sein
- Datum und Uhrzeit des Vertragsbeginns und -endes
- Technische Gültig-von- und Gültig-bis-Daten/Zeitstempel
- Enterprise Data Warehouse (EDW)
- Ladedatum-Zeitstempel (wird beim Einfügen in der ersten Schicht des EDW gesetzt)
- Zeitstempel, wenn ein Datensatz in die Tabelle geschrieben wird
Alle diese Daten und Zeitstempel können in nur einem Datensatz in einer Satellitentabelle enthalten sein. Auf diese Weise können wir die Daten aus verschiedenen Zeitperspektiven betrachten. Daher berücksichtigt das Data Vault-Modell die Multi-Temporalität und nicht nur die Bi-Temporalität.
Der Ladedatum-Zeitstempel mit Multi-Temporalität
Eine Voraussetzung für die Multi-Temporalität der Daten ist, dass der Ladedatum-Zeitstempel für das Laden der Daten in die Satelliten verwendet wird, wenn die Deltaprüfung durchgeführt wird. Nur der Ladedatum-Zeitstempel kann uns eine konsistente, lückenlose und überschneidungsfreie Zeit liefern, die unter unserer Kontrolle steht. Dies ermöglicht uns eine uneingeschränkte Sicht auf die Multi-Timelines in Satellites.
Alle anderen Zeitstempel sind nicht qualifiziert. Erstens würden sie die Anzahl der möglichen Perspektiven auf die Daten auf eine einzige Instanz beschränken. Außerdem können sie Lücken und Überschneidungen aufweisen, NULL sein und werden nicht von den Enterprise Data Warehouse-Teams kontrolliert.
Kurz gesagt: Wir werden den Ladedatum-Zeitstempel nie loswerden, der während des Einfügens in der ersten Schicht der Enterprise Data Warehouse-Architektur gesetzt und so weit wie möglich durch alle Schichten mitgenommen wird (denken Sie an Aggregate im Business Vault über mehrere Ladedatum-Zeitstempel).
3 Unterschiedliche Sichtweisen auf Daten
Der Kern-Data Vault wird in Raw Data Vault (RDV) und Business Vault (BV) unterschieden. Der Grund dafür ist die Trennung von weichen und harten Geschäftsregeln, da weiche Geschäftsregeln den Inhalt der Daten verändern können. Das Ergebnis ist, dass die Anzahl der möglichen Perspektiven auf die Rohdaten reduziert wird, wenn weiche Geschäftsregeln früh in der Ladearchitektur angewendet werden. Die gleichen Regeln müssen auch auf Zeitleisten angewendet werden. Zeitliniengesteuerte Geschäftsperspektiven auf Rohdaten finden am frühesten im Business Vault statt.
Es gibt im Wesentlichen drei verschiedene Perspektiven in Bezug auf Zeitpläne im data warehouse: eine data warehouse-Perspektive, eine Unternehmensperspektive und eine Perspektive der Informationsbereitstellung.
Die Perspektive data warehouse bezieht sich auf den Zeitstempel des Ladedatums, um eine konsistente inkrementelle Integration der Daten in die Raw Data Vault und Business Vault zu erreichen.
Die geschäftliche Perspektive bezieht sich auf alle Daten und Zeitstempel, die vom Quellsystem geliefert werden. Auch die technischen Felder werden genauso gezählt wie das Erstellungs-, Aktualisierungs- oder Löschdatum/der Zeitstempel aus dem Quellsystem. Alles, was Teil der Nutzlast ist, wird als beschreibenden Daten beim Laden von Raw Data Vault.
Mit verschiedenen Abfragen können nun alle möglichen Ansichten der Rohdaten erstellt werden, z. B. Aggregate auf der Grundlage des jüngsten Datensatzes pro Geschäftsschlüssel und gruppiert nach einem Verkaufsdatum.
Die Perspektive der Informationsbereitstellung stützt sich auf eine Momentaufnahme, um alle Daten so "einzufrieren", wie sie zu einem bestimmten Zeitpunkt aktiv waren. Die Interpretation dessen, was "aktiv" bedeutet, kann jedoch unterschiedlich sein.
Um dies zu berücksichtigen, können mehrere Perspektiven erstellt werden. Das ist auch der Grund, warum wir von einer einzigen Version der Fakten im Raw Data Vault und mehreren Versionen der Wahrheit im Business Vault sprechen (verschiedene Perspektiven auf die Rohdaten = verschiedene Wahrheiten aus verschiedenen Blickwinkeln).
Dies kann z. B. ein stündlicher, täglicher, wöchentlicher, monatlicher oder jährlicher Schnappschuss oder Zeitabschnitt sein. Die Data Vault-Entitäten, die hier verwendet werden, sind die PIT- und Bridge-Tabellen. Das aktuelle Delta von Stammdaten wie z.B. Kundendaten in einem Satellite kann auf der Grundlage eines täglichen Snapshots in einer PIT-Tabelle "eingefroren" werden. Auch transaktionale Daten, die in einer Non-Historized Link kann an einen stündlichen Schnappschuss in einer Brückentisch.
Wie das genau aussieht, wird im nächsten Teil der multitemporalen Newsletter-Serie gezeigt. Um Ihr Verständnis für diese Datenperspektiven zu verbessern, können Sie sich auch unsere Multitemporal Data Vault Klasse.
Fazit
Die Integration der Multitemporalität in Data Vault 2.0 ermöglicht es Unternehmen, Daten über verschiedene Zeiträume hinweg zu verwalten und zu analysieren und so einen umfassenden Überblick über historische Veränderungen aus mehreren Perspektiven zu erhalten. Dieser Ansatz verbessert die Fähigkeit, die Datenentwicklung zu verfolgen und zu verstehen, was zu einer fundierteren Entscheidungsfindung und einer verbesserten Datenverwaltung führt. Durch die effektive Handhabung mehrerer zeitlicher Aspekte bietet Data Vault 2.0 einen robusten und flexiblen Rahmen für die Erfassung der Komplexität zeitvariabler Daten.