Aufteilung einer Satellitenentität
Satelliten profitieren maßgeblich von klar definierten Aufteilungskriterien – sie bestimmen die Struktur und Effizienz der Satelliten. Es ist daher nicht empfehlenswert, sämtliche beschreibenden Daten die sich auf einen Business Key beziehen in einem einzigen Satelliten zu speichern. Stattdessen sollten die Rohdaten anhand bestimmter Kriterien aufgeteilt werden.
In diesem Artikel:
Kriterien für die Aufteilung eines Satelliten
Grundsätzlich lassen sich Satelliten auf folgende Weise aufteilen:
- Aufteilung nach Quellsystem
- Aufteilung nach Änderungsrate
Zusätzlich haben wir zwei weitere Aufteilungstypen definiert:
- Aufteilung nach Sicherheits- und Datenschutzanforderungen
- Business-getriebene Aufteilung
Eine Aufteilung der Satelliten nach Quellsystemen wird dringend empfohlen, um zwei zentrale Probleme beim Laden von Daten ins Enterprise Data Warehouse zu vermeiden: Zunächst könnte eine Transformation der Struktur erforderlich sein, wenn zwei verschiedene Quellsysteme mit unterschiedlichen relationalen Strukturen in denselben Satelliten geladen werden sollen. Eine solche strukturelle Anpassung erfordert jedoch früher oder später Geschäftslogik – diese sollte idealerweise erst in der Phase der Informationsbereitstellung angewendet werden, um eine vollständig prüfbare Umgebung zu ermöglichen und verschiedene geschäftliche Perspektiven sauber abzubilden.
Das zweite Problem besteht darin, dass zwei Quellen, in den selben Satelliten geladen werden, zum sogenannten „Flip-Flop-Effekt“ führen: Wenn beide Systeme widersprüchliche Daten zum gleichen Business Key liefern (z. B. weil sie nicht synchronisiert sind), verarbeitet der Satellit zwei Deltas pro Tag, die jeweils unterschiedliche Beschreibungen erfassen. Das resultiert in hohem Speicherverbrauch und Dateninkonsistenzen. Daher hilft die Aufteilung eines Satelliten nach Quellsystem, den Speicherverbrauch deutlich zu reduzieren.
Zu den Vorteilen der Aufteilung der Satelliten nach Quellsystemen gehört die Verbesserung der Parallelität, da Daten aus mehreren Quellsystemen gleichzeitig geladen werden können. Zudem lässt sich Echtzeit Daten, ohne dass eine Integration mit Rohdaten aus einer Stapelverarbeitung erforderlich ist.
Zusätzlich zur Aufteilung nach Quellensystemen kann der Speicherverbrauch weiter reduziert werden, indem der Satellit nach Änderungsrate aufgeteilt wird:
Abbildung: Mehrere Satelliten (aufgeteilt nach Quellensystem) hängen von einem Hub ab
Für die Aufteilung eines Satelliten auf der Grundlage der Änderungsrate sollte man die Änderungshäufigkeit für alle Attribute bestimmen und die Daten in solche gruppieren, die sich nie, manchmal oder sehr häufig ändern. Die Aufteilung eines Satelliten nach Änderungsrate trennt die sich schnell ändernden Attribute von den sich langsam ändernden Attributen und verhindert so den Verbrauch von unnötigem Speicherplatz, wenn sich ein sich schnell änderndes Attribut ändert.
Die Aufteilung der Satelliten nach dem Quellsystem und die technische Aufteilung nach der Änderungsrate der Daten, die nicht erforderlich ist, wenn die Seitenkomprimierung in der Datenbank verfügbar ist, sind gängige und empfohlene Praktiken, wenn es um die Aufteilung der beschreibenden Attribute geht. Wir haben uns jedoch entschlossen, die Rohdaten noch weiter aufzuteilen, sowohl technisch als auch nach ihrer geschäftlichen Bedeutung.
Im Rahmen unseres Verfahrens reichen die Sicherheitsstufen von:
- Die niedrigste Vertraulichkeitsstufe - Stufe 0, 1: keine Sicherheitsmaßnahmen erforderlich, für öffentliche Daten
- Begrenzter Zugang zu bestimmten internen Parteien - Ebene A, R, C, F.
- Bis zur höchsten Vertraulichkeitsstufe - Stufe S: streng geheim.
Im weiteren Verlauf verteilt der geschäftsorientierte Satellitensplit die Rohdaten in verschiedene Satellitentabellen, die bestimmte geschäftliche Bedeutungen der Dateninhalte verwenden.
Zu diesem Zweck haben wir mehrere Klassifikationen definiert, um nur einige zu nennen: "Kontakt" für Kontaktdaten und "Aktivität" für Daten, die die Interaktionen der Nutzer mit dem Quelldatensatz verfolgen.
Darüber hinaus können Datenmodellierer benutzerdefinierte Geschäftsklassifikationen für bestimmte eindeutige Geschäftsbedeutungen in Geschäftsobjekten definieren.
Zum Beispiel alle Datenattribute einer auf der CRM-Plattform installierten Anwendung Salesforce werden oft in einer einzigen Satellitenstruktur gespeichert. Der Hauptgrund für geschäftsorientierte Satelliten ist, dass wir Anwendungen entweder hinzufügen oder entfernen können, während wir die Auswirkungen struktureller Änderungen auf das EDW reduzieren.
Hier ist ein Beispiel für einen Satellitennamen in unserem internen System EDW Lösung:
kunde_kontakt_sfdc_lcp_s
Das obige Objekt ist ein Satellit eines Geschäftsobjekts mit der Bezeichnung "Kunde" und enthält die Kontaktinformationen von Kunden aus dem Quellsystem Salesforce. Sein Inhalt hat also eine niedrige Änderungsrate, eine Sicherheitsstufe von C und enthält personenbezogene Daten.
Fazit
Der Blog-Beitrag eingeführt eine Data Vault Wir haben unsere grundlegenden Empfehlungen für die Aufteilung eines Satelliten auf verschiedene Arten sowie deren Vorteile definiert. Wir haben auch zusätzliche Möglichkeiten zur Aufteilung eines Satelliten empfohlen, die in der Scalefree auf der Grundlage von Quellendaten befolgt werden. In unserem nächsten Blog-BeitragIn diesem Abschnitt werden wir die Modellierung von Satelliten im Hinblick auf strukturelle Änderungen im Quellsystem genauer untersuchen.
- von Samatha Balla (Scalefree)