{"id":36385,"date":"2019-09-09T11:28:28","date_gmt":"2019-09-09T11:28:28","guid":{"rendered":"https:\/\/www.scalefree.com\/?p=36385"},"modified":"2025-08-06T08:27:11","modified_gmt":"2025-08-06T06:27:11","slug":"data-lake-effizienz-strukturelle-losungen","status":"publish","type":"post","link":"https:\/\/www.scalefree.com\/de\/knowledge\/solutions\/data-lake-efficiency-structural-solutions\/","title":{"rendered":"Data Lake-Effizienz: Strukturelle L\u00f6sungen"},"content":{"rendered":"<div id=\"Data Lake Structure\"  data-column-margin=\"default\" data-midnight=\"dark\"  class=\"wpb_row vc_row-fluid vc_row\"  style=\"padding-top: 0px; padding-bottom: 0px; \"><div class=\"row-bg-wrap\" data-bg-animation=\"none\" data-bg-animation-delay=\"\" data-bg-overlay=\"false\"><div class=\"inner-wrap row-bg-layer\" ><div class=\"row-bg viewport-desktop\"  style=\"\"><\/div><\/div><\/div><div class=\"row_col_wrap_12 col span_12 dark left\">\n\t<div  class=\"vc_col-sm-12 wpb_column column_container vc_column_container col no-extra-padding inherit_tablet inherit_phone\"  data-padding-pos=\"all\" data-has-bg-color=\"false\" data-bg-color=\"\" data-bg-opacity=\"1\" data-animation=\"\" data-delay=\"0\" >\n\t\t<div class=\"vc_column-inner\" >\n\t\t\t<div class=\"wpb_wrapper\">\n\t\t\t\t\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Data Lake Struktur - L\u00f6sung<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>Die Organisation der Daten innerhalb eines <a href=\"https:\/\/www.scalefree.com\/blog\/data-vault\/data-vault-2-0-best-of-breed-from-data-warehousing-and-data-lakes\/\" target=\"_blank\" rel=\"noopener\">Data Lake<\/a> hat einen entscheidenden Einfluss auf deren nachgelagerte Zug\u00e4nglichkeit. W\u00e4hrend das Ablegen von Daten im Data Lake vergleichsweise einfach ist, liegt die eigentliche Herausforderung im effizienten Abrufen dieser Daten. Diese Effizienz ist besonders wichtig f\u00fcr Aufgaben wie den inkrementellen oder initialen Ladevorgang des <a href=\"https:\/\/www.scalefree.com\/expertiseterprise-data-warehouse\/\" target=\"_blank\" rel=\"noopener\">Enterprise Data Warehouse (EDW)<\/a> sowie f\u00fcr <a href=\"https:\/\/www.scalefree.com\/de\/beratung\/data-science\/\">Data Science<\/a> Praktiker, die unabh\u00e4ngige Abfragen durchf\u00fchren. In der Praxis h\u00e4ngt der einfache Zugriff auf die Daten davon ab, wie gut sie im Data Lake strukturiert sind. Eine gut organisierte Struktur erm\u00f6glicht reibungslose Abrufprozesse und unterst\u00fctzt sowohl EDW-Ladevorg\u00e4nge als auch die unabh\u00e4ngigen Abfrageanforderungen von Datenwissenschaftlern.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 30px;\" class=\"divider\"><\/div><\/div><a class=\"nectar-button jumbo regular extra-color-1  regular-button ctaBtn\"  role=\"button\" style=\"\" target=\"_blank\" href=\"https:\/\/scalefr.ee\/i3VO1q\" data-color-override=\"false\" data-hover-color-override=\"false\" data-hover-text-color-override=\"#fff\"><span>ZUGRIFF AUF DIE L\u00d6SUNG<\/span><\/a><div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 30px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p><span style=\"font-weight: 400;\">Innerhalb einer <a href=\"https:\/\/www.scalefree.com\/scalefree-newsletter\/how-to-combine-managed-self-service-bi-with-data-vault-2-0\/\">hybriden Data-Warehouse-Architektur<\/a>, wie sie im <a href=\"https:\/\/www.scalefree.com\/data-vault-2-0-trainings\/data-vault-2-0-boot-camp\/\">Data Vault 2.0 Boot-Camp-Training<\/a>vermittelt wird, wird ein Data Lake als Ersatz f\u00fcr eine relationale Staging-Area eingesetzt. <\/span><span style=\"font-weight: 400;\">Um die Vorteile dieser Architektur voll auszusch\u00f6pfen, sollte der Data Lake so organisiert sein, dass ein effizienter Zugriff im Rahmen eines persistenten Staging-Area-Musters m\u00f6glich ist und eine bessere Datenvirtualisierung unterst\u00fctzt wird.<\/span><\/p>\n<p><!--more--><\/p>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<div class=\"content-list-wrapper\"><p class=\"content-heading\">In diesem Artikel:<\/p><ul class=\"content-list\"><li><a href=\"#the-data-lake-in-a-hybrid-data-vault-architecture\">Der Data Lake in einer hybriden Data Vault-Architektur<\/a><li><a href=\"#structuring-the-data-lake-for-efficient-data-access\">Strukturierung des Data Lake f\u00fcr effizienten Datenzugriff<\/a><li><a href=\"#conclusion\">Fazit<\/a><\/ul><\/div>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 30px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Der Data Lake in einer hybriden Data Vault-Architektur<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"img-with-aniamtion-wrap  custom-size\" data-max-width=\"100%\" data-max-width-mobile=\"default\" data-shadow=\"none\" data-animation=\"none\" >\n      <div class=\"inner\">\n        <div class=\"hover-wrap\"> \n          <div class=\"hover-wrap-inner\">\n            <img loading=\"lazy\" decoding=\"async\" class=\"img-with-animation skip-lazy nectar-lazy\" data-delay=\"0\" height=\"669\" width=\"1024\" data-animation=\"none\" data-nectar-img-src=\"https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-1024x669.png\" src=\"data:image\/svg+xml;charset=utf-8,%3Csvg%20xmlns%3D'http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg'%20viewBox%3D'0%200%201024%20669'%2F%3E\" alt=\"Data Lake Architektur\" data-nectar-img-srcset=\"https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-1024x669.png 1024w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-300x196.png 300w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-768x502.png 768w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-320x209.png 320w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-640x418.png 640w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-360x235.png 360w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-720x470.png 720w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-1080x706.png 1080w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-800x523.png 800w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-1280x836.png 1280w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture-600x392.png 600w, https:\/\/www.scalefree.com\/wp-content\/uploads\/2019\/12\/Figure-1-The-Data-Lake-in-a-Hybrid-Data-Vault-Architecture.png 1408w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/>\n          <\/div>\n        <\/div>\n      <\/div>\n    <\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p style=\"text-align: center;\"><em>Abbildung 1: <span style=\"font-weight: 400;\">Der Data Lake in einer hybriden Data Vault-Architektur<\/span><\/em><\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 30px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p><span style=\"font-weight: 400;\">Wie in Abbildung 1 dargestellt, wird der <a href=\"https:\/\/www.scalefree.com\/knowledge\/solutions\/efficient-data-lake-structure-2\/\" target=\"_blank\" rel=\"noopener\">Data Lake<\/a>innerhalb der hybriden Architektur als persistente Staging-Area (PSA) eingesetzt.\u00a0 <\/span><span style=\"font-weight: 400;\">Dies unterscheidet sich von relationalen Staging-Bereichen, in denen entweder eine persistente oder eine tempor\u00e4re Staging-Area (TSA) verwendet wird. <\/span><span style=\"font-weight: 400;\">Eine TSA hat den Vorteil, dass der notwendige Aufwand f\u00fcr das Datenmanagement reduziert wird: Wenn sich beispielsweise die Quellstruktur \u00e4ndert, muss die relationale Staging-Tabelle angepasst werden. <\/span>Ist die Staging-Tabelle leer, f\u00e4llt kein Datenmanagement an. Wird jedoch relationale Technologie zur Erstellung einer PSA verwendet, m\u00fcssen historische Daten innerhalb der Tabelle angepasst werden, um der neuen Struktur zu entsprechen. <span style=\"font-weight: 400;\">Dies unterscheidet sich von einer Staging-Area auf einem Data Lake: \u00c4ndern sich die Quelldaten, bleiben die historischen Daten in anderen Dateien unber\u00fchrt. <\/span>Somit ist kein Datenmanagement erforderlich. Vor diesem Hintergrund werden PSAs auf einem Data Lake gegen\u00fcber TSAs bevorzugt. <span style=\"font-weight: 400;\">Eine anschauliche Begr\u00fcndung hierf\u00fcr wird wie folgt dargestellt:<\/span><\/p>\n<ol>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Der Data Lake dient nicht nur dem Data-Warehouse-Team bei deren Ladeprozessen, sondern auch den Data Scientists, die direkt auf den Data Lake zugreifen und dabei das <a href=\"https:\/\/www.scalefree.com\/scalefree-newsletter\/an-enterprise-document-warehouse-architecture\/\">EDW gegebenenfalls umgehen<\/a>.\u00a0<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Vollst\u00e4ndige Ladevorg\u00e4nge k\u00f6nnen vom Data-Warehouse-Team genutzt werden, um neue Raw-Data-Vault-Entit\u00e4ten mit historischen Daten initial zu laden.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Dieses Muster kann au\u00dferdem dazu verwendet werden, das Data Warehouse auf dem Data Lake zu virtualisieren.<\/span><\/li>\n<\/ol>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 30px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Strukturierung des Data Lake f\u00fcr effizienten Datenzugriff<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p><span style=\"font-weight: 400;\">Je nach Organisation der Daten im Data Lake kann der nachgelagerte Zugriff auf diese Daten einfach oder schwierig sein. <\/span><span style=\"font-weight: 400;\">W\u00e4hrend das Ablegen von Daten im Data Lake grunds\u00e4tzlich unkompliziert ist, stellt es in der Regel eine Herausforderung dar, die Daten effizient abzurufen \u2013 sei es f\u00fcr den inkrementellen oder initialen Ladevorgang des EDW oder f\u00fcr Data Scientists, die unabh\u00e4ngige Abfragen durchf\u00fchren. <\/span><span style=\"font-weight: 400;\">Ein effizienter Data Lake ist funktional strukturiert, was im Wesentlichen bedeutet, dass die Metadaten der Quellsysteme die Organisation des Data Lakes bestimmen. <\/span><span style=\"font-weight: 400;\">Aus unserer Erfahrung hat es sich bew\u00e4hrt, folgende Ordnerstruktur zu verwenden:<\/span><\/p>\n<ol>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Quellsystem: Der erste Ordner enth\u00e4lt den Typ des Quellsystems (z. B. Oracle).<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Verbindung: In einer typischen Unternehmensumgebung gibt es h\u00e4ufig mehrere Verbindungen desselben Quellsystems, z.\u202fB. mehrere Oracle-Datenbanken, die in den Data Lake geladen werden m\u00fcssen. Es ist jedoch darauf zu achten, dass jeder Verbindung ein eindeutiger Identifikator zugewiesen wird. Dies kann durch eine Nummer, einen Code oder eine Abk\u00fcrzung erfolgen.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Schema-Name: Manche Quellsysteme stellen pro Verbindung mehrere Schemata oder Datenbanken bereit. Diese Hierarchie sollte in diesem Bereich abgebildet werden und kann tats\u00e4chlich aus mehreren Ordnern bestehen.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Entit\u00e4ts-\/Relationsname: Dies ist der Name der Entit\u00e4t oder der REST-Sammlung, die abgefragt werden soll.<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Ladezeitstempel (LDTS): Der LDTS gibt den Zeitpunkt des Batch-Ladevorgangs an.<\/span><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Innerhalb des letzten Ordners (Ladezeitstempel) ist es h\u00e4ufig von Vorteil, die Daten in mehreren Dateien zu speichern, anstatt in einer einzigen gro\u00dfen Datei oder sehr kleinen Dateien. Dies verbessert in der Regel die Leistung von Abfragewerkzeugen, insbesondere wenn die Daten in einem verteilten Dateisystem gespeichert werden. <\/span><span style=\"font-weight: 400;\">Es wird au\u00dferdem empfohlen, Avro-Dateien zu verwenden, die \u00fcblicherweise mit Snappy komprimiert werden. Wenn die nachgelagerten Werkzeuge dieses Dateiformat jedoch nicht unterst\u00fctzen, sollte alternativ unkomprimiertes JSON verwendet werden. <\/span><span style=\"font-weight: 400;\">Die Datei selbst sollte zus\u00e4tzlich zu den Quellattributen folgende Eigenschaften aufweisen:<\/span><\/p>\n<ol>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Ladezeitstempel: Viele Werkzeuge k\u00f6nnen den Ladezeitstempel nicht direkt aus dem Dateinamen oder -schl\u00fcssel ablesen.\u00a0<\/span><\/li>\n<li style=\"font-weight: 400;\"><span style=\"font-weight: 400;\">Subsequenznummer<\/span><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Diese Struktur kann mit mehreren Abfrage-Engines (z.\u202fB. Apache Drill, Impala, <a href=\"https:\/\/www.scalefree.com\/de\/blog\/tools\/data-vault-2-0-mit-hadoop-und-hive-spark-3\/\">Apache Hive&nbsp;<\/a>usw.) verwendet werden und hat sich in diesen Szenarien als sehr zuverl\u00e4ssig erwiesen.<\/span><\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 30px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Fazit<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>Zusammenfassend ist eine effektive Strukturierung des Data Lakes entscheidend, um die Effizienz beim Abrufen von Daten zu erh\u00f6hen \u2013 wovon sowohl die Prozesse des Enterprise Data Warehouse (EDW) als auch die unabh\u00e4ngigen Analysen von Data Scientists profitieren. Die Implementierung eines gut organisierten Data Lakes innerhalb einer hybriden <a href=\"https:\/\/www.scalefree.com\/de\/beratung\/data-vault-2-0\/\">Data Vault 2.0<\/a> Architektur dient als persistente Staging-Area, erleichtert den nahtlosen Datenzugriff und verbessert die Datenvirtualisierung. Dieser Ansatz stellt sicher, dass die Daten jederzeit verf\u00fcgbar und optimal strukturiert sind, um den unterschiedlichen analytischen und operativen Anforderungen gerecht zu werden.<\/p>\n<p style=\"text-align: right;\">- Marc Winkelmann (Scalefree)<\/p>\n\t<\/div>\n<\/div>\n\n\n\n\n\t\t\t<\/div> \n\t\t<\/div>\n\t<\/div> \n<\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>In einer hybriden data warehouse-Architektur, wie sie in der Data Vault 2.0-Bootcamp-Schulung propagiert wird, wird ein Data Lake als Ersatz f\u00fcr einen relationalen Staging-Bereich verwendet. Somit...<\/p>","protected":false},"author":54,"featured_media":29613,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[321],"tags":[986,983,981,979,417,738,1548,1856,355,974,1857,1858,451,985,988,975,987,452,978,976,982,2916,980,984,424,977],"class_list":{"0":"post-36385","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-solutions","8":"tag-apache-drill","9":"tag-avro-files","10":"tag-collection","11":"tag-connection","12":"tag-data-lake","13":"tag-data-management","14":"tag-data-organization","15":"tag-data-retrieval","16":"tag-data-scientists","17":"tag-data-vault-2-0-boot-camp","18":"tag-downstream-accessibility","19":"tag-efficient-queries","20":"tag-enterprise-data-warehouse-edw","21":"tag-file-attributes","22":"tag-hive","23":"tag-hybrid-data-warehouse-architecture","24":"tag-impala","25":"tag-load-date-timestamp","26":"tag-meta-data","27":"tag-persistent-staging-area","28":"tag-relation-name","29":"tag-relation-staging-area","30":"tag-schema-name","31":"tag-snappy","32":"tag-source-systems","33":"tag-transient-staging-area"},"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/posts\/36385","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/users\/54"}],"replies":[{"embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/comments?post=36385"}],"version-history":[{"count":0,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/posts\/36385\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/media\/29613"}],"wp:attachment":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/media?parent=36385"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/categories?post=36385"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/tags?post=36385"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}