{"id":32790,"date":"2023-05-30T00:30:38","date_gmt":"2023-05-30T00:30:38","guid":{"rendered":"https:\/\/www.scalefree.com\/?p=32790"},"modified":"2026-04-16T11:54:12","modified_gmt":"2026-04-16T09:54:12","slug":"data-vault-2-0-mit-hadoop-und-hive-spark-3","status":"publish","type":"post","link":"https:\/\/www.scalefree.com\/de\/blog\/tools\/data-vault-2-0-with-hadoop-and-hive-spark\/","title":{"rendered":"Data Vault 2.0 mit Hadoop und Hive\/Spark"},"content":{"rendered":"<div id=\"fws_6a06f8dad925d\"  data-column-margin=\"default\" data-midnight=\"dark\"  class=\"wpb_row vc_row-fluid vc_row\"  style=\"padding-top: 0px; padding-bottom: 0px; \"><div class=\"row-bg-wrap\" data-bg-animation=\"none\" data-bg-animation-delay=\"\" data-bg-overlay=\"false\"><div class=\"inner-wrap row-bg-layer\" ><div class=\"row-bg viewport-desktop\"  style=\"\"><\/div><\/div><\/div><div class=\"row_col_wrap_12 col span_12 dark left\">\n\t<div  class=\"vc_col-sm-12 wpb_column column_container vc_column_container col no-extra-padding inherit_tablet inherit_phone\"  data-padding-pos=\"all\" data-has-bg-color=\"false\" data-bg-color=\"\" data-bg-opacity=\"1\" data-animation=\"\" data-delay=\"0\" >\n\t\t<div class=\"vc_column-inner\" >\n\t\t\t<div class=\"wpb_wrapper\">\n\t\t\t\t\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Hadoop und Hive\/Spark in Data Vault 2.0<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>In diesem Artikel erhalten Sie einen \u00dcberblick dar\u00fcber, was Hadoop und Hive sind und warum sie als Alternative zu traditionellen Datenbanken eingesetzt werden k\u00f6nnen.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element  webinar-box\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Data Vault 2.0 mit Hadoop und Hive\/Spark<\/h2>\n<p>Dieses Webinar behandelt die Grundlagen von Hadoop und Hive, erkl\u00e4rt, was sie sind und wie sie miteinander kommunizieren. Im zweiten Teil der Pr\u00e4sentation liegt der Fokus auf einer <a href=\"https:\/\/www.scalefree.com\/de\/beratung\/data-vault-2-0\/\">Data Vault 2.0<\/a> Beispiel <a href=\"https:\/\/www.scalefree.com\/consulting\/data-vault-2-0\/#architecture\">Architektur-<\/a> mit Batch-Ladungen. Teilnehmer erhalten Einblicke, wie ein solches Beispiel aussehen kann und welchen Mehrwert es in realen Szenarien bietet. Egal, ob Sie ein erfahrener Datenexperte sind oder gerade erst anfangen \u2013 dieses Webinar ist eine wertvolle Ressource f\u00fcr alle, die mehr \u00fcber Hadoop lernen m\u00f6chten. Wenn Sie Ihr Wissen \u00fcber diese Technologien erweitern und ihr Potenzial im Bereich der <a href=\"https:\/\/www.scalefree.com\/de\/beratung\/data-analytics\/\">Datenanalysenplattform<\/a>entdecken wollen, sollten Sie dieses Webinar nicht verpassen.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div><a class=\"nectar-button jumbo regular accent-color  regular-button ctaBtn\"  role=\"button\" style=\"\" target=\"_blank\" href=\"https:\/\/us02web.zoom.us\/webinar\/register\/rec\/WN_xffw0rS4TTGdTfIaQfcvTQ#\/registration\" data-color-override=\"false\" data-hover-color-override=\"false\" data-hover-text-color-override=\"#fff\"><span>Webinar-Aufzeichnung ansehen<\/span><\/a><div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<div class=\"content-list-wrapper\"><p class=\"content-heading\">In diesem Artikel:<\/p><ul class=\"content-list\"><li><a href=\"#hadoop\">Hadoop<\/a><ul><li><a href=\"#hdfs-hadoop-distributed-file-system\">HDFS - Verteiltes Dateisystem von Hadoop<\/a><\/li><li><a href=\"#yet-another-resource-negotiator-yarn\">Ein weiterer Ressourcenvermittler - YARN<\/a><\/li><li><a href=\"#mapreduce-mr\">MapReduce - MR<\/a><\/li><li><a href=\"#hadoop-common\">Hadoop Common<\/a><\/li><li><a href=\"#what-is-the-benefit\">Was ist der Nutzen?<\/a><\/li><\/ul><li><a href=\"#hive\">HIVE<\/a><ul><li><a href=\"#what-are-the-components\">Was sind die Komponenten?<\/a><\/li><\/ul><li><a href=\"#conclusion\">Fazit<\/a><\/ul><\/div>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Hadoop<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>Hadoop wird verwendet, um gro\u00dfe Datenmengen effizient zu verarbeiten und zu analysieren, indem die Arbeitslast auf ein Cluster aus handels\u00fcblicher Hardware verteilt wird. Dadurch wird parallele Verarbeitung erm\u00f6glicht und durch das verteilte Dateisystem sowie das Ressourcenmanagement-Framework eine Fehlertoleranz sichergestellt.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h3>HDFS \u2013 Hadoop Distributed File System<\/h3>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>HDFS ist ein verteiltes Dateisystem, das eine zuverl\u00e4ssige und skalierbare Speicherung von Big Data erm\u00f6glicht. Es unterteilt gro\u00dfe Dateien in Bl\u00f6cke und verteilt sie \u00fcber einen Cluster aus Standardhardware. HDFS gew\u00e4hrleistet die Zuverl\u00e4ssigkeit und Verf\u00fcgbarkeit von Daten durch Datenreplikation.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h3>Yet Another Resource Negotiator \u2013 YARN<\/h3>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>YARN bietet ein flexibles und skalierbares Ressourcenmanagement-Framework f\u00fcr Hadoop, das es verschiedenen Anwendungen und Workloads erm\u00f6glicht, gleichzeitig zu existieren und die Ressourcen des Clusters effizient zu nutzen. Es abstrahiert die zugrunde liegende Infrastruktur und erlaubt eine dynamische Ressourcenverteilung basierend auf den Anforderungen der Anwendungen.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h3>MapReduce - MR<\/h3>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>MapReduce ist ein Programmiermodell und Verarbeitungs-Framework f\u00fcr die verteilte Datenverarbeitung in Hadoop. Es erm\u00f6glicht die parallele Verarbeitung gro\u00dfer Datens\u00e4tze, indem die Arbeitslast in Map- und Reduce-Aufgaben aufgeteilt wird. Die Map-Aufgaben verarbeiten die Daten parallel, und die Ergebnisse werden zusammengef\u00fchrt und reduziert, um das Endergebnis zu erzeugen.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h3>Hadoop Common<\/h3>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>Hadoop Common stellt Bibliotheken, Hilfsprogramme und Infrastrukturunterst\u00fctzung f\u00fcr die anderen Komponenten von Hadoop bereit. Es umfasst allgemeine Dienstprogramme, Authentifizierungsmechanismen und Schnittstellen, die von verschiedenen Hadoop-Modulen verwendet werden.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h3>Was ist der Nutzen?<\/h3>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p><strong>Skalierbarkeit<\/strong><br \/>\nHadoop erm\u00f6glicht die Speicherung und Verarbeitung riesiger Datenmengen durch horizontale Skalierung \u00fcber einen Cluster von Standardhardware. Es kann Petabytes an Daten ohne Leistungseinbu\u00dfen verarbeiten.<\/p>\n<p><strong>Verteiltes Rechnen<\/strong><br \/>\nHadoop verteilt Daten und Verarbeitungsschritte \u00fcber mehrere Knoten in einem Cluster, was parallele Verarbeitung und schnellere Datenanalyse erm\u00f6glicht. Dieses Modell des verteilten Rechnens sorgt f\u00fcr eine effiziente Ressourcennutzung und erm\u00f6glicht leistungsstarke Datenverarbeitung.<\/p>\n<p><strong>Fehlertoleranz<\/strong><br \/>\nHadoop gew\u00e4hrleistet Fehlertoleranz durch die Replikation von Daten auf mehrere Knoten im Cluster. Falls ein Knoten ausf\u00e4llt, kann auf die Daten weiterhin von anderen Replikaten zugegriffen werden, wodurch Datenzuverl\u00e4ssigkeit und Verf\u00fcgbarkeit sichergestellt sind.<\/p>\n<p><strong>Kosteneffizienz<\/strong><br \/>\nHadoop ist so konzipiert, dass es auf g\u00fcnstiger handels\u00fcblicher Hardware l\u00e4uft, wodurch es eine kosteneffektive L\u00f6sung f\u00fcr die Speicherung und Verarbeitung gro\u00dfer Datenmengen darstellt. Es entf\u00e4llt die Notwendigkeit f\u00fcr teure Spezialhardware.<\/p>\n<p><strong>Flexibilit\u00e4t und Erweiterbarkeit<\/strong><br \/>\nDie modulare Architektur von Hadoop erm\u00f6glicht die Integration mit verschiedenen Tools und Frameworks innerhalb des Hadoop-\u00d6kosystems und bietet so Flexibilit\u00e4t und Erweiterbarkeit. Es unterst\u00fctzt eine Vielzahl von Datenverarbeitungsaufgaben, darunter Batch-Verarbeitung, Echtzeitverarbeitung, maschinelles Lernen und mehr.<\/p>\n<p><strong>Datenlokalit\u00e4t<\/strong><br \/>\nDas verteilte Dateisystem von Hadoop, HDFS, verfolgt das Ziel, die Berechnung n\u00e4her an die Daten zu bringen. Durch die Verarbeitung der Daten direkt dort, wo sie gespeichert sind, minimiert Hadoop die Datenbewegung im Netzwerk, reduziert die Latenz und verbessert die Gesamtleistung.<\/p>\n<p><strong>\u00d6kosystem und Community<\/strong><br \/>\nHadoop verf\u00fcgt \u00fcber ein umfangreiches \u00d6kosystem mit einer Vielzahl von Tools, Bibliotheken und Frameworks, die seine Funktionalit\u00e4t f\u00fcr verschiedene Anwendungsf\u00e4lle erweitern. Au\u00dferdem gibt es eine gro\u00dfe und aktive Community von Nutzern, Entwicklern und Mitwirkenden, die Unterst\u00fctzung, Ressourcen und kontinuierliche Weiterentwicklung bieten.<\/p>\n<p>Diese Vorteile machen Hadoop zu einer leistungsstarken und beliebten L\u00f6sung f\u00fcr die Verarbeitung von Big Data. Es erm\u00f6glicht Unternehmen, gro\u00dfe Mengen strukturierter und unstrukturierter Daten effizient zu speichern, zu verarbeiten und daraus Erkenntnisse zu gewinnen. Das gesamte \u00d6kosystem kann auch On-Premise betrieben werden, was es zu einer guten Alternative macht, wenn die Cloud keine Option ist.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>HIVE<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>Hive ist eine Data-Warehouse-Infrastruktur, die auf Hadoop aufbaut und eine SQL-\u00e4hnliche Abfragesprache namens HiveQL bereitstellt, um gro\u00dfe Datens\u00e4tze abzufragen und zu analysieren.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h3>Was sind die Komponenten?<\/h3>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p><strong>Datenspeicherung<\/strong><br \/>\nHive nutzt das Hadoop Distributed File System (HDFS) als zugrunde liegendes Speichersystem. Es speichert Daten in HDFS auf verteilte und fehlertolerante Weise und erm\u00f6glicht so eine skalierbare und zuverl\u00e4ssige Datenspeicherung.<\/p>\n<p><strong>Schemadefinition<\/strong><br \/>\nHive erm\u00f6glicht es Benutzern, ein Schema f\u00fcr ihre Daten mithilfe einer Sprache namens Hive Data Definition Language (\u00e4hnlich wie DDL) zu definieren. Dadurch k\u00f6nnen Tabellen, Partitionen, Spalten, Datentypen und andere Metadaten, die mit den Daten verkn\u00fcpft sind, festgelegt werden.<\/p>\n<p><strong>Abfrageoptimierung<\/strong><br \/>\nHive optimiert Abfragen durch Einsatz von Abfrageplanung und Optimierungstechniken. Ziel ist es, effiziente Ausf\u00fchrungspl\u00e4ne zu erstellen, um Datenbewegungen zu minimieren, die Ressourcennutzung zu optimieren und die Abfrageleistung zu verbessern.<\/p>\n<p><strong>Hive Metastore<\/strong><br \/>\nHive verwaltet ein Metadaten-Repository namens Hive Metastore. Es speichert Informationen \u00fcber Tabellen, Partitionen, Schemata und andere Metadaten, die mit den in HDFS gespeicherten Daten verkn\u00fcpft sind. Der Metastore erm\u00f6glicht ein effizientes Management und Abrufen von Metadaten w\u00e4hrend der Abfrageverarbeitung.<\/p>\n<p><strong>Erweiterbarkeit<\/strong><br \/>\nHive bietet Erweiterbarkeit durch benutzerdefinierte Funktionen (UDFs), benutzerdefinierte Aggregationen (UDAs) und benutzerdefinierte Tabellenfunktionen (UDTFs). Diese erm\u00f6glichen es Benutzern, benutzerdefinierte Logik und Operationen in Programmiersprachen wie Java, Python oder anderen unterst\u00fctzten Sprachen zu definieren.<\/p>\n<p><strong>Integration mit anderen Tools<\/strong><br \/>\nHive l\u00e4sst sich mit verschiedenen anderen Tools und Frameworks im Hadoop-\u00d6kosystem integrieren. Es kann beispielsweise mit Apache Spark, Apache Pig, Apache HBase und weiteren Komponenten zusammenarbeiten, um eine umfassende L\u00f6sung f\u00fcr Datenverarbeitung und -analyse bereitzustellen.<\/p>\n<p><strong>Partitionierung und Bucketing<\/strong><br \/>\nHive unterst\u00fctzt die Partitionierung und das Bucketing von Daten, wodurch Benutzer ihre Daten strukturiert organisieren und speichern k\u00f6nnen. Bei der Partitionierung wird die Datenmenge anhand bestimmter Kriterien in logische Partitionen unterteilt, w\u00e4hrend beim Bucketing die Daten anhand von Hash-Werten in gleich gro\u00dfe Buckets aufgeteilt werden.<\/p>\n<p><strong>SerDe<\/strong><br \/>\nHive verwendet ein Serialisierungs-\/Deserialisierungs-Framework namens SerDe (Serializer\/Deserializer), um Daten in verschiedenen Formaten wie CSV, JSON, Avro und anderen zu lesen und zu schreiben. Benutzer k\u00f6nnen das passende SerDe f\u00fcr ihr Datenformat angeben, um eine korrekte Datenverarbeitung sicherzustellen.<\/p>\n<p>Insgesamt vereinfacht Hive das Abfragen und Analysieren von Daten auf Hadoop, indem es eine vertraute, SQL-\u00e4hnliche Schnittstelle bereitstellt. Es abstrahiert die Komplexit\u00e4t der Erstellung von Low-Level-MapReduce- oder Tez-Jobs und bietet einen deklarativen und benutzerfreundlichen Ansatz f\u00fcr den Umgang mit gro\u00dfen Datenmengen in Hadoop.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n<div class=\"divider-wrap\" data-alignment=\"default\"><div style=\"height: 25px;\" class=\"divider\"><\/div><\/div>\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<h2>Fazit<\/h2>\n\t<\/div>\n<\/div>\n\n\n\n\n<div class=\"wpb_text_column wpb_content_element\" >\n\t<div class=\"wpb_wrapper\">\n\t\t<p>Hadoop ist eine leistungsstarke und funktionsreiche Umgebung, deren Verwaltung jedoch herausfordernd sein kann. Dennoch machen die zahlreichen Vorteile Hadoop zu einer \u00fcberzeugenden Wahl, abh\u00e4ngig von den Bed\u00fcrfnissen der Nutzer und der vorhandenen Expertise im Haus. Wenn Sie mehr dar\u00fcber erfahren m\u00f6chten, sehen Sie sich die folgende <a href=\"https:\/\/us02web.zoom.us\/webinar\/register\/WN_xffw0rS4TTGdTfIaQfcvTQ?#\/registration\" target=\"_blank\" rel=\"noopener\">Aufzeichnung an<\/a>.<\/p>\n\t<\/div>\n<\/div>\n\n\n\n\n\t\t\t<\/div> \n\t\t<\/div>\n\t<\/div> \n<\/div><\/div>","protected":false},"excerpt":{"rendered":"Hadoop und Hive\/Spark in Data Vault 2.0 In diesem Artikel erhalten Sie einen \u00dcberblick dar\u00fcber, was Hadoop und Hive sind und warum sie als Alternative zu...","protected":false},"author":91,"featured_media":31683,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[243,1666],"tags":[],"class_list":{"0":"post-32790","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-tools","8":"category-intermediate"},"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/posts\/32790","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/users\/91"}],"replies":[{"embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/comments?post=32790"}],"version-history":[{"count":0,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/posts\/32790\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/media\/31683"}],"wp:attachment":[{"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/media?parent=32790"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/categories?post=32790"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.scalefree.com\/de\/wp-json\/wp\/v2\/tags?post=32790"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}