Swen Deobald
 - 9. September 2019

Hadoop

Sie brauchen einen Berater f├╝r Hadoop und/oder m├Âchten, dass wir Ihnen unser Angebot in diesem Umfeld vorstellen?

Jetzt kostenloses Beratungsgespr├Ąch vereinbaren!

Hadoop ist f├╝r die Verarbeitung von gro├čen Datenmengen auf verteilten Systemen konzipiert. Zu den St├Ąrken der Software geh├Ârt die hohe Geschwindigkeit, mit der sich die Datenverarbeitung im Bereich Big Data vornehmen l├Ąsst. Die Software wird von der Apache Software Foundation entwickelt und basiert auf Java. Hadoop ist heute auch aufgrund seiner Einfachheit eines der meistgenutzten Software-Frameworks f├╝r die Verarbeitung gro├čer Datenmengen.

Einsatzzweck

Apache Hadoop kommt ├╝berall dort zum Einsatz, wo der Umgang mit Big Data erforderlich ist. Das ist zum Beispiel bei mittleren bis gro├čen Unternehmen der Fall. Ein Einsatz der Software ist sinnvoll, wenn Daten in unstrukturierter oder halbstrukturierter Form vorliegen und f├╝r Anfragen und Analysen nutzbar gemacht werden sollen. Weitere Einsatzbereiche ergeben sich dort, wo die flexible Entwicklung von Funktionen f├╝r die Datenanalyse durch die eigenen Programmierer gew├╝nscht ist.

Features

Eines der wichtigsten Merkmale ist die Open-Source-Lizenz. Es handelt es sich um eine frei verf├╝gbare Software, die Unternehmen nach ihren eigenen Bed├╝rfnissen jederzeit anpassen k├Ânnen. Damit lassen sich die Analysetools f├╝r die Datenverarbeitung ma├čschneidern. Dank der Verwendung des Dateisystems HDFS ist eine Verteilung der Daten auf mehrere Rechner im Cluster m├Âglich. Weiterhin bietet Hadoop eine hohe Fehlertoleranz, die durch Redundanz erreicht wird. Jeder Block wird dabei standardm├Ą├čig dreimal im Cluster abgelegt. Der Ausfall eines einzelnen Knotens spielt beim Zugriff auf die Daten daher keine Rolle. Hadoop bietet eine hohe Verf├╝gbarkeit und Skalierbarkeit und l├Ąsst sich damit in anspruchsvollen und sensiblen Umgebungen einsetzen. Zudem setzt Hadoop auf das Prinzip der Datenlokalit├Ąt. Darunter ist zu verstehen, dass Verarbeitungsprozesse wie etwa ein MapReduce-Algorithmus zu den Daten gebracht wird statt die Daten zum Algorithmus. Der Programmcode wird also direkt auf den Servern des Hadoop-Clusters ausgef├╝hrt statt auf den Client-Servern. Damit lassen sich zeitintensive Daten├╝bertragungen im Netzwerk vermeiden, was gerade im Umgang mit Big Data vorteilhaft ist.

Hadoop

Architektur

Hadoop dient in den Unternehmen als ├ľkosystem f├╝r das Zusammenspiel mit einer Vielzahl von Erweiterungen. F├╝r die Bereitstellung dieses ├ľkosystems dienen in der Praxis vor allem die beiden Architekturen Lambda und Kappa. Bei beiden handelt es sich um Echtzeit-Big-Data-Architekturen, die f├╝r die Verarbeitung von gro├čen Datenmengen ausgerichtet sind. Die Architektur ist so ausgelegt, dass eine Anwendung bei kontinuierlichem und uneingeschr├Ąnktem Datenfluss m├Âglich ist. Die Architekturen k├Ânnen mit Unstimmigkeiten im Datenstrom umgehen, sind erweiterbar und bieten eine hohe Skalierbarkeit und Fehlertoleranz. Antworten erh├Ąlt der Nutzer auf Grundlage einer aktuellen Momentaufnahme der Daten in der Datenbank oder mit einer gewissen Latenz und damit in Echtzeit.

Lambda-Architektur

Die Lambda-Architektur besitzt verschiedene Layer wie zum Beispiel den Batch-Layer f├╝r die Verarbeitung der Daten in l├Ąngerdauernden Batchprozessen. Das wird zum Beispiel von Hadoop MapReduce ├╝bernommen. Echtzeit-Anfragen werden vom Speed-Layer verarbeitet. Dieser ist n├╝tzlich f├╝r hohe Datenstr├Âme, wie sie zum Beispiel in der Industrie 4.0 oder im Internet of Things anfallen. Auch soziale Netzwerke oder Machine-Learning-Algorithmen greifen auf den schnellen Speed-Layer zur├╝ck. Hinzu kommt ein Serving-Layer, der dem Benutzer die Ergebnisse aus dem Batch-Layer und dem Speed-Layer zur Verf├╝gung stellt. Die Kappa-Architektur unterscheidet sich dadurch, dass hier auf einen Batch-Layer vollkommen verzichtet wird. Hier werden nur Live-Events betrachtet.

Verwaltung mit HBase

In der Praxis erfolgt der Einsatz von Hadoop fast immer gemeinsam mit verschiedenen Erweiterungen. Diese sind bei Hadoop besonders vielf├Ąltig. Dazu geh├Ârt zum Beispiel die Erweiterung HBase. Mit HBase lassen sich gro├če Datenmengen in einem Hadoop-Cluster einfach verwalten. Zudem f├Ąllt die Skalierbarkeit hoch aus. F├╝r die Umsetzung dieser Erweiterung wird eine freie Implementierung von Google BigTable verwendet. Der Einsatz in der Praxis erfolgt vor allem in solchen Szenarien, in denen die Datenbest├Ąnde zwar selten ge├Ąndert, aber h├Ąufig erweitert werden. N├╝tzlich ist HBase immer dann, wenn kleine Datenmengen aus gro├čen Datenbest├Ąnden verarbeitet werden sollen.

Funktionsweise

Als Dateisystem mit hoher Verf├╝gbarkeit setzt Hadoop auf das Hadoop Distributed File System (HDFS). Dieses Dateisystem ist zugeschnitten auf gro├če Datenmengen. Die Speicherung der Daten erfolgt verteilt auf mehreren Rechnern oder Knoten. Die Knoten lassen sich dabei in Masterknoten und Slaveknoten unterscheiden. Der Masterknoten ist f├╝r die Bearbeitung von eingehenden Anfragen zust├Ąndig und k├╝mmert sich um die Zuteilung der zu speichernden Daten an die Slaveknoten. Auch die Metadaten werden im Masterknoten gespeichert. In den Slaveknoten erfolgt dann die eigentliche Datenablage. Das Dateisystem arbeitet so effizient, dass eine Unterst├╝tzung von mehreren hundert Millionen Dateien m├Âglich ist. Der Anwender hat dabei die Kontrolle ├╝ber die L├Ąnge der Dateibl├Âcke und den Redundanzgrad beim Ablegen der Daten auf den verschiedenen Knoten.

Hadoop setzt vor allem bei gro├čen Dateien auf HDFS. F├╝r die Verwaltung kleinerer Dateien kommt stattdessen Hadoop Archives (HAR) zum Einsatz. Bei Bedarf ist es m├Âglich, HDFS durch andere Dateisysteme zu ersetzen. Dabei kommen zum Beispiel Azure Blockstorage oder MapRFS infrage.

SAP BW/4HANA [E-Book]

Sie m├Âchten datengetriebene Entscheidungen treffen? Zukunftssichere Analysen fahren? Jetzt unser BW-E-Book lesen!

Integration

Die verschiedenen f├╝r die Berechnungen erforderlichen Knoten befinden sich in einem sogenannten Cluster. Der Anwender entscheidet selbst, wo er diesen Cluster einrichten m├Âchte. Der Betrieb von Hadoop erfolgt entweder auf lokaler Hardware oder in der Cloud. Richtet das Unternehmen den Cluster auf eigener Hardware ein, muss eine IT-Infrastruktur f├╝r den Betrieb und die Wartung bereitgestellt werden. Hier stellt sich die Frage nach der Ausfallsicherheit und den Kosten.

Cluster oder Cloud?

In der Regel wird Hadoop heute in der Cloud betrieben. Ein vollwertiger Cluster l├Ąsst sich zum Beispiel mit HDInsight in der Cloud einrichten. Hierbei handelt es sich um einen Dienst innerhalb der Microsoft-Cloud Azur. Aus Sicht der Unternehmen ergibt sich bei der Cloud-L├Âsung immer der Vorteil einer einfacheren Verwaltung und Konfiguration. Das Aufspielen neuer Versionen, die Wartung und die Herstellung der Ausfallsicherheit ├╝bernimmt der externe Dienstleister, der die Cloud zur Verf├╝gung stellt. F├╝r die Unternehmen ergibt sich der Vorteil, dass sie einen lokal betriebenen Cluster jederzeit in die Cloud migrieren k├Ânnen. Ein Einstieg mit einer kleinen Cluster-Konfiguration mit einfacherer Integration ist also lokal m├Âglich. Bei h├Âherem Ressourcenbedarf kann der Weg in die Cloud zu einem sp├Ąteren Zeitpunkt noch immer beschritten werden.

Vor- und Nachteile

Zu den Vorteilen von Hadoop geh├Ârt die Bereitstellung unter der Apache-Lizenz. Der Erwerb zus├Ątzlicher Lizenzen ist nicht erforderlich. Das bedeutet, dass die Software ohne Kosten eingesetzt werden kann. Es fallen wie ├╝blich nur laufende Kosten f├╝r den Betrieb der Hardware wie etwa der Server an. Sinnvoll ist der Einsatz gemeinsam mit Linux als zugrundeliegendem Betriebssystem. Die meisten Linux-Distributionen sind ebenfalls kostenlos verf├╝gbar. Unternehmen zahlen jedoch dann, wenn sie den Support nutzen m├Âchten oder f├╝r Hadoop zus├Ątzliche Dienste ben├Âtigen.

Besonderheiten

Zu den Besonderheiten von Hadoop geh├Ârt die Unterst├╝tzung von transparenten Dateiformaten. Je nach Anwendung k├Ânnen andere Dateiformate verwendet werden. Dabei kann es sich um strukturierte oder unstrukturierte Formate handeln. Textformate unterst├╝tzt Hadoop ebenfalls. Dazu geh├Âren zum Beispiel die beiden weit verbreiteten Formate CSV oder JSON. Auch hochoptimierte tabulare Formate wie Parquet oder schemenbasierte Dateien wie Apache Avro unterst├╝tzt Hadoop. Daf├╝r stehen viele Plugins f├╝r die Unterst├╝tzung weiterer Dateiformate zur Verf├╝gung. Und es ist relativ einfach m├Âglich, eigene Dateiformate f├╝r Hadoop zu entwickeln und diese exakt auf die Bed├╝rfnisse der einzelnen Mitarbeiter und Nutzergruppen zuzuschneiden.

Fazit

Apache Hadoop bietet viele fortschrittliche Funktionen f├╝r den Umgang mit Big Data. Zu den St├Ąrken geh├Ârt die Auslieferung in Form einer flexiblen Lizenz, wie sie bei Apache auch bei dem Betriebssystem Linux bekannt ist. Unternehmen k├Ânnen mit dem Einsatz von Hadoop beginnen, ohne gleich finanzielle Risiken eingehen zu m├╝ssen. Dank der vielf├Ąltigen Erweiterungen ist Hadoop in hohem Ma├če ausbauf├Ąhig. Der Einsatz erscheint auch deshalb als sinnvoll, weil bereits viele Unternehmen auf Hadoop setzen und viele Entwickler mit dem Programmieren f├╝r Hadoop vertraut sind. Interessant ist Hadoop f├╝r alle Unternehmen, die sich ohnehin schon intensiv in einem Java-Umfeld bewegen.

Swen Deobald

Swen Deobald

Mein Name ist Swen Deobald und ich bin begeisterter SAP Analytics Berater. Als Fachbereichsleiter von Compamind unterst├╝tze ich Sie mit meinem Team bei allen Fragen rund um SAP Analytics, Business Warehouse, BusinessObjects und der SAP Analytics Cloud.

Sie haben Fragen? Kontaktieren Sie mich!


Das k├Ânnte Sie auch interessieren:

SAP Analytics

Das k├Ânnte Sie auch interessieren

Mit dem Analytics Hub von SAP k├Ânnen Anwender in den Unternehmen noch einfacher auf die Analytics-L├Âsungen in ihrer SAP Cloud zugreifen. SAP Cloud und Hub arbeiten also Hand in Hand. Damit soll es noch einfacher sein, anhand des gespeicherten Contents […]

weiterlesen

In unserer digitalen Welt ist die effektive Datenverarbeitung in Echtzeit einer der wichtigsten Schl├╝ssel zum Erfolg. Dabei entstehen in jedem Unternehmen tagt├Ąglich neue Informationen, die ad├Ąquat gesammelt, verwaltet, weiterverarbeitet und gewartet werden m├╝ssen.

weiterlesen

Viele Unternehmen w├╝nschen sich ein ausgefeiltes BI Tool wie Microsoft Power BI um bessere, datengest├╝tzte Entscheidungen treffen zu k├Ânnen.

weiterlesen

Unsere Produkte zu Hadoop

Ihre Mitarbeiter investieren die meiste Zeit in den Support anstatt in profitable Projekte? Wir ├╝bernehmen diese Aufgabe – erwartungskonform und in gleicher Qualit├Ąt!

Mehr Informationen

BW-Datenfl├╝sse erstellen ist aufwendig und nicht in Ihr Tagesgesch├Ąft zu integrieren? Mit unserem standardisierten Vorgehen zur Konzeption k├Ânnen Sie sich weiter den wichtigen Aufgaben im Unternehmen widmen!

Mehr Informationen

Ihr Reporting besteht noch aus Exceltabellen? F├╝r ein professionelles Frontend-Tool fehlt das Knowhow? Mit unserem Einf├╝hrungsleitfaden f├╝r SAP BO schlie├čen wir diese L├╝cke!

Mehr Informationen

Schreiben Sie einen Kommentar

Bitte f├╝llen Sie alle mit * gekennzeichneten Felder aus. Ihre E-Mail Adresse wird nicht ver├Âffentlicht.





Angebot anfordern
Expert Session
Preisliste anfordern