Big Data mit Hadoop

Die Datenverarbeitung im Bereich von Big Data stellt viele Unternehmen nicht selten vor große Schwierigkeiten. Um diesem Problem entgegenzuwirken greifen daher viele Organisationen auf Hilfsmittel wie softwarebasierte Frameworks zurück. Zu diesen gehört auch das mit Java verbundene Hadoop.

Was ist Hadoop?

Das auf Java basierte Software Framework Hadoop lässt sich am einfachsten als eine Art Rohbau vorstellen, der auf die verschiedensten Architekturen abgestimmt und durch die unterschiedlichsten Arbeiter, in diesem Fall die Hardware, betrieben werden kann.

Erfunden wurde das Framework dabei von Doug Cutting, der Hadoop bis 2008 zu einem der besten Projekte im Bereich der Apache Software Foundation entwickelte. Cutting entwickelte das Software Framework für ein besseres Management von verteilt arbeitenden sowie skalierbaren Systemen. Es baut dabei auf den MapReduce-Algorithmus von Google auf, wodurch sich mittels Hadoop große Datenmengen in detaillierten Rechenprozessen auf verteilten aber vernetzten Computern als ein Bündel zusammenfassen.

Hadoop ist aber nicht nur deshalb so beliebt, sondern auch, weil es als freier Quellcode kostenlos für jedermann von Apache zur Verfügung gestellt wird und zusätzlich in der gut bekannten Programmiersprache Java geschrieben ist.

Welche Rolle spielt Hadoop im Bereich von Big Data?

Hadoops Expertise große Datenmengen, egal welcher Art, im Bereich von Big Data nicht nur strukturiert, sondern auch schnell verarbeiten zu können, machen das Software Framework ein attraktives Hilfsmittel für viele Unternehmen. Insbesondere die Fähigkeit Daten aus verschiedenen Quellen mit unterschiedlichen Strukturen parallel bearbeitend in einem Bündel übersichtlich und greifbar darzustellen, stellt besonders für Organisationen aus der Business Intelligence Branche eine große Bereicherung dar.

Zusätzlich ist es mithilfe von Hadoop möglich auch möglich im Petabyte Bereich effizient komplexe Rechenaufgaben zu lösen und auf Basis dessen beispielsweise neue Unternehmensstrategien zu entwickeln, Basisinformationen für wichtige Entscheidungen zu sammeln oder das Berichtswesen einer Organisation erheblich zu vereinfachen.

Aufbau

Hadoop setzt sich aus mehreren Bausteinen zusammen, die im Einklang erst alle Grundfunktionen des Software Frameworks möglich machen.

Dies sind:

Hadoop besteht aus einzelnen Komponenten. Die vier zentralen Bausteine des Software-Frameworks sind:

Hadoop Common,
Hadoop Distributed File System (HDFS),
MapReduce-Algorithmus
Yet Another Resource Negotiator (YARN).

Hadoop Common ist dabei für die Grundfunktionen zuständig und dient damit auch als Basis für alle weiteren Tools, wie beispielsweise die Java-Archiv-Files. Verbunden mit den anderen Elementen wird Hadoop Common via Schnittstellen mit definierten Zugriffsrechten.

Um die einzelnen Datenstämme auf verschiedenen Systemen ablegen zu können wird das Hadoop Distributed File System genutzt. Laut Hersteller ist das HDFS dabei fähig eine Verwaltung von Daten in hundertfacher Millionen Höhe zu bewerkstelligen.

Angetrieben wird Hadoop von Googles MapReduce-Algorithmus. Dieser ermöglicht dem Software Framework komplexe Rechenaufgaben auf diverse Systeme zu verteilen, welche diese anschließend parallel verarbeiten. Dadurch kann die Geschwindigkeit der Datenverarbeitung enorm erhöht werden.

Ergänzt wird der MapReduce-Algorithmus dabei durch den Yet Another Resource Negotiator. Der YARN managt die einzelnen Betriebsmittel, indem er diese in den jeweiligen Clustern ihre Aufgaben zuweist.

Funktionsweise

Wie bereits erwähnt baut Hadoop maßgeblich auf dem MapReduce-Algorithmus von Google auf. Zusätzlich werden zentrale Aufgaben aber auch durch das Filesystem HDFS gesteuert, welches für die Verteilung der Daten auf die einzelnen Bündelkomponenten zuständig ist. Der MapReduce-Algorithmus von Google wiederum spaltet die Verarbeitung der Daten auf, sodass diese parallel auf allen Bündelkomponenten laufen können. Anschließend sorgt Hadoop für die Zusammenführung der Einzelresultate zu einem großen Gesamtergebnis.

Hadoop unterteilt die Datenmengen also selbstständig in einzelne Cluster. Jedes Cluster besitzt dabei einen einzigen Master (dargestellt durch einen Rechnerknoten) während die anderen Rechnerknoten jenem im Slave-Mode unterliegen. Die Slaves dienen dabei als Ablagestelle für Daten, während der Master für die Replikation zuständig ist und die Daten damit auf mehreren Knoten verfügbar macht. Durch seine Fähigkeit die Lokalität von einem Datenblock jederzeit exakt bestimmen zu können, schützt der Master Effizienz vor einem Datenverlust. Zudem übernimmt er die Rolle als Überwacher der einzelnen Knoten, der bei einer längeren Abstinenz eines Knotens automatisch auf dessen Datenblock zugreift und diesen neu repliziert und speichert.

Mehr zum Thema Daten und Big Data liefern zudem folgende Artikel:

Genderhinweis: Seit Anfang 2022 achte ich darauf, dass ich immer genderneutrale Formulierungen verwende. Vor 2022 habe ich zur leichteren Lesbarkeit die männliche Form verwendet. Sofern keine explizite Unterscheidung getroffen wird, sind daher stets sowohl Frauen, Diverse als auch Männer sowie Menschen jeder Herkunft und Nation gemeint. Lesen Sie mehr dazu.

Rechtschreibung: Ich führe diesem Blog neben dem Job und schreibe viele Artikel in Bahn/Flugzeug oder nach Feierabend. Ich möchte meine Gedanken und Ansätze als Empfehlungen gerne teilen. Es befinden sich oftmals Tippfehler in den Artikeln und ich bitte um Entschuldigung, dass ich nicht alle korrigieren kann. Aber Sie können mir helfen: Sollten Sie Fehler finden, schreiben Sie mich gerne an! Lesen Sie mehr dazu.

Helfen Sie meinem Blog, vernetzen Sie sich oder arbeiten Sie mit mir

Sie haben eigene, interessante Gedanken rund um die Themenwelt des Blogs und möchten diese in einem Gastartikel auf meinem Blog teilen? – Aber gerne! Sie können dadurch Kunden und Fachkräfte ansprechen.

Ich suche aktuell außerdem Werbepartner für Bannerwerbung für meinen Blog. Sollte es für Sie spannend sein Fachkräfte oder Kunden auf Ihre Seite zu leiten, dann bekommen Sie mehr Informationen hier.

Tipp: Ich vergebe auch über den Blog eine gratis Zertifizierung zum Digital & Agile Practioner!

Vernetzen Sie sich in jedem Fall auf Xing oder LinkedIn oder kontaktieren Sie mich direkt für einen Austausch, wenn Sie gleich mit mir ins Gespräch kommen wollen. Werfen Sie auch einen Blick in meine Buchvorschläge zur Digitalisierung, vielleicht wollen Sie mir auch ein Buch empfehlen?

Ich arbeite gerne mit Unternehmen zusammen. Sie können mich ebenfalls gerne bezüglich folgender Punkte anfragen:

Bildquelle: pixabay.com

Dr. Dominic Lindner

Ich blogge über den Einfluss der Digitalisierung auf unsere Arbeitswelt. Hierzu gebe ich Inhalte aus der Wissenschaft praxisnah wieder und zeige hilfreiche Tipps aus meinen Berufsalltag. Ich bin selbst Führungskraft in einem KMU und Ich habe berufsgeleitend an der Universität Erlangen-Nürnberg am Lehrstuhl für IT-Management meine Doktorarbeit geschrieben.