Hadoop Jumpstart

Aller Einstieg ist schwer – dies gilt ganz besonders für den Bereich Hadoop, da die Vielzahl an verfügbaren Werkzeugen gerade am Anfang schnell für Orientierungslosigkeit sorgen kann.

Um Ihnen diese Phase zu ersparen, bietet dimajix im Rahmen eines „Jump Start“ Projektes einen direkten Einstieg an. Hierfür wird direkt in Ihrem Unternehmen eine kleine Hadoop-Installation aufgesetzt (evtl auch einfach als virtuelle Maschine), mit der Ihre Mitarbeiter die ersten praktischen Erfahrungen sammeln könnben. Dies kann direkt mit den Daten aus Ihrem Unternehmen geschehen, so dass auch sofort Ihre Fragestellungen in das Zentrum des Workshops rücken.

Mit diesem Jump-Start Paket erhalten Sie somit sowohl eine Einführung in die neuesten Technologien, als auch gleichzeitig die Möglichkeit innerhalb eines überschaubaren Zeitrahmens den Nutzen von Hadoop für Ihr Unternehmen einschätzen zu können. Damit erhalten Sie die Chance ohne großes Risiko einen ersten Praxisfall mit Unterstützung eines Experten genauer zu untersuchen.

1. Einführungsworkshop

Zuerst wird ein kleiner Workshop organisiert, in dem Sie einen Überblick über die grundsätzliche Architektur von Hadoop und den wichtigsten Werkzeugen erhalten. Zudem werden Ihre Fragestellungen und Anforderungen aufgenommen, so dass wir von dimajix ein besseres Verständnis für Ihre Ausgangssituation bekommen.

2. Bereitstellung der Infrastruktur

Zunächst wird in der Vorbereitungsphase ein kleines Hadoop-System aufgesetzt. Dies kann entweder auf mehreren physikalischen Rechnern geschehen, oder innerhalb einer virtuellen Maschine. Diese Umgebung wird dann als Arbeitsgrundlage für den praktischen Teil des Workshops dienen. Die Installation bleibt natürlich auch über das Ende der Schulung erhalten und kann auch in ein echtes Cluster migriert werden.

3. Workshop Grundlagen von Hadoop

Sobald die Infrastruktur steht, beginnen wir mit einem Workshop, bei dem Sie die ersten Schritte mit Hadoop machen. Anhand praktischer Übungen geht es dabei zunächst darum, ein grundsätzliches Verständnis für die Hadoop-Plattform zu entwickeln. Typischwerweise werden zunächst öffentlich verfügbare Daten als Studienobjekt zur Verfügung gestellt, um dann durch einen gemeinsamen Import auch mit Unternehmensdaten weiter zu arbeiten.

Wir werden in diesem Workshop die gängigen Werkzeuge wie HDFS, Pig, Hive, Impala und Sqoop verwenden.

4. Workshop Apache Spark

Im nächsten Schritt erfolgt eine Einführung in die Programmierung mit Apache Spark, welches ein sehr flexibles und mächtiges Werkzeug zur Datenanalyse darstellt. Ziel dieses Workshops ist ein solides Verständnis der Software-Entwicklung mit Hilfe von Apache Spark anhand typischer Aufgaben und Fragestellungen.

5. Workshop Data Mining mit Apache Spark

Im letzten Workshop geht es schließlich um die Datenanalyse mit Apache Spark, inbesondere mit den Machine Learning Verfahren aus SparkML. Um einen breiten Überblick der verschiedenen Methoden zu bieten, findet dieser Workshop typischerweise wieder mit öffentlich zugänglichen Datensätzen statt. Somit können die häufigsten Fragestellungen mit passenden Datensätzen direkt angegangen werden.

6. Workshop Analyse Ihrer Daten

In einem letzten Schritt gehen wir gemeinsam Ihre Fragestellungen zu Ihren Daten an. Dabei werden die im vorherigen Workshop erlernten Methoden direkt zur Anwendung gebracht.

Hadoop Jumpstart

1. Einführungsworkshop

2. Bereitstellung der Infrastruktur

3. Workshop Grundlagen von Hadoop

4. Workshop Apache Spark

5. Workshop Data Mining mit Apache Spark

6. Workshop Analyse Ihrer Daten

Kontakt

Unsere Dienstleistungen

Neueste Beiträge

Newsletter

Hadoop Jumpstart

1. Einführungsworkshop

2. Bereitstellung der Infrastruktur

3. Workshop Grundlagen von Hadoop

4. Workshop Apache Spark

5. Workshop Data Mining mit Apache Spark

6. Workshop Analyse Ihrer Daten

Kontakt

Unsere Dienstleistungen

Neueste Beiträge

Newsletter

Cookies