1. Einführungsworkshop
Zuerst wird ein kleiner Workshop organisiert, in dem Sie einen Überblick über die grundsätzliche Architektur von Hadoop und den wichtigsten Werkzeugen erhalten. Zudem werden Ihre Fragestellungen und Anforderungen aufgenommen, so dass wir von dimajix ein besseres Verständnis für Ihre Ausgangssituation bekommen.
2. Bereitstellung der Infrastruktur
Zunächst wird in der Vorbereitungsphase ein kleines Hadoop-System aufgesetzt. Dies kann entweder auf mehreren physikalischen Rechnern geschehen, oder innerhalb einer virtuellen Maschine. Diese Umgebung wird dann als Arbeitsgrundlage für den praktischen Teil des Workshops dienen. Die Installation bleibt natürlich auch über das Ende der Schulung erhalten und kann auch in ein echtes Cluster migriert werden.
3. Workshop Grundlagen von Hadoop
Sobald die Infrastruktur steht, beginnen wir mit einem Workshop, bei dem Sie die ersten Schritte mit Hadoop machen. Anhand praktischer Übungen geht es dabei zunächst darum, ein grundsätzliches Verständnis für die Hadoop-Plattform zu entwickeln. Typischwerweise werden zunächst öffentlich verfügbare Daten als Studienobjekt zur Verfügung gestellt, um dann durch einen gemeinsamen Import auch mit Unternehmensdaten weiter zu arbeiten.
Wir werden in diesem Workshop die gängigen Werkzeuge wie HDFS, Pig, Hive, Impala und Sqoop verwenden.
4. Workshop Apache Spark
Im nächsten Schritt erfolgt eine Einführung in die Programmierung mit Apache Spark, welches ein sehr flexibles und mächtiges Werkzeug zur Datenanalyse darstellt. Ziel dieses Workshops ist ein solides Verständnis der Software-Entwicklung mit Hilfe von Apache Spark anhand typischer Aufgaben und Fragestellungen.
5. Workshop Data Mining mit Apache Spark
Im letzten Workshop geht es schließlich um die Datenanalyse mit Apache Spark, inbesondere mit den Machine Learning Verfahren aus SparkML. Um einen breiten Überblick der verschiedenen Methoden zu bieten, findet dieser Workshop typischerweise wieder mit öffentlich zugänglichen Datensätzen statt. Somit können die häufigsten Fragestellungen mit passenden Datensätzen direkt angegangen werden.
6. Workshop Analyse Ihrer Daten
In einem letzten Schritt gehen wir gemeinsam Ihre Fragestellungen zu Ihren Daten an. Dabei werden die im vorherigen Workshop erlernten Methoden direkt zur Anwendung gebracht.