Data Engineering mit Apache Spark (Offene Schulung)

Offene Schulungen

Übersicht Data Engineering mit Spark Data Science mit PySpark FAQ Online Trainings

Nächste Termine

15.12.2020 – 16.12.2020, online, jeweils von 9:00 Uhr bis 16:30. Anmeldeschluss ist der 1.12.2020.

Zielgruppe

Dieser Kurs richtet sich an Software-Entwickle, die mit Apache Spark arbeiten werden. Hierzu gehören unter anderem ETL Entwickler, Data Engineers als auch Data Scientists. Der Schwerpunkt dieser Schulung liegt klar auf „Data Engineering“, d.h. die Aufbereitung von Daten zur weiteren Verwendung.

Mit den präsentierten Inhalten bzgl Technologien und APIs eignet sich der Kurs hervorragend als Vorbereitung für erste Praxisaufgaben im Berufsalltag eines Big Data Engineers.

Beschreibung

Anhand vieler praktischer Übungen wird eine tief gehende Einführung in Data Engineering mit Apache Spark gegeben. Die Schulung verwendet hierfür ausschließlich die modernen und mittlerweile stark etablierte DataFrame API von Apache Spark.

Als Programmiersprache kommt Scala zum Einsatz. Obgleich mit der Python-Anbindung (PySpark) eine einfachere Programmiersprache zur Verfügung stünde, zeigt die Erfahrung, dass gerade im Data Engineering Umfeld die Verwendung von Scala als native Programmiersprache von Apache Spark von großem Vorteil ist. Das Haupteinsatzgebiet von PySpark sollte Data Science sein, in dem die Python Anbindung eine natürliche Integration in das gesamte Machien Learning Ökosystem von Python bietet.

Um den Einstieg auch für Entwickler ohne Scala Kenntnisse nicht unnötig zu erschweren beinhaltet der Kurs am Anfang einen kleinen Scala Crash-Kurs, der auf die allerwichtigsten Aspekte von Scala eingeht. Diese reichen auch schon aus, um einfache Spark Programme zu implementieren.

Für die Durchführung des Kurses werden den Teilnehmern jeweils separate Schulungscluster in der Cloud zur Verfügung gestellt. Damit ist sichergestellt, dass alle Teilnehmer die gleiche technische Umgebung haben und sich nicht gegenseitig in die Quere kommen.

Agenda

Die Schulung erstreckt sich über zwei Tage. Obgleich praktische Beispiele und Übungen im Mittelpunkt stehen, werden immer wieder theoretische und konzeptionelle Themen eingestreut, so dass die Teilnehmer auch ein besseres Verständnis für das gesamte Ökosystem entwickeln können.

Theoretischer Teil

Einführung in das Hadoop Ökosystem (HDFS, YARN, Hive, …)
Spark Cluster Architektur und Integration in Hadoop

Praktischer Teil

Schnelleinstieg in Scala
Spark DataFrame API
Daten lesen und schreiben
Daten transformieren und filtern
Aggregationen und Joins
User Defined Functions

Darüber hinaus werden immer wieder die aus praktischer Erfahrung stammenden Ratschläge für Best Practices erwähnt. Die in dem Kurs durchgeführten Übungen verwenden zum Teil größere Datenmengen aus realen öffentlich verfügbaren Datenquellen. Hierdurch lernen die Teilnehmer auch die typischen Schwierigkeiten bei der Arbeit mit realen Datensätzen kennen.

Benötigte Kenntnisse

Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen. Die Programmierbeispiele für Apache Spark werden wahlweise in Python oder in Scala umgesetzt.

Optional kann auch eine Einführung in Scala durchgeführt werden, aus der Erfahrung sollte hierfür allerdings ein ganzer Tag reserviert werden. Alternativ zeigt die Erfahrung zeigt, dass sich Teilnehmer mit Kenntnissen in anderen Programmiersprachen schnell in Python zurechtfinden. Gerne beraten wir Sie zur Wahl der Programmiersprache in Hinblick auf den geplanten Einsatzbereich von Apache Spark.

Technische Voraussetzungen

Die Teilnehmer benötigen zur Teilnahme einen eigenen Rechner, auf dem ein aktueller Browser (Chrome, Firefox, Edge) zur Teilnahme an der Video-Schulung installiert ist. Entsprechend sollten die Teilnehmer auch über Mikrofon und Kopfhörer oder Lautsprecher verfügen. Eine Kamera für die Teilnehmer ist optional und freiwillig.

Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jeder Teilnehmer ein eigenes kleines Cluster innerhalb der Amazon Cloud, der Zugriff erfolgt über SSH und den Web-Browser. Damit wird neben einem Web-Browser auch keine weitere Software auf den Computern der Teilnehmer benötigt.

Veranstaltungsort und Sprache

Der Kurs wird komplett online durchgeführt. Die verwendete Plattform benötigt lediglich einen aktuellen Browser (Chrome, Firefox, Edge)

Ablauf und Durchführung

Der Kurs wird an zwei aufeinanderfolgenden Tagen komplett online durchgeführt. Nach erfolgreicher Buchung erhalten Sie zunächst eine Buchungsbestätigung. Einige Tage vor dem Start des virtuellen Workshops erhalten Sie die Zugangsdaten zu der verwendeten Online Lernplattform.

Das Training findet an den Tagen von 9:00 bis 16:30 statt. Nach ca jeder Stunde wird eine Pause von 10 Minuten eingelegt und natürlich Mittags eine längere Essens- und Erholungspause.

Über den Kursleiter

Der Kurs wird komplett von Dr. Kaya Kupferschmidt durchgeführt.

Der Trainer ist promovierter Mathematiker und verfügt über langjährige praktische Erfahrung in Datenprojekten, speziell in den Bereichen Big Data, Data Engineering und Data Science. Seine bevorzugten Technologien sind Apache Spark, Hadoop, SciKit Learn, Tensorflow, Python und Scala. Anhand der jeweiligen Rahmenbedingungen und Aufgaben kommen Technologien meist aus eben diesem Portfolio zum Einsatz.

Herr Kupferschmidt hat in der Vergangenheit für viele namhafte Unternehmen sowohl Präsenz- als auch Online-Schulungen erfolgreich durchgeführt.

Buchung

Hier können Sie verbindlich die Teilnahme an der Schulung buchen.

Die Schulung kostet pro Person 1.190 EUR zzgl 19% UmSt, also 1.416,10 EUR inklusive 19% UmSt.
Den gewünschten Schulungszeitraum wählen Sie bitte unten während der Buchung aus.

Ihr Vorname*

Geben Sie Ihre Vornamen ein

Ihr Nachname*

Geben Sie Ihren Nachnamen ein

Firma (optional)

Geben Sie den Firmennamen ein

Adresse*

Geben Sie Ihre Adresse ein

Adresse, zweite Zeile (optional)

Geben Sie weitere Adressdaten ein

PLZ*

Geben Sie die Postleitzahl ein

Stadt*

Geben Sie die Stadt ein

Ihre Email-Adresse*

Geben Sie Ihre E-Mail Adresse ein

Gewünschte Schulung*

Wählen Sie den gewünschten Termin aus

Sobald Sie die Schulung gebucht haben, werden wir Ihre Angaben überprüfen und Ihnen eine vorläufige Buchungsbestätigung versenden. Wir bitten um Verständnis, dass wir die Schulung erst nach Anmeldung von mindestens 3 Teilnehmern durchführen – wir werden Sie spätestens zwei Wochen vor dem Schulungstermin informieren, ob die Schulung wie geplant stattfinden wird. Sie erhalten dann einen Zusage-Link um Ihre Anmeldung verbindlich zu bestätigen.

Um die Schulungsqualität zu garantieren, ist die Anzahl der Teilnehmer auf 6 beschränkt.

Data Engineering mit Apache Spark