Anhand vieler praktischer Übungen wird eine tief gehende Einführung in Data Engineering mit Apache Spark gegeben. Die Schulung verwendet hierfür ausschließlich die modernen und mittlerweile stark etablierte DataFrame API von Apache Spark.
Als Programmiersprache kommt Scala zum Einsatz. Obgleich mit der Python-Anbindung (PySpark) eine einfachere Programmiersprache zur Verfügung stünde, zeigt die Erfahrung, dass gerade im Data Engineering Umfeld die Verwendung von Scala als native Programmiersprache von Apache Spark von großem Vorteil ist. Das Haupteinsatzgebiet von PySpark sollte Data Science sein, in dem die Python Anbindung eine natürliche Integration in das gesamte Machien Learning Ökosystem von Python bietet.
Um den Einstieg auch für Entwickler ohne Scala Kenntnisse nicht unnötig zu erschweren beinhaltet der Kurs am Anfang einen kleinen Scala Crash-Kurs, der auf die allerwichtigsten Aspekte von Scala eingeht. Diese reichen auch schon aus, um einfache Spark Programme zu implementieren.
Für die Durchführung des Kurses werden den Teilnehmern jeweils separate Schulungscluster in der Cloud zur Verfügung gestellt. Damit ist sichergestellt, dass alle Teilnehmer die gleiche technische Umgebung haben und sich nicht gegenseitig in die Quere kommen.