Zielgruppe

Dieser Kurs richtet sich an Software-Entwickle, die mit Spark arbeiten werden. Hierzu gehören unter anderem ETL Entwickler, Data Engineers als auch Data Scientists.

Agenda

Anhand vieler praktischer Übungen wird eine tiefgehende Einführung in Apache Spark gegeben. Für Gruppen, für die zudem das gesamte Thema Hadoop neu ist, kann außerdem an einem zusätzlichen Schulungstag vorneweg eine Einführung in die Hadoop Plattform gegeben werden.

Um der breite des gesamten Themenkomplexes gerecht zu werden, wird zwischen Grundlagenthemen und Vertiefungsthemen unterschieden. Diese können auch in zeitlich auseinander liegenden Terminen behandelt werden, um den Teilnehmern die nötige Zeit zum setzen-lassen zu geben.

Grundlagen

  • Einführung in das Hadoop Ökosystem (HDFS, YARN, Hive, …) (optional, ca 1 Tag)
  • Einführung in Scala und funktionale Programmierung (optional, ca 1 Tag)
  • Spark Cluster Architektur und Integration in Hadoop
  • Spark RDD API
  • Spark DataFrame API
  • Spark Dataset API

Vertiefungsthemen

  • Ausführunspläne und Optimierungen
  • Einführung in Apache Kafka
  • Spark Streaming (RDD und Structured Streaming)
  • Spark GraphX
  • Spark ML (Machine Learning)

Benötigte Kenntnisse

Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen. Die Programmierbeispiele für Apache Spark werden wahlweise in Python oder in Scala umgesetzt.

Optional kann auch eine Einführung in Scala durchgeführt werden, aus der Erfahrung sollte hierfür allerdings ein ganzer Tag reserviert werden. Alternativ zeigt die Erfahrung zeigt, dass sich Teilnehmer mit Kenntnissen in anderen Programmiersprachen schnell in Python zurechtfinden. Gerne beraten wir Sie zur Wahl der Programmiersprache in Hinblick auf den geplanten Einsatzbereich von Apache Spark.

Durchführung

Technische Voraussetzung

Da der Kurs sehr viele praktische Übungen beinhaltet, sollten die Teilnehmer über eigene Rechner verfügen. Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jeder Teilnehmer ein eigenes kleines Cluster innerhalb der Amazon Cloud, der Zugriff erfolgt über SSH und den Web-Browser. Damit wird neben einem Web-Browser auch keine weitere Software auf den Computern der Teilnehmer benötigt.

Veranstaltungsort und Sprache

Der Kurs ist als In-House Schulung bei Ihnen vor Ort angelegt und kann wahlweise in deutscher oder englischer Sprache durchgeführt werden.

Dauer und Kosten

Die Vielfalt der Themen erfordert eine Dauer von 2-5 Tagen angelegt, je nach gewünschtem Umfang und Tiefe. Um den gesamten Themenkomplex abzudecken kann die Schulung auch an mehreren Terminen mit unterschiedlichen Schwerpunkten durchgeführt werden.

Um die Schulungsqualität zu garantieren ist die Kursgröße auf 12 Teilnehmer begrenzt. Die Kosten belaufen sich auf 1.690 EUR netto pro Schulungstag zuzüglich Anreise- und Übernachtungskosten. Für die Bereitstellung und Nutzung der Amazon Infrastruktur können zusätzliche Kosten anfallen. Gerne erstellen wir Ihnen ein unverbindliches Angebot.