Skip to main content

Zielgruppe

Dieser Kurs richtet sich an Software-Entwickle, die mit Spark arbeiten werden. Hierzu gehören unter anderem ETL Entwickler, Data Engineers als auch Data Scientists.

Agenda

Anhand vieler praktischer Übungen wird eine tief gehende Einführung in Data Engineering mit Apache Spark gegeben. Der Schwerpunkt der Schulung liegt dabei auf der modernen und mittlerweile stark etablierten Spark DataFrame Schnittstelle. Optional kann auch zusätzlich die etwas technischere und weniger komfortable RDD Schnittstelle als Thema gewählt werden, deren praktische Bedeutung hat jedoch in den letzten Jahren stark abgenommen. Für Gruppen, für die zudem das gesamte Thema Hadoop neu ist, kann außerdem an einem zusätzlichen Schulungstag vorneweg eine Einführung in die Hadoop Plattform gegeben werden.

Um der breite des gesamten Themenkomplexes gerecht zu werden, wird zwischen Grundlagenthemen und Vertiefungsthemen unterschieden. Diese können auch in zeitlich auseinander liegenden Terminen behandelt werden, um den Teilnehmern die nötige Zeit zum setzen-lassen zu geben.

Grundlagen

  • Einführung in das Hadoop Ökosystem (HDFS, YARN, Hive, …) (optional, ca 1 Tag)
  • Einführung in Scala und funktionale Programmierung (optional, ca 1 Tag)
  • Spark Cluster Architektur und Integration in Hadoop
  • Spark RDD API (optional)
  • Spark DataFrame API
  • Spark Dataset API (optional)

Vertiefungsthemen

  • Ausführunspläne und Optimierungen
  • Einführung in Apache Kafka
  • Spark Streaming (RDD und Structured Streaming)
  • Spark GraphX
  • Spark ML (Machine Learning)

Benötigte Kenntnisse

Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen. Die Programmierbeispiele für Apache Spark werden wahlweise in Python oder in Scala umgesetzt.

Optional kann auch eine Einführung in Scala durchgeführt werden, aus der Erfahrung sollte hierfür allerdings ein ganzer Tag reserviert werden. Alternativ zeigt die Erfahrung zeigt, dass sich Teilnehmer mit Kenntnissen in anderen Programmiersprachen schnell in Python zurechtfinden. Gerne beraten wir Sie zur Wahl der Programmiersprache in Hinblick auf den geplanten Einsatzbereich von Apache Spark.

Technische Voraussetzungen

Da der Kurs sehr viele praktische Übungen beinhaltet, sollten die Teilnehmer über eigene Rechner verfügen. Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jeder Teilnehmer ein eigenes kleines Cluster innerhalb der Amazon Cloud, der Zugriff erfolgt über SSH und den Web-Browser. Damit wird neben einem Web-Browser auch keine weitere Software auf den Computern der Teilnehmer benötigt.

Veranstaltungsort und Sprache

Der Kurs ist als In-House Schulung bei Ihnen vor Ort angelegt und kann wahlweise in deutscher oder englischer Sprache durchgeführt werden. Zudem kann die Schulung auch mittels Videokonferenz remote durchgeführt werden – fragen Sie einfach nach.

Dauer und Umfang

Die Vielfalt der Themen erfordert eine Dauer von 2-5 Tagen angelegt, je nach gewünschtem Umfang und Tiefe. Um den gesamten Themenkomplex abzudecken kann die Schulung auch an mehreren Terminen mit unterschiedlichen Schwerpunkten durchgeführt werden.

Training Data Engineering

3.844

für 2 Tage und 8 TeilnehmerKontaktieren Sie uns
für ein Angebot

Training Data EngineeringEmpfehlung

5.766

für 3 Tage und 8 TeilnehmerKontaktieren Sie uns
für ein Angebot

Training Data Engineering

7.688

für 4 Tage und 8 TeilnehmerKontaktieren Sie uns
für ein Angebot

Die Preise beziehen sich auf In-House Schulungen in Ihrem Unternehmen und für die angegebene Teilnehmerzahl. Zu den angegebenen Preisen fallen ggf noch zusätzlich Reisekosten für den Dozenten an. Alternativ kann die Schulung auch remote durchgeführt werden.

Um die Schulungsqualität zu garantieren ist die Kursgröße auf 12 Teilnehmer begrenzt. Bei Remote-Schulungen liegt die Grenze bei 8 Teilnehmern.

Alle Preise verstehen sich zuzüglich der jeweils geltenden Umsatzsteuer.

Anfrage:

 

    Ihr Name (Pflichtfeld)

    Ihre E-Mail-Adresse (Pflichtfeld)

    Betreff (Pflichtfeld)

    Ihre Nachricht (Pflichtfeld)

    ×