Nächste Termine
- 20.1.2021 – 21.1.2021, online, jeweils von 9:00 Uhr bis 16:30. Anmeldeschluss ist der 6.1.2021.
Zielgruppe
Dieser spezielle Kurs wendet sich an Mitarbeiter, die sich als Data Scientist mit der Datenauswertung beschäftigen und hierfür die Hadoop Platform und Apache Spark einsetzen möchten.
Beschreibung
Anhand vieler praktischer Übungen wird eine Einführung in Data Science mit PySpark gegeben. Der Kurs verwendet ausschließlich die moderne und mittlerweile stark etablierte DataFrame API von Apache Spark. Als Programmiersprache kommt Python zum Einsatz, welche ohnehin im Data Science Umfeld sehr verbreitet ist aufgrund der großen Anzahl an verfügbaren Bibliotheken.
Alle Verfahren werden anhand von Beispielen mit echten, öffentlich verfügbaren Daten erläutert. Auf diese Weise erhalten die Teilnehmer nicht nur einen theoretischen Einblick, sondern lernen auch gleich, wie Eigenheiten der Datensätze zu berücksichtigen sind, um gute Resultate zu erzielen. Darüber hinaus werden immer wieder die aus praktischer Erfahrung stammenden Ratschläge für Best Practices erwähnt.
Für die Durchführung des Kurses werden den Teilnehmern jeweils separate virtuelle Schulungscluster in der Cloud zur Verfügung gestellt. Damit ist sichergestellt, dass alle Teilnehmer die gleiche technische Umgebung haben und sich nicht gegenseitig in die Quere kommen.
Agenda
Die Schulung erstreckt sich über zwei Tage. Obgleich praktische Beispiele und Übungen im Mittelpunkt stehen, werden immer wieder theoretische Grundlagen und konzeptionelle Themen eingestreut, so dass die Teilnehmer auch ein besseres Verständnis für den gesamten Themenbereich „Data Science“ entwickeln können.
Theoretischer Teil
- Einführung in das Spark Architektur
- Überblick über Hadoop Ökosystem (HDFS, YARN, Hive, …)
- Vorgehensmodell in Data Science
- Regressionsmodelle
- Klassifikationsmodelle
Praktischer Teil PySpark Grundlagen
- PySpark DataFrame API
- Daten lesen und schreiben
- Daten transformieren und filtern
- Aggregationen und Joins
- User Defined Functions
Praktischer Teil Machine Learning
- PySpark ML API
- Feature Extraktion und Transformation
- Visualisierung
- Regressionsanalysen
- Klassifikation
- Spark ML Pipelines
Darüber hinaus werden immer wieder die aus praktischer Erfahrung stammenden Ratschläge für Best Practices erwähnt. Die in dem Kurs durchgeführten Übungen verwenden zum Teil größere Datenmengen aus realen öffentlich verfügbaren Datenquellen. Hierdurch lernen die Teilnehmer auch die typischen Schwierigkeiten bei der Arbeit mit realen Datensätzen kennen.
Benötigte Kenntnisse
Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen. Die Programmierbeispiele für Apache Spark werden wahlweise in Python umgesetzt. Die Erfahrung zeigt, dass sich Teilnehmer mit Kenntnissen in anderen Programmiersprachen schnell in Python zurechtfinden.
Es werden keine besonderen Kenntnisse in Machine Learning, Mathematik oder Statistik vorausgesetzt. Alle notwendigen Konzepte und Ideen werden in dem Kurs mit vorgestellt.
Technische Voraussetzungen
Die Teilnehmer benötigen zur Teilnahme einen eigenen Rechner, auf dem ein aktueller Browser (Chrome, Firefox, Edge) zur Teilnahme an der Video-Schulung installiert ist. Entsprechend sollten die Teilnehmer auch über Mikrofon und Kopfhörer oder Lautsprecher verfügen. Eine Kamera für die Teilnehmer ist optional und freiwillig.
Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jeder Teilnehmer ein eigenes kleines Cluster innerhalb der Amazon Cloud, der Zugriff erfolgt über SSH und den Web-Browser. Damit wird neben einem Web-Browser auch keine weitere Software auf den Computern der Teilnehmer benötigt.
Veranstaltungsort und Sprache
Der Kurs wird komplett online durchgeführt. Die verwendete Plattform benötigt lediglich einen aktuellen Browser (Chrome, Firefox, Edge)
Ablauf und Durchführung
Der Kurs wird an zwei aufeinanderfolgenden Tagen komplett online durchgeführt. Nach erfolgreicher Buchung erhalten Sie zunächst eine Buchungsbestätigung. Einige Tage vor dem Start des virtuellen Workshops erhalten Sie die Zugangsdaten zu der verwendeten Online Lernplattform.
Das Training findet an den Tagen von 9:00 bis 16:30 statt. Nach ca jeder Stunde wird eine Pause von 10 Minuten eingelegt und natürlich Mittags eine längere Essens- und Erholungspause.
Über den Kursleiter
Der Kurs wird komplett von Dr. Kaya Kupferschmidt durchgeführt.
Der Trainer ist promovierter Mathematiker und verfügt über langjährige praktische Erfahrung in Datenprojekten, speziell in den Bereichen Big Data, Data Engineering und Data Science. Seine bevorzugten Technologien sind Apache Spark, Hadoop, SciKit Learn, Tensorflow, Python und Scala. Anhand der jeweiligen Rahmenbedingungen und Aufgaben kommen Technologien meist aus eben diesem Portfolio zum Einsatz.
Herr Kupferschmidt hat in der Vergangenheit für viele namhafte Unternehmen sowohl Präsenz- als auch Online-Schulungen erfolgreich durchgeführt.
Buchung
Hier können Sie verbindlich die Teilnahme an der Schulung buchen.
- Die Schulung kostet pro Person 890 EUR zzgl 19% UmSt, also 1059,10 EUR inklusive 19% UmSt.
- Den gewünschten Schulungszeitraum wählen Sie bitte unten während der Buchung aus.
Sobald Sie sich für eine Schulung angemeldet haben, werden wir Ihre Angaben überprüfen und Ihnen eine vorläufige Buchungsbestätigung versenden. Wir bitten um Verständnis, dass wir die Schulung erst nach Anmeldung von mindestens 3 Teilnehmern durchführen – wir werden Sie spätestens zwei Wochen vor dem Schulungstermin informieren, ob die Schulung wie geplant stattfinden wird. Sie erhalten dann einen Zusage-Link um Ihre Anmeldung verbindlich zu bestätigen.
Um die Schulungsqualität zu garantieren, ist die Anzahl der Teilnehmer auf 6 beschränkt.