Apache Spark & PySpark

Apache Spark für skalierbare Datentransformationen

Apache Spark und PySpark haben in der Historie von dimajix ihren ganz besonderen Platz, da diese Frameworks die Basis mehrerer großer Big Data Projekte war. Die Technologie hat sich bis heute bewährt, und befindet sich im Kern bekannter Produkte wie Azure Data Factory.

Mit Flowman hat dimajix in Kooperation mit mehreren Unternehmen aus der Finanzbranche und der Online-Advertising Branche auch ein mächtiges Open Source Werkzeug auf Basis von Apache Spark entwickelt, dass die Erstellung robuster Data Pipelines durch einen deklarativen Ansatz stark vereinfacht.

Data Pipelines

Apache Spark und PySpark hat sich als äußerst flexible und gut skalierbare Technologie für die Implementierung von Data Pipelines und ETL Jobs erwiesen. Durch eine Vielzahl an Konnektoren sowohl für Blob Storage wie S3, ADLS etc als auch NoSQL Datenbanken und klassischen relationalen SQL Datenbanken ist Apache Spark weiterhin eine sehr gute Wahl zur Bewältigung komplexer Datentransformations- und Integrationsaufgaben. Durch die clevere Architektur können mit Apache Spark verteilt und parallel Datenmengen verarbeitet werden, die weit über die Gesamtmenge des Hauptspeichers liegen.

Herausforderungen

Zwar bietet insbesondere PySpark eine vergleichsweise einfache API zur Applikationsentwicklung an, aber ein tiefgehendes Verständnis der Funktionsweise von Apache Spark wird schnell notwendig, wenn es an die Optimierung geht, um vorhandene Resourcen (CPU und Memory) optimal auszunutzen.

On Premise, IaaS, PaaS oder SaaS

Es gibt mittlerweile eine Vielzahl an Möglichkeiten, wie Applikationen auf Basis von Apache Spark und PySpark betrieben werden können: Als lokale Installation, auf virtueller Infrastruktur in der Cloud, als gemanagter Service oder gar als fertige Anwendung in der Cloud. Wir helfen Ihnen dabei, eine Entscheidung zu finden, die zu Ihrer Strategie und Ihrem Unternehmen passt.

Wie dimajix Ihrem Unternehmen hilft

Als langjähriger Experten im Bereichen Big Data mit Schwerpunkt Hadoop haben wir es uns zur Aufgabe gemacht, genau aus dieser Situation heraus Unernehmen dabei zu untersützen, Hadoop erfolgreich zu implementieren. Unser Wissen und unsere Erfahrung verhilft ihrem Projekt zum Erfolg.

Komeptenzen

Hadoop Ökosystem inklsuive HDFS, Hive, Spark, etc
Deployment in YARN oder Kubernetes
On Premise und in der Cloud

Technologie

Alle gängigen Hadoop Werkzeuge und Komponenten
Cloudera Manager
Hive Warehouses auf HDFS, ADLS und S3
DevOps Werkzeuge wie Docker, Kubernetes, Terraform, Ansible etc
Cloud (AWS, Azure, GCP)
Entwicklung in Java, Scala und Python

Erfahrungen

Forschung und Entwicklung
Finanzsektor
Marketing & Online Advertising