Apache Spark für skalierbare Datentransformationen

Apache Spark und PySpark haben in der Historie von dimajix ihren ganz besonderen Platz, da diese Frameworks die Basis mehrerer großer Big Data Projekte war. Die Technologie hat sich bis heute bewährt, und befindet sich im Kern bekannter Produkte wie Azure Data Factory.

Mit Flowman hat dimajix in Kooperation mit mehreren Unternehmen aus der Finanzbranche und der Online-Advertising Branche auch ein mächtiges Open Source Werkzeug auf Basis von Apache Spark entwickelt, dass die Erstellung robuster Data Pipelines durch einen deklarativen Ansatz stark vereinfacht.

Apache Spark

Logo copyright © 2016 Apache Software Foundation. Apache License 2.0

Data Pipelines

Apache Spark und PySpark hat sich als äußerst flexible und gut skalierbare Technologie für die Implementierung von Data Pipelines und ETL Jobs erwiesen. Durch eine Vielzahl an Konnektoren sowohl für Blob Storage wie S3, ADLS etc als auch NoSQL Datenbanken und klassischen relationalen SQL Datenbanken ist Apache Spark weiterhin eine sehr gute Wahl zur Bewältigung komplexer Datentransformations- und Integrationsaufgaben. Durch die clevere Architektur können mit Apache Spark verteilt und parallel Datenmengen verarbeitet werden, die weit über die Gesamtmenge des Hauptspeichers liegen.

Herausforderungen

Zwar bietet insbesondere PySpark eine vergleichsweise einfache API zur Applikationsentwicklung an, aber ein tiefgehendes Verständnis der Funktionsweise von Apache Spark wird schnell notwendig, wenn es an die Optimierung geht, um vorhandene Resourcen (CPU und Memory) optimal auszunutzen.

On Premise, IaaS, PaaS oder SaaS

Es gibt mittlerweile eine Vielzahl an Möglichkeiten, wie Applikationen auf Basis von Apache Spark und PySpark betrieben werden können: Als lokale Installation, auf virtueller Infrastruktur in der Cloud, als gemanagter Service oder gar als fertige Anwendung in der Cloud. Wir helfen Ihnen dabei, eine Entscheidung zu finden, die zu Ihrer Strategie und Ihrem Unternehmen passt.

Wie dimajix Ihrem Unternehmen hilft

Als langjähriger Experten im Bereichen Big Data mit Schwerpunkt Hadoop haben wir es uns zur Aufgabe gemacht, genau aus dieser Situation heraus Unernehmen dabei zu untersützen, Hadoop erfolgreich zu implementieren. Unser Wissen und unsere Erfahrung verhilft ihrem Projekt zum Erfolg.

Komeptenzen

  • Hadoop Ökosystem inklsuive HDFS, Hive, Spark, etc
  • Deployment in YARN oder Kubernetes
  • On Premise und in der Cloud

Technologie

  • Alle gängigen Hadoop Werkzeuge und Komponenten
  • Cloudera Manager
  • Hive Warehouses auf HDFS, ADLS und S3
  • DevOps Werkzeuge wie Docker, Kubernetes, Terraform, Ansible etc
  • Cloud (AWS, Azure, GCP)
  • Entwicklung in Java, Scala und Python

Erfahrungen

  • Forschung und Entwicklung
  • Finanzsektor
  • Marketing & Online Advertising