Skip to main content

Flowman

Komfortables ETL mit Apache Spark

Starten Sie Ihre ETL Job mit Spark durch indem Sie auf Flowman setzen.

Überblick zu Flowman

Der Ansatz und die Idee von Flowman

Flowman ist ein von dimajix entwickeltes Open Source Projekt, das Ihr Unternehmen bei der Entwicklung von ETL Jobs auf Basis von Apache Spark unterstützt. Kerngedanke von Flowman ist, den Datenfluss rein deklarativ anzugeben, und diesen dann von einer flexiblen Spark-Applikation (eben Flowman) ausführen zu lassen.

Mit diesem Ansatz trennen Sie sauber die Business Logik von all den technischen Details, die für einen produktiven Betrieb notwendig sind. Sie können sich somit auf die Business-Logik konzentrieren, während Flowman sich als ausgereifte Spark-Applikation um die technischen Details kümmert um eine stabile Ausführung sicherzustellen. Dazu gehören der Export von relevanten Metriken für Monitoring, ein einheitliches Logging, die Unterstützung von sauberen Reruns und vieles mehr.

Die Datenflüsse selbst sind in YAML Dateien abgespeichert, und können im Unterschied zu klassischem Scala/Java-Code auch von einem Business-Experten mit nur kurzer Einarbeitung nachvollzogen werden. Auf diese Weise können Sie das vorhandene Expertenwissen stärker in die Entwicklung mit einbeziehen um somit frühzeitig fachliche Fehler zu entdecken.

Produkteigenschaften

Die folgenden Features stellt Flowman bereit

Komplett Open Source (Apache Lizenz)
Basiert auf Apache Spark
Flexible Spezifikation von Datenflüssen
Automatische Schemaverwaltung (Erzeugung und Migration von Tabellen)
Vielseitiges Kommandozeilenwerkzeug zur Ausführung
Integrierte Metriken für Monitoring
Unterstützt Hadoop und Kubernetes
Unterstützt AWS und Azure (S3 und ABS)

Vorteile

Diese Vorteile ergeben sich durch den Einsatz

Open Source.

Es fallen keine Lizenzkosten an, gleichzeitig profitieren Sie von der Weiterentwicklung. Die liberale Apache Lizenz erlaubt Ihnen interne Veränderungen, ohne die Pflicht, diese zu veröffentlichen.

Erweiterbarkeit.

Durch eine Plugin-Schnittstelle können Sie fehlende Funktionalität selbst entwickeln, ohne diese offen legen zu müssen.

Entlastung der Entwickler.

Durch die Fokussierung auf die Business-Logik können sich Ihre Entwickler auf das Wesentliche konzentrieren, während Flowman die technischen Details implementiert.

Einheitliche Lösung.

Anstelle einer losen Sammlung verschiedener Spark-Applikationen greifen Sie auf eine einheitliche Lösung zurück, die alle wesentlichen Aspekte abdeckt. Es kommt zu keinen Parallel-Entwicklungen mehrerer Lösungen für ähnliche Probleme.

Anfrage:

 

    Ihr Name (Pflichtfeld)

    Ihre E-Mail-Adresse (Pflichtfeld)

    Betreff (Pflichtfeld)

    Ihre Nachricht (Pflichtfeld)

    ×