Hadoop hat in der Historie von dimajix seinen ganz besonderen Platz, da dies die Basis unserer ersten Big Data Projekte war. Dort hat sich die Technologie bis heute bewährt, und das Hadoop Ökosystem als stabile Plattform blieb in allen Fällen als Kernkomponente erhalten.

Heute bildet Hadoop weltweit die Basis für einen fast unüberschaubares Ökosystem an Werkzeugen und Anwendungen. Hadoop ist mittlerweile in kleinen und großen Unternehmen als Standard gesetzt mit vielfältigen Einsatzszenarien und Möglichkeiten, insbesondere hat es sich als stabilen Unterbau von Enterprise Data Lakes erwiesen.

Logo copyright © 2016 Apache Software Foundation. Apache License 2.0

Machine Learning

Heutzutage spielt Hadoop seine Stärken aus als erwiesenermaßen sehr gut skalierende Plattform. Insbesondere in den Bereichen Advanced Analytics und Machine Learning, also in der Datenanalyse von sehr großen Datenmengen (mehrere Terabytes bis hin zu Petabytes) ist die Skalierbarkeit eine wichtige Voraussetzung. Deshalb ist in diesem Kontext Hadoop zu einem ernst zu nehmenden Konkurrenten für die klassischen Datenbankanbieter geworden, die mittlerweile alle Hadoop auf unterschiedlichen Wegen unterstützen oder gar in ihre Produkte integrieren. Auch die bekannten Analysewertzeuge wie SAS und SPSS bieten alle eine Anbindung an Hadoop an.

Herausforderungen

Die erste Herausforderung bei der Einführung von Hadoop ist sicherlich die schier unüberschaubare Anzahl an Technologien und Lösungen die auf Hadoop aufsetzen. Eine tiefgehende Kenntnis der verfügbaren Toolstacks ist eine notwendige Grundlage, um eine geeignete Auswahl zu treffen und eine tragfähige Architektur zu bauen, die auch zum jeweiligen Unternehmen und den Anforderungen passt. Durch Kooperationspartner stellen wir sicher, das Sie auch unterschiedlichste Technologien von entsprechenden Experten beraten werden.

On Premise oder Cloud

Eine wichtige Frage am Anfang eines Big Data Projektes ist, ob der Toolstack on Premise im Unternehmen installiert werden soll, oder ob alternativ auf Cloud Resourcen bei Anbietern wie Amazon, Microsoft, Google oder IBM aufgebaut werden soll. Aus der Projekterfahrung heraus untersützen wir Sie bei der Entscheidung, denn beide Wege haben jeweils Vor- und Nachteile. Dies hat auch dazu geführt, dass vermehrt auch große deutsche Unternehmen die Cloud mittlerweile strategisch einsetzen, während dies vor einigen Jahren noch als undenkbar galt.

Was dimajix bietet

Als langjähriger Experten im Bereichen Big Data mit Schwerpunkt Hadoop haben wir es uns zur Aufgabe gemacht, genau aus dieser Situation heraus Unernehmen dabei zu untersützen, Hadoop erfolgreich zu implementieren. Unser Wissen und unsere Erfahrung verhilft ihrem Projekt zum Erfolg.

Unsere Komeptenzen

  • Hadoop Ökosystem inklsuive HDFS, Hive, Spark, etc
  • Cloudera und Hortonworks Distributionen
  • Deployment in Docker und Kubernetes
  • On Premise und in der Cloud

Unsere Werkzeuge

  • Alle gängigen Hadoop Werkzeuge und Komponenten
  • Cloudera Manager oder Ambari
  • Hive Warehouses auf HDFS und S3
  • DevOps Werkzeuge wie Docker, Kubernetes, Terraform, Vagrant, Puppet etc
  • Entwicklung in Java, Scala und Python

Unsere Erfahrungen

  • Forschung und Entwicklung
  • Finanzsektor
  • Marketing & Online Advertising