Seit der ersten ersten Version von Hadoop im Jahre 2006 und der Aufnahme als Apache Top Level Project im Jahre 2008 ist der Siegeszug des gelben Elefanten nicht mehr aufzuhalten.

War Hadoop anfangs noch ein verteiltes Dateisystem mit Map/Reduce Paradigma als eher umständliches Verarbeitungsparadigma, bildet es heute die Basis für einen fast unüberschaubares Ökosystem an Werkzeugen und Anwendungen. Hadoop ist mittlerweile auch in Unternehmen als Standard gesetzt mit vielfältigen Einsatzszenarien und Möglichkeiten.

Gerade im Analytics Bereich, also in der Datenanalyse speziell von großen Datenmengen (mehrere Terabytes bis hin zu Petabytes) spielt es seine Stärken aus und ist zu einer sehr ernst zu nehmenden Konkurrenz für die klassischen Datenbankspezialisten wie Oracle und IBM geworden.

Logo copyright © 2016 Apache Software Foundation. Apache License 2.0

Herausforderungen

Doch durch das neue offene Entwicklungsmodell von Hadoop, hinter dem keine einzelne Firma mehr steht, sondern dass auf die gemeinschaftliche Weiterentwicklung durch viele unabhängige Kräfte setzt, sind auch neue Herausforderungen entstanden. Denn durch die Vielzahl an Technologien und Lösungen die auf Hadoop aufsetzen, ist es schwierig geworden den Überblick zu bewahren.

Zudem gilt gerade in diesem Bereich, dass nicht alles Gold ist was glänzt. Ständig entstehen im Hadoop Ökosystem neue Projekte, und andere werden abgelöst oder verschwinden ganz. Zudem stellt sich immer wieder heraus, dass trotz aller Stärken Hadoop auch nicht für alle Fragestellungen das richtige Werkzeug ist.

Was dimajix bietet

Als langjähriger Experten in dem Bereich Big Data und Hadoop haben wir es uns zur Aufgabe gemacht, genau aus dieser Situation heraus Unernehmen dabei zu untersützen, Hadoop erfolgreich zu implementieren. Zu den technologischen Kernkompetenzen von dimajix gehören unter anderem Hadoop HDFS, Map/Reduce, Spark, Hive, HBase, Kafka, Flume, Oozie und weitere Komponenten des Hadoop Ökosystems.