Durch die zunehmende Digitalisierung aller Geschäfts- und auch Lebensbereiche fallen immer mehr Daten in immer höherer Geschwindigkeit an. Diese Situation stellt viele traditionelle Datenbanken vor große Herausforderungen – die Qualität der Datenverarbeitung von der Erfassung bis hin zur Auswertung hat sich grundlegend verändert.
Die drei Vs von Big Data
Big Data wird meistens mit den drei Vs in Verbindung gebracht
- Volume – Die Menge der Daten hat um Größenordnungen zugenommen, so dass eine flexible Skalierbarkeit der Systeme in einem ganz neuen Maße erforderlich wird.
- Velocity – Die Geschwindigkeit des Eintreffens neuer Daten erfordert neue Lösungsansätze sowohl bei der Speicherung als auch bei der Verarbeitung um zeitnahe Auswertungen zu ermöglichen
- Variety – Die Verarbeitung von Daten aus verschiedenen Quellen mit unterschiedlichsten Formaten – teils auch unstrukturiert wie zum Beispiel Texte und Bilder – erfordert neue Technologien
Mittlerweile hat sich allerdings gezeigt, dass diese rein technischen Aspekte nicht zielführend sind, um erfolgreiche Big Data Projekte umzusetzen. Aus den Daten muss erst durch passende Vorgehensmodelle und Werkzeuge der echte Mehrwert erschlossen werden.
Data Lake
Nachdem die letzten Jahrzehnte von den Ideen des „Enterprise Data Warehouses“ und „Master Datamanagement“ geprägt waren, kommt die Ernüchterung. Obgleich des Charmes der Idee eines unternehmensweiten einheitlichen Datenmodells, hat sich die Umsetzbarkeit als sehr Schwierig erwiesen. Hier kommt als leichtgewichtigeres Gegenmodell der Data Lake ins Spiel, der eine agilere Herangehensweise darstellt und den organisatorische Abstimmungsaufwand des globalen Ansatzes eines EDWHs umgeht.
Herausforderungen
Um im Thema Big Data erfolgreich zu sein, ist es wichtig, von Anfang an eine ganzheitliche Vision zu entwickeln zusammen mit einer Strategie, wie diese Schritt für Schritt umgesetzt werden kann. Denn den wahren Nutzen der neuen Möglichkeiten durch Big Data kommt erst durch eine bereichsübergreifende Lösung für das gesamte Unternehmen zustande. Dabei spielen neben der Technologie an sich Begriffe wie Data Lake als neuer methodischer Ansatz zur Datenmodellierung und Themen wie Governance für rahmengebende Regeln eine große Rolle, die als Teil der Umsetzung ausdefiniert werden müssen.
Was dimajix bietet
Als Experte auf dem Gebiet Big Data unterstützt dimajix Sie bei der Entwicklung einer einheitlichen Lösungsstrategie um die Herausforderungen der digitalen Transformation zu meistern
Komeptenzen
- Enterprise Data Lakes
- Data Governance
- Technische Architektur
- On Premise vs Cloud vs Hybride Lösung
Technologie
- Hadoop Ökosystem, inklusive Hive, Spark, Kafka, HBase etc
- Weitere NoSQL Datenbanken wie Cassandra etc
- Cloudera Distributionen
- Cloud (AWS, Azure, GCP)
- Ergänzend klassische SQL Datenbanken
Erfahrungen
- Forschung und Entwicklung
- Finanzsektor
- Marketing & Online Advertising