Technologie

Data Lake

Data Lake (Datenhaltung in Rohform)

Ein Data Lake ist ein zentraler Datenspeicher, in dem strukturierte und unstrukturierte Daten in ihrer Rohform abgelegt werden. Im Unterschied zum Data Warehouse, das aufbereitete Daten enthält, speichert ein Data Lake Daten zunächst ohne Transformation.

Schaffsch-Position

Data Lakes lohnen sich im Mittelstand nur bei wirklich großen, unstrukturierten Datenmengen. Typischerweise IoT-Szenarien oder Mediendaten. Für kaufmännische Auswertungen reicht ein klassisches Data Warehouse. Wer Data Lake einführt, ohne den Use Case zu kennen, baut teuren Müll-Speicher.

"Data Lake" höre ich meistens, wenn jemand bei einem Anbieter war und die Slides gut waren. Meine Frage ist dann immer dieselbe: Welche Frage könnt ihr heute nicht beantworten, die ihr danach beantworten könntet? Wenn ihr darauf keine klare Antwort habt, weg damit.

Kommentar von Fabian Wolff

Kontext

Data Lakes entstanden in den 2010ern mit dem Aufkommen großer Datenmengen, die nicht mehr in klassische relationale Modelle passten (Logs, IoT-Daten, Texte, Bilder). Im Mittelstand sind reine Data Lakes selten, häufiger sind hybride Data-Lakehouse-Konzepte, die Lake-Speicher mit Warehouse-Funktionalität verbinden.

Beispiel

Ein produzierender Mittelständler sammelt Maschinen-Sensordaten (Vibration, Temperatur, Drehzahl) im Sekundentakt. Die Rohdaten landen in einem S3-basierten Data Lake, werden bei Bedarf für Predictive-Maintenance-Modelle aufbereitet. Klassisches Data Warehousing wäre für diese Datenmenge ineffizient.

Häufige Fragen

Data Lake oder Data Warehouse?

Warehouse für strukturierte kaufmännische Analysen (Umsatz, Marge, Auftragslage). Lake für Rohdaten in großer Menge (IoT, Logs, Medien). Lakehouse für hybride Anwendungsfälle. Im klassischen Mittelstand führt fast immer der Weg zum Warehouse zuerst.

Was ist ein Data Swamp und wie verhindere ich ihn?

Ein Data Swamp ist ein Data Lake ohne Struktur, Metadaten und Zugriffs-Regeln. Niemand weiß mehr, welche Daten brauchbar sind, wo sie herkommen oder wie aktuell sie sind. Verhindern lässt sich das nur mit drei Disziplinen von Anfang an: Katalogisierung jeder Datenquelle, Owner pro Datenbereich, klare Lifecycle-Regeln, wann Daten gelöscht oder archiviert werden. Ohne Governance wird jeder Data Lake innerhalb von zwei Jahren zum Swamp.

Welche Data-Lake-Anbieter gibt es?

Die drei Hyperscaler dominieren: Amazon S3 als Speicher-Schicht mit AWS Lake Formation für Governance. Azure Data Lake Storage Gen2 in Microsoft-Umgebungen. Google Cloud Storage mit BigLake. Daneben Databricks und Snowflake mit Lakehouse-Architekturen, die Lake-Speicher und Warehouse-Funktionen kombinieren. Für Mittelständler mit Microsoft-Stack ist Azure meist die natürliche Wahl, für Maschinendaten oft AWS S3 plus Open-Source-Werkzeuge.

Bereit?

Wir erwarten euch!

Erstes Gespräch kostenlos. Keine Verpflichtung. Konkrete Einschätzung.

Kontakt aufnehmen

Blogartikel

Themenreihen

Tools