Ein Haus am (Daten-) See – Data Lakehouses in der Oracle-Cloud

Artikel auf XING, LinkedIn, Facebook und Twittergerne liken und teilen !


Data Lakehouses on OCI
Data Lakehouses on OCI

Im Rahmen des Oracle Live Events „The Future of the Data Lakehouse“ wurden die aktuellen Entwicklungen im Kontext des Aufbaus von Data Lakehouses auf der Oracle Cloud Infrastructure (OCI) inkl. Anwenderberichte von Kunden präsentiert.

Mit einem cloudbasierten Data Lakehouse in der OCI können alle Daten und Datenarten aus allen Quellen im Unternehmen schnell, flexibel und intelligent zusammengeführt sowie in der Cloud analysiert werden (mehr dazu unten).


„Daten sind das neue Öl bzw. neue Gold“ – das hat sicher jeder schon mal gehört. Daten sind jedoch nur von Wert, wenn man sie analysieren und Wissen als Basis für Entscheidungen daraus generieren kann.

Relevante Daten kommen heutzutage jedoch nicht nur aus der „traditionellen“ Unternehmenssoftware, wie z.B. ERP-, CRM- oder SCM-Systemen, sondern aus einer Vielzahl von Datenquellen, wie z.B. Sozialen Netzwerken, Sensoren in Maschinen oder anderen IoT-Geräten, Multimediaquellen für Bilder, Videos oder Sound uvm. 

Von diesen neuen Datenquellen kommen dabei häufig sehr große Datenmengen („Big Data“), die zu „Smart Data“, d.h. aussagekräftigen Daten, gemacht werden müssen. Im Unterschied zu den „traditionellen“ strukturierten Datenquellen sind diese Daten auch oftmals nur semi- oder gar unstrukturiert.

Data Lakehouses on OCI
Data Lakehouses on OCI (Quelle: Oracle)

Zur Analyse von derartigen unterschiedlich strukturierten Daten aus verschiedenen Quellen werden bzw. wurden oft Data Lakes eingesetzt, bei denen die Daten im Quellformat, z.B. als Dateien oder Blobs (Binary Large Objects), gespeichert werden. Das hat den Vorteil, dass die Daten im Unterschied zum Data Warehouse-Konzept, nicht im Vorfeld aufwändig durch ETL-Prozesse transformiert werden müssen. Der Nachteil ist dabei ist, dass Abfragen über alle Daten i.d.R. schwieriger zu realisieren sind. Dazu kommt, dass man zwei separate Welten parallel betreibt, wenn man ein Data Warehouse und einen Data Lake separat vorhält.

Was ist nun ein Data Lakehouse? Es ist die integrierte Kombination von Data Lake und Data Warehouse, so dass man auf alle Datenquellen und Datenarten über einheitliche Analytics-Funktionalitäten und Abfrageschnittstellen zugreifen und somit übergreifende intelligente Analysen erstellen kann.

Genau dies ist mit einem Data Lakehouse auf der Oracle Cloud Infrastructure (OCI) möglich. Dabei handelt es sich jedoch nicht um ein fertiges Produkt, sondern um eine Architektur, die verschiedene Komponenten und Platform Services der OCI verwendet, um ein Data Lakehouse zu realisieren (z.B. Autonomous Cloud-Datenbank, Autonomous Data Warehouse, MySQL HeatWave, Object Store, Analytics Cloud, Golden Gate, Big Data Service / Hadoop, Data Flow / Spark, AI/KI und Data Science Services zur Datenaufbereitung bzw. Datenanalyse uvm). Diese können dann je nach Kundenanforderungen zu individuellen Lösungen kombiniert werden. Dafür stehen auch Referenzarchitekturen zur Verfügung, die bereits bei vielen Kunden erfolgreich umgesetzt wurden (siehe unten).

OCI Data Lakehouse - Referenzarchitektur
OCI Data Lakehouse – Referenzarchitektur (Quelle: Oracle)

Im Rahmen des Oracle Live Events „The Future of the Data Lakehouse“ wurden verschiedene Pfade vorgestellt, wie ein Unternehmen zu einem cloudbasierten Data Lakehouse kommen kann (siehe Video 9:00m). Außerdem wurden neue Features zur Realisierung von Data Lakehouses präsentiert, z.B. beim OCI Big Data Service (Hadoop), bei OCI Data Flow (Spark), beim Autonomous Data Warehouse sowie beim OCI Data Integration Service (AI Data Preparation Capabilities).

Besonders interessant fand ich jedoch die Kundenbeispiele, die bereits erfolgreich OCI-basierte Data Lakehouses einsetzen:

  • Experian (Video 13:24): Das Unternehmen aus der Finanzbranche mit knapp 18.000 Mitarbeitern hat seine Analytics-Systeme in die OCI migriert und dabei sowohl kosten- als auch performance-seitig sehr gute Ergebnisse erzielt.
  • MineSense (Video 19:28): Das Unternehmen aus dem Rohstoffsektor kann sehr große Datenmengen von IoT-Sensoren cloudbasiert über ein Data Lakehouse analysieren.
  • Ingersoll Rand (Video 22:20): Der Mischkonzern mit über 16.000 Mitarbeitern hat ein Data Lakehouse in der OCI aufgebaut und auch seine Applikationen in die Cloud verlagert und kann damit effizient intelligente Datenanalysen in der Cloud durchführen.
  • Accenture (Video 25:26 und separates Video): Auch der weltweit tätige Dienstleister mit über 600.000 Mitarbeitern setzt OCI-basierte Data Lakehouses erfolgreich für seine Kunden ein.

Zukünftig sollen unter dem Stichwort „Intelligent Lakehouse“ noch mehr KI/AI/ML-Features zur intelligenten Datenaufbereitung und -analyse in die Produkte einfließen.

Weitere Informationen gibt es auf der Data Lakehouse Themenseite (Link siehe oben), auf der Oracle Live Seite (Link siehe oben) oder direkt im Video mit Greg Pavlik, Senior Vice President of Data and AI Services bei Oracle (siehe unten). Für technische Details gibt es auf der Oracle Live Seite auch noch Technical Demo Videos.

Oliver Höß

P.S.: Mehr zum Thema gibt es natürlich auch auf der Oracle Database World 2021 !


Um keine News mehr zu verpassen, am Besten dem Blog per Mail folgen (siehe unten) oder den monatlichen Newsletter abonnieren.




Blog via E-Mail abonnieren

Gib deine E-Mail-Adresse an, um diesen Blog zu abonnieren und Benachrichtigungen über neue Beiträge via E-Mail zu erhalten.

5 Gedanken zu “Ein Haus am (Daten-) See – Data Lakehouses in der Oracle-Cloud

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.