Website-Icon Innovative Trends

Ein Haus am (Daten-) See – Data Lakehouses in der Oracle-Cloud

Artikel auf XING, LinkedIn, Facebook und Twittergerne liken und teilen !


Data Lakehouses on OCI

Im Rahmen des Oracle Live Events „The Future of the Data Lakehouse“ wurden die aktuellen Entwicklungen im Kontext des Aufbaus von Data Lakehouses auf der Oracle Cloud Infrastructure (OCI) inkl. Anwenderberichte von Kunden präsentiert.

Mit einem cloudbasierten Data Lakehouse in der OCI können alle Daten und Datenarten aus allen Quellen im Unternehmen schnell, flexibel und intelligent zusammengeführt sowie in der Cloud analysiert werden (mehr dazu unten).


„Daten sind das neue Öl bzw. neue Gold“ – das hat sicher jeder schon mal gehört. Daten sind jedoch nur von Wert, wenn man sie analysieren und Wissen als Basis für Entscheidungen daraus generieren kann.

Relevante Daten kommen heutzutage jedoch nicht nur aus der „traditionellen“ Unternehmenssoftware, wie z.B. ERP-, CRM- oder SCM-Systemen, sondern aus einer Vielzahl von Datenquellen, wie z.B. Sozialen Netzwerken, Sensoren in Maschinen oder anderen IoT-Geräten, Multimediaquellen für Bilder, Videos oder Sound uvm. 

Von diesen neuen Datenquellen kommen dabei häufig sehr große Datenmengen („Big Data“), die zu „Smart Data“, d.h. aussagekräftigen Daten, gemacht werden müssen. Im Unterschied zu den „traditionellen“ strukturierten Datenquellen sind diese Daten auch oftmals nur semi- oder gar unstrukturiert.

Data Lakehouses on OCI (Quelle: Oracle)

Zur Analyse von derartigen unterschiedlich strukturierten Daten aus verschiedenen Quellen werden bzw. wurden oft Data Lakes eingesetzt, bei denen die Daten im Quellformat, z.B. als Dateien oder Blobs (Binary Large Objects), gespeichert werden. Das hat den Vorteil, dass die Daten im Unterschied zum Data Warehouse-Konzept, nicht im Vorfeld aufwändig durch ETL-Prozesse transformiert werden müssen. Der Nachteil ist dabei ist, dass Abfragen über alle Daten i.d.R. schwieriger zu realisieren sind. Dazu kommt, dass man zwei separate Welten parallel betreibt, wenn man ein Data Warehouse und einen Data Lake separat vorhält.

Was ist nun ein Data Lakehouse? Es ist die integrierte Kombination von Data Lake und Data Warehouse, so dass man auf alle Datenquellen und Datenarten über einheitliche Analytics-Funktionalitäten und Abfrageschnittstellen zugreifen und somit übergreifende intelligente Analysen erstellen kann.

Genau dies ist mit einem Data Lakehouse auf der Oracle Cloud Infrastructure (OCI) möglich. Dabei handelt es sich jedoch nicht um ein fertiges Produkt, sondern um eine Architektur, die verschiedene Komponenten und Platform Services der OCI verwendet, um ein Data Lakehouse zu realisieren (z.B. Autonomous Cloud-Datenbank, Autonomous Data Warehouse, MySQL HeatWave, Object Store, Analytics Cloud, Golden Gate, Big Data Service / Hadoop, Data Flow / Spark, AI/KI und Data Science Services zur Datenaufbereitung bzw. Datenanalyse uvm). Diese können dann je nach Kundenanforderungen zu individuellen Lösungen kombiniert werden. Dafür stehen auch Referenzarchitekturen zur Verfügung, die bereits bei vielen Kunden erfolgreich umgesetzt wurden (siehe unten).

OCI Data Lakehouse – Referenzarchitektur (Quelle: Oracle)

Im Rahmen des Oracle Live Events „The Future of the Data Lakehouse“ wurden verschiedene Pfade vorgestellt, wie ein Unternehmen zu einem cloudbasierten Data Lakehouse kommen kann (siehe Video 9:00m). Außerdem wurden neue Features zur Realisierung von Data Lakehouses präsentiert, z.B. beim OCI Big Data Service (Hadoop), bei OCI Data Flow (Spark), beim Autonomous Data Warehouse sowie beim OCI Data Integration Service (AI Data Preparation Capabilities).

Besonders interessant fand ich jedoch die Kundenbeispiele, die bereits erfolgreich OCI-basierte Data Lakehouses einsetzen:

Zukünftig sollen unter dem Stichwort „Intelligent Lakehouse“ noch mehr KI/AI/ML-Features zur intelligenten Datenaufbereitung und -analyse in die Produkte einfließen.

Weitere Informationen gibt es auf der Data Lakehouse Themenseite (Link siehe oben), auf der Oracle Live Seite (Link siehe oben) oder direkt im Video mit Greg Pavlik, Senior Vice President of Data and AI Services bei Oracle (siehe unten). Für technische Details gibt es auf der Oracle Live Seite auch noch Technical Demo Videos.

Oliver Höß

P.S.: Mehr zum Thema gibt es natürlich auch auf der Oracle Database World 2021 !


Um keine News mehr zu verpassen, am Besten dem Blog per Mail folgen (siehe unten) oder den monatlichen Newsletter abonnieren.




Blog per E-Mail abonnieren

Gib deine E-Mail-Adresse an, um diesen Blog zu abonnieren und Benachrichtigungen über neue Beiträge via E-Mail zu erhalten.

Die mobile Version verlassen