Data Warehousing (DW)
Was ist Data Warehousing?
Im Date Warehouse (DW) sind Daten aus verschiedenen Quellen zusammengefasst und gespeichert. Die Systeme sind auf Datenmengen im Bereich Big Data ausgelegt. Vom Repository aus erfolgt die Bereitstellung harmonisierter Daten für Anwendungen in der Analyse, der Business Intelligence (BI) oder der Erstellung von Berichten. Ziel ist die Unterstützung datenbasierter Entscheidungen.
Die Idee für die Umsetzung eines Data Warehousings geht bis in die 1980er-Jahre zurück. Es stellte sich die Frage, wie sich Daten neben Betriebs- auch für Entscheidungsfindungsprozesse bereithalten lassen können und wie sich ein effizienter Abruf der Informationen gestalten lässt.
Wie läuft das Data Warehousing prinzipiell ab?
Das DW bezieht aus den verschiedenen Apps und Systemen (“Data sources”) regelmäßig aktuelle Daten. Beim Import durchlaufen diese auch einen Formatierungsprozess. Zudem muss das System die neuen Daten mit den bereits im DW enthaltenen Informationen abgleichen. Danach erfolgt die Bereitstellung der verarbeiteten Daten für den Zugriff durch die Entscheider. Der Abruf erfolgt für die Bereiche Analyse, Reporting und Data-Mining.
Welche Vorteile sind mit dem Einsatz des Data Warehousings verbunden?
Unternehmen und Organisationen verfolgen unterschiedliche Ziele mit dem Date Warehousing, was davon abhängt, mit welchen Daten sie arbeiten und welche Analysen erforderlich sind. Folgende allgemeinen Vorteile sind jedoch immer mit diesem Konzept verbunden:
- Zentrale Datenhaltung: Das Data Warehousing bietet Zugriff auf Daten aus verschiedenen Quellen an einem gemeinsamen Ort. Der Anwender erhält jederzeit leichten Zugang zu seinen Informationen. Die Datenkonsistenz, -relevanz, und -integrität stellt das System sicher. Damit ist eine Arbeit mit Daten in hoher Qualität gewährleistet.
- Höhere Abfragegeschwindigkeit: Bei verteilten Daten leidet ab einem gewissen Punkt die Zugriffsgeschwindigkeit. Das Data Warehousing bietet hier den Vorteil, die Daten für eine schnelle Analyse sofort bereitstellen zu können. Darauf sind diese Systeme optimiert. Ein schneller Datenabruf ist auch in Bezug auf große, konsolidierte Datenmengen möglich. Das schafft optimale Voraussetzungen für verschiedene Analyseanwendungen.
- Zugriff auf historische Daten: Die Trendanalyse nimmt heute für viele Anwender einen wichtigen Stellenwert ein. Das DW speichert hierfür historische Daten und macht diese den Entscheidungsträgern zugänglich. Damit lässt sich die Qualität von Vorhersagen verbessern.
- Beschleunigung von Entscheidungsfindungsprozessen: Einer der entscheidenden Vorteile des Data Warehousings besteht darin, dass die Daten grundsätzlich in einem konsistenten Format vorliegen und sich sofort für Analysezwecke verwenden lassen. Das unterstützt die Entscheidungsträger in der Organisation.
Aufbau eines Data Warehouses
Ein DW setzt sich im Wesentlichen aus den folgenden vier Komponenten zusammen:
- Datenbank: Das Data Warehouse basiert auf einer zentralen relationalen Datenbank. Deren Betrieb erfolgt zumeist in der Cloud oder on-premise. Gerade in Hinblick auf Echtzeitanwendungen gewinnen zunehmend auch In-Memory-Lösungen auf dem Markt an Bedeutung.
- Datenintegration: Diese Funktion kümmert sich um den Datenabruf aus den Quellsystemen, um die Datenmodifizierung und die Anwendung verschiedener Datenintegrationsansätze wie ETL oder ELT, um schnelle analytische Verwendungen zu ermöglichen.
- Metadaten: Das System erzeugt zusätzliche Daten, um die gespeicherten Daten zu beschreiben. Anhand dieser Metadaten lässt sich zum Beispiel schnell ermitteln, aus welcher Quelle die Daten stammen oder welchen Wert sie haben. Damit ist es möglich, den gespeicherten Informationen einen Kontext zu verleihen.
- Werkzeuge für den Datenabruf: Der Anwender erhält Tools, mit denen er seine Abfragen oder die Erstellung von Berichten vornehmen kann. Solche Werkzeuge sind auch für das Data Mining, die Anwendungsentwicklung und andere Aufgaben verfügbar. Sie ermöglichen auf verschiedene Weise die Interaktion mit dem DW.
Abgrenzung zur Speicherung in Datenbanken
Das Data Warehousing ist nicht mit der Speicherung in Datenbanken zu verwechseln. Hier bestehen Unterschiede, die sich insbesondere auf den Umgang mit großen Datenmengen und deren Analyse beziehen. Während Datenbanken mit verschiedenen Transaktionen umgehen können müssen und den Lese- und Schreibzugriff optimieren, sind Data Warehouses auf die Aggregierung bzw. Verdichtung von und den Zugriff auf große/n Datenmengen ausgelegt.
SAP Data Warehouse Cloud
Zu den verfügbaren Cloud-Lösungen für die Umsetzung des oben beschriebenen Konzepts gehört zum Beispiel die SAP Data Warehouse Cloud, die alle geschäftsrelevanten Datenquellen in einer Lösung vereinen soll. Erwähnenswert sind Vorteile wie der Zugriff auf Echtzeit-Daten, die aus einer HANA-Datenbank stammen. Im Vergleich zu anderen DW-Produkten ist die SAP Data Warehouse Cloud um einen sogenannten Geschäftssemantik-Service erweitert. Dieser dient der Darstellung der Daten unter betriebswirtschaftlichen statt technischen Gesichtspunkten und soll die unternehmensweite Datenmodellierung erleichtern.
Fazit
Hinter dem Data Warehousing verbirgt sich ein Konzept für die schnellere Bereitstellung großer Datenmengen für verschiedene Analysezwecke. Das hat zum Beispiel in der BI oder für das Data Mining seine Bedeutung. Entscheidend sind hier die Daten-Aggregierung und Vereinheitlichung. Die Speicherung erfolgt in organisierter Form, damit ein möglichst schneller Abruf möglich ist. Hinzu kommt die Zusammenfassung von Daten aus unterschiedlichsten Quellen. Damit legt das DW bei der Speicherung einen anderen Schwerpunkt als reine Datenbanken.