SAP Vora – Warum benötigen wir es?
SAP Vora ist eine In-Memory-Computing-Engine, die darauf ausgelegt ist, große Daten aus Hadoop für Unternehmen zugänglicher und nutzbarer zu machen.
SAP hat Vora aus SAP HANA heraus entwickelt, um spezifische Geschäftsfälle mit großen Datenmengen anzugehen. Hadoop bietet kostengünstigeren Speicher für große Datenmengen, aber die Akzeptanz verzögerte sich zunächst im Unternehmen, da die Daten in einem Datalake unstrukturiert sind und schwer zu verarbeiten sein können.
SAP Vora baut strukturierte Datenhierarchien für die Hadoop-Daten auf und integriert sie mit Daten von HANA, um eine OLAP-ähnliche In-Memory-Analyse der kombinierten Daten über eine Apache Spark Structured Query Language (SQL)-Schnittstelle zu ermöglichen.
Warum benötigen wir SAP Vora?
SAP Vora hilft die Lücke zwischen Unternehmensdaten und Big Data zu schließen.
Vor 5 Jahren waren für Unternehmen Unternehmensdaten noch „Must have data“ und Big Data „Nice to have data“. Aber laut der aktuellen Studie nach Gartner und Harvard ist auch Big Data jetzt Teil von „Must have data“ geworden, da die Analysen der Big Data verschiedene Einblicke bieten, die für das Wachstum des Unternehmens sehr hilfreich sind und gegenüber den Mitbewerbern einen Wettbewerbsvorteil bieten. Aber nicht nur nach den Studien, auch persönliche Erfahrung zeigt, dass immer mehr Kunden das Thema mit auf dem Schirm haben und aktiv angehen.
Sobald jedoch Big Data Teil von „Must have data“ wird stehen wir damit vor zwei großen Problemen: Große Daten werden in einer kostengünstigeren und verteilten Umgebung gespeichert, in der komplexe analytische Anforderungen in einer solchen Umgebung ausgeführt werden, was zu keiner guten Abfrageleistung führt.
Berichte, die die Kombination von Unternehmensdaten und Big Data erfordern, werden immer anspruchsvoller bzgl. Entwicklung und Wartung, da sich beide Daten in unterschiedlichen Landschaften befinden.
SAP Vora hilft dabei die beiden Probleme zu lösen und die Lücke zwischen Unternehmensdaten und Big Data zu schließen.
Das Kernproblem der Unternehmen
Jährlich fallen in einem Unternehmen riesige Mengen an Daten – Tendenz massiv steigend! Der Speicher um diese Daten zu speichern wird zwar immer günstiger, aber immer noch zu teuer, um alle anfallenden Daten zu speichern. Da stellt sich die Frage, was Unternehmen tun können, um das Problem zu lösen. Einfach die alten und nicht genutzten Daten löschen, um so Kosten zu sparen? Wäre eine Möglichkeit, jedoch sind Daten „das Gold des 21. Jahrhunderts“, daher würde ein Unternehmen sich nur selbst schaden. Also muss eine andere Lösung her.
Und genau hier kommt Hadoop ins Spiel: Ein extrem günstiger Speicher. Hadoop bietet den Vorteil, dass ich auch unstrukturierte Daten ablegen kann ohne mir davor Gedanken machen zu müssen wie ich diese ablegen kann. Also kann ich einfach alle Daten in den Datalake platzieren.
Was ist Hadoop und Apache Spark?
Hadoop ist eine Java basierende Open-Source-Software, mit der sich große Datenmengen auf verteilten Systemen verarbeiten lassen. Somit wirkt Hadoop unterstützend bei der Bewältigung der Datenverarbeitung im Big-Data-Umfeld. Um zu verstehen, wie sich große Datenmengen in einer verteilten Landschaft speichern lassen, erkläre ich Ihnen die einzelnen Bestandteile von Hadoop.
Bestandteile von Hadoop
Die vier zentralen Komponente von Hadoop sind:
- Hadoop Common
- Hadoop Distributed File System (HDFS)
- der MapReduce-Algorithmus
- der Yet Another Resource Negotiator (YARN)
Bei Hadoop Common handelt es sich um die Grundfunktion, die für die weiteren Komponenten von großer Bedeutung sind. Die Kommunikation erfolgt dabei über Schnittstellen, worüber sich die Zugriffe auf darunterliegende Dateisysteme oder die Kommunikation innerhalb der Cluster steuern lassen.
Hadoop Distributed File System (HDFS) ist ein verteiltes Dateisystem, welches riesige Datenmengen auf verschiedenen Dateisystemen in einem Rechnerverbund speichert. Mit den Mechanismen zur Duplizierung und redundanten Speicherung der Daten können bei einem Ausfall einzelner Rechner (Knoten) auf ein anderen Backup-Knoten zurückgegriffen werden.
Der MapReduce-Algorithmus erlaubt es komplexe und rechenintensive Verarbeitungen von Daten in Einzelaufgaben aufzuteilen und auf mehreren Systemen parallel ausführen zu lassen. Dadurch lassen sich große oder unstrukturierte Datenmengen mit einer hohen Rechengeschwindigkeit verarbeiten. Denn in den meisten Fällen ist es nicht so einfach, Daten zu verarbeiten, wenn sie in einem unstrukturierten Dateiformat gespeichert sind. Am Ende werden die Teilergebnisse dann zu einem Gesamtergebnis zusammengeführt.
Bei dem Yet Another Resource Negotiator (YARN) handelt es sich um eine Erweiterung zum MapReduce-Algorithmus und dient als Cluster Ressourcenmanagementsystem von Hadoop. Cluster-Ressourcenmanagement bedeutet, die Ressourcen der Hadoop-Cluster zu verwalten. YARN hat die Aufgabe des Cluster-Managements von MapReduce übernommen und MapReduce wird rationalisiert, um die Datenverarbeitung nur dort durchzuführen, wo sie am besten ist.
Apache Spark
Apache Spark ist ein von der SQL-Engine bereitgestelltes Cluster Computing Framework für die groß angelegte Datenverarbeitung, mit der die HDFS-Dateien strukturiert und die Daten über SQL verarbeitet werden.
SAP Vora dient hierbei als interaktive Schnittstelle zu den Daten und deren Verarbeitung. Es bietet die Möglichkeit die Daten, die sich innerhalb der Open-Source-Hadoop und Apache Spark-Framework befinden zu verarbeiten.
SAP Vora kann als eigenständige Lösung oder in Abstimmung mit der SAP HANA-Plattform eingesetzt werden, um die unternehmensweite Analyse auf Hadoop-Cluster auszudehnen.
SAP Vora wird mit einem Modellierungstool geliefert, mit dem der Benutzer folgende Aktivitäten durchführen kann:
- Der Datenbrowser ermöglicht es Ihnen, die verfügbaren Tabellen, Ansichten, Dimensionen und Cubes in der Vora-Engine anzuzeigen. Es ermöglicht Ihnen auch, eine Vorschau der Daten zu erhalten, die Daten als CSV-Datei herunterzuladen, die Spalten zu filtern und zu aktualisieren.
- Der SQL Editor ermöglicht es Ihnen, die Abfragen auf der Vora-Engine mit Vora SQL auszuführen, es zeigt Ihnen auch die Kompilierungswarnungen, Fehler und Ausgaben sowie das Ergebnis der Abfrage, wenn Sie den select ausführen.
- Der Modeler kann verwendet werden, um SQL-Ansichten, Dimensionen oder Cubes zu erstellen.
Lückenschließung zwischen Unternehmensdaten und Big Data
Wie hilft SAP Vora nun die Lücke zwischen Unternehmensdaten und Big Data zu schließen?
SAP Vora bietet eine Benutzeroberfläche, mit der der Benutzer seine Hadoop-Daten einfach modellieren und Datenanalysen einfach durchführen kann.
Hadoop kann zwar eine große Menge an detaillierten Daten zu niedrigeren Kosten speichern und darauf zugreifen, ist aber nicht so gut geeignet für die schnelle und detaillierte Bearbeitung heutiger Geschäftsfragen.
Um dieses Problem zu lösen, verwenden wir das Prinzip der Multi-Temperatur-Datenmanagementlösung. Die Daten werden den Kategorien „hot“, „warm“ und „cold“ zugeordnet. Ausschlaggebend ist dabei, wie entscheidend die gespeicherten Daten für das aktuelle Geschäft sind und wie häufig auf sie zugegriffen werden. Im Allgemeinen erfordern heiße Daten jedoch den schnellsten und teuersten Speicher, da auf sie häufiger zugegriffen wird, und kalte Daten, auf die seltener zugegriffen wird, können auf langsameren und damit kostengünstigeren Medien gespeichert werden.
SAP Vora ist eine In-Memory-Verarbeitungsmaschine, die auf einem Hadoop-Cluster läuft und eng mit Spark integriert ist. Es ist für den Umgang mit großen Datenmengen konzipiert. SAP Vora stellt OLAP-ähnliche Funktionen auf Hadoop zur Verfügung, bietet eine tiefere Integration mit SAP HANA und ermöglicht leistungsstarke Analysen.
Die Berichte, die die Kombination von Unternehmensdaten und Big Data fordern sind oftmals sehr komplex und anspruchsvoll, da sich beide Daten in unterschiedlichen Landschaften befinden. Um dies zu vereinfachen verwenden wir SAP Vora.
Unternehmensdaten werden in HANA gespeichert und nicht so häufig genutzte aber dafür große Datenmengen, auch Cold Data genannt, werden in Hadoop gespeichert. Wenn der Benutzer also einen Bericht benötigt, der beide Daten kombiniert, können Hadoop-Daten virtualisiert (SDA) und mit HANA-Daten verknüpft werden, und dann können sie gemeldet werden. Dieser Prozess wird durch den Vora-Stecker vereinfacht.
Und auch wenn der Anwender ältere Daten in HANA archivieren und nach Hadoop verschieben und mit anderen Hadoop-Daten kombinieren möchte, dann kann das auch nahtlos mit dem HANA Data Warehouse Foundation Tool – DLM mit Vora Connector erreicht werden. In diesem Fall können die archivierten Daten je nach Wunsch des Benutzers von der HANA-Seite oder von der Hadoop-Seite abgerufen werden.
SAP Vora in Ihrem Unternehmen
Mit SAP Vora liefert die SAP In-Memory-Query-Engine, die auf dem Apache Spark Framework läuft und eine bidirektionale Verbindung zwischen HANA und Hadoop bietet. Brauchen Sie eine persönliche Beratung bzgl. SAP Vora? Unsere Mitarbeiter des Fachbereichs Compamind sind Experten auf dem Gebiet und bieten Ihnen gern ein erstes unverbindliches Beratungsgespräch an. Kontaktieren Sie uns einfach.
Für weitere Informationen zum Thema SAP Vora schauen Sie sich gerne unsere Knowhowseite an.
Vielen Dank für das Lesen meines Beitrags. Ich freue mich auf Ihre Kommentare.
Ihr Swen Deobald
Kostenlose Websession
Sie brauchen mehr Input rund um das Thema SAP Vora und Datenverteilung? Lassen Sie uns in einer kostenlosen Websession über Ihre Herausforderungen und Möglichkeiten sprechen. Nachdem Sie das Formular ausgefüllt haben werde ich Sie anrufen, um einen passenden Termin zu vereinbaren.