COMPAMIND » Knowhow / SAP BusinessObjects

17. März 2023

SAP Vora

Entdecken Sie SAP Vora, die SQL-on-Hadoop-Lösung für Großdatenanalyse. Hier erfahren Sie, wie Sie Ihr BI-System um die Analyse von großen Datenmengen erweitern können.

Inhaltsverzeichnis

Definition
1. Hadoop
2. SAP HANA
Datenplattform
Zielgruppe
Kernfunktionen
Einsatzmöglichkeiten
Vora Engines
Fazit
FAQ
1. Was ist SAP Vora?
2. Welche Vorteile hat SAP Vora?

Definition

SAP Vora ist eine SQL-on-Hadoop-Lösung, welche Sie auf allen Ihren Worker-Knoten in Ihrem bestehenden Hadoop-Cluster installieren können. Ursprünglich wurde es als Großdatenlösung entwickelt, um eine OLAP-ähnliche Umgebung für die Großdatenanalyse bereitzustellen, sodass Unternehmen große Datenmengen in ihr bestehendes BI-System integrieren können. CDH, HDP und MapR werden alle unterstützt, einschließlich der Installation über ihre Cluster-Management-Tools. Dadurch wird auf jeder Maschine, die dauerhaft laufen soll, ein Prozess gestartet. Für diesen Prozess gibt es keine einheitliche Namensgebung. Die Dokumentation nennt es V2Server, Vora Worker, Vora In-Memory Engine oder Vora Execution Engines.

Hadoop

Vora läuft als ein Dienst in der Hadoop-Umgebung und steigert die Leistung von Spark. Darüber hinaus kann Vora Daten von SAP HANA nach Spark lesen und Tabellen auch bidirektional nach HANA zurückschreiben. Vor Vora war dies nicht möglich. HANA-Daten mussten physisch in das verteilte Dateisystem (HDFS) von Hadoop übertragen werden, um die Analyse mit beiden Datenquellen durchzuführen.

SAP HANA

Während SAP HANA allein eine hervorragende Plattform mit vielen verschiedenen Integrationsdiensten, Datenbanken und Anwendungen ist, ist es zugleich eine nicht verteilte Big Data-Lösung. Hier ist SAP Vora hingegen in der Lage, eine verteilte In-Memory-Verarbeitung durchzuführen und erweitert Hadoop und Spark um wichtige analytische In-Memory-Funktionen. Dank seiner verteilten Parallelität können wir damit große Datenszenarien bewältigen, bei denen SAP HANA allein zu restriktiv wäre.

SAP HANA in Kombination mit SAP Vora bieten das perfekte Szenario für große Datenmengen und Analysen: SAP HANA kann Transaktionsdaten und rohe, unstrukturierte SAP Vora-Daten speichern, die beide für analytische Zwecke mit den leistungsstarken Funktionen von SAP HANA kombiniert werden können.

Datenplattform

Die meisten Branchen laufen bereits auf sehr verteilten Datenlandschaften. Diese können von Hadoop oder einigen verteilten SQL-Datenbanken, SAP HANA, etc. ausgehen. Die HANA Kunden überlegten gleichzeitig, ihre Datenplattform um Petabyte an Daten zu erweitern. Sie haben dadurch einerseits ihre Unternehmensdaten, und andererseits haben sie diese neuartigen Datensignale, die in der Hadoop-Landschaft gespeichert sind. Sie müssen diese beiden Quellen kombinieren, um zu verstehen, was in sozialen Kreisen ihres Konsumumfeldes passiert, und können das im nächsten Schritt mit den Informationen über ihre Verkaufsstellen verbinden.

Big Data

Alternativ könnte es ein Echtzeit-Szenario sein, bei dem Unternehmensdaten und Big Data korreliert werden müssen. Ein einfaches Beispielszenario ist, dass das Unternehmen während der Bearbeitung eines Kundenauftrag, Kunden auf der Grundlage ihrer Transaktionshistorie spezielle Rabatte gewähren möchte. Die aktuellen Transaktionsdaten sind in HANA verfügbar und die alten Daten werden nach Hadoop verschoben. Tatsächlich muss die Analyse anhand von Daten durchgeführt werden, die durch die Korrelation der jüngsten Daten aus HANA und der alten Daten in Hadoop erstellt wurde. Außerdem muss diese im Handumdrehen und schneller verarbeitet werden. das ist möglich, da HANA als In-Memory-Datenbank sehr viel schneller läuft. Auch SAP Vora ist eine In-Memory-Query-Engine und kann auf Daten aus Hadoop zugreifen, sodass auch hier einige davon schneller verarbeiten können.

Datenverarbeitung

Die zu diesem Zeitpunkt bestehenden Produkte innerhalb von SAP erlauben es den Kunden nicht, diese Datenverarbeitung zu skalieren und auszuführen, wenn sie Daten haben, die auf Zehntausende von Knoten wachsen müssen. Obwohl Hadoop einen kostengünstigen Speicher für große Datenmengen bietet, zögern manche Unternehmen, diesen zu übernehmen, da es schwierig erscheint, mit den unstrukturierten Daten in den Datenseen umzugehen. Genau hier setzt SAP Vora an. Es wurde entwickelt, um spezifische Geschäftsfälle mit großen Datenmengen anzugehen.

Nun können Unternehmen die Daten verarbeiten, die sich innerhalb der Open-Source-Hadoop- und Apache Spark-Frameworks befinden.

Datenhierarchien

SAP Vora baut strukturierte Datenhierarchien für die unstrukturierten Daten in Hadoop auf und integriert sie mit den Daten aus HANA. Über die Apache Spark SQL-Schnittstelle ermöglicht es dann eine OLAP-artige In-Memory-Analyse der kombinierten Daten. Vora dient demnach als Vermittler, wenn sich zwischen SAP HANA und Hadoop die Kompatibilitätsfrage stellt. Spark ist nicht gut mit HANA Systems und HANA Clouds kompatibel, sodass SAP etwas entwickelt hat, das dem Spark-Framework folgt und auch HANA-Adapter für die Datenkonnektivität hat. Normalerweise sind alle diese Daten in Hadoop unstrukturiert und SQL kann nicht sofort darüber hinaus ausgeführt werden. Hier schafft Vora einen Mehrwert und bietet eine Brücke zwischen HANA & Hadoop.

Zielgruppe

Datenwissenschaftler können neue Modellierungstechniken mit einer Kombination aus Geschäfts- und Hadoop-Daten ausprobieren, um Muster zu entdecken. Sie können dies tun, ohne Datenkopien in Datenseen zu duplizieren.
Business-Analysten können interaktive Abfragen sowohl für Geschäfts- als auch für Hadoop-Daten verwenden, um Ursachenanalysen durchzuführen und den Geschäftskontext besser zu verstehen.
Softwareentwickler können mit ihren vertrauten Programmierwerkzeugen eine Abfragemaschine in Anwendungen einsetzen, die sich über Unternehmens- und Hadoop-Systeme erstrecken können.

Kernfunktionen

Eine offene Entwicklungsschnittstelle.
Eine In-Memory-Query-Engine, die auf dem Apache Spark Framework läuft.
Unterstützung für wichtige Hadoop-Distributionen.
Zusammengestellte Abfragen zur beschleunigten Verarbeitung über Hadoop Distributed File System-Knoten hinweg.
Erweiterte Spark SQL-Semantik mit Hierarchien für OLAP- und Drill-Down-Analysen.
Verbesserte Mash-Up Anwendungsprogrammierschnittstellen für einen einfacheren Zugriff auf Unternehmensanwendungsdaten für Workloads zum maschinellen Lernen.
Bietet eine bidirektionale Verbindung zwischen HANA und Hadoop.
Intuitive Benutzeroberfläche “Vora-Tools” mit SQL-Zugriff auf große Datenmengen und Drag-and-Drop zum Erstellen von Modellen. Mit einer Web-Benutzeroberfläche stehen BI-Analysten ähnliche Analyse-Umgebungen zur Verfügung, so dass sie keine neuen Skriptsprachen wie Java, Python oder Scala erlernen müssen. Mit den Vora-Tools können Analysten Daten einfach mit dem Data Modeler importieren und analysieren und mit SQL abfragen. Für Analysten, die nicht mit Terminal-Shell-Skripten oder Scripting-Sprachoptionen in Spark, aber mit der Erstellung von Datenmodellen in HANA vertraut sind, benötigt Vora daher keine Lernkurve.
Produktionsreife, skalierbare Lösung mit unternehmensweiter Sicherheit und einfach zu bedienender Verwaltungskonsole.

Einsatzmöglichkeiten

SAP HANA Vora kann auf verschiedenen Plattformen wie Hortonworks, Cloudera, MAPR oder Amazon EMR eingesetzt werden. Für den VORA-Entwickler 1.2 steht eine Probefahrt zur Verfügung. In Hortonworks wird eine Probefahrt durchgeführt und der Zeppelin ist vorinstalliert. Jede Probefahrt dauert drei Stunden ohne Gebühren.

Vora Developer 1.2 ist auch über die SAP Cloud-Bibliothek verfügbar. Die Nutzung von VORA über AWS erfordert ein Amazon Web Service(AWS)-Konto. Beide Versionen werden mit Demo-Datensätzen und Demo-Notebooks ausgeliefert, so dass Sie die Grundfunktionen von VORA testen können.

Vora 1.3

SAP hat Vora 1.3 im Dezember 2016 veröffentlicht, das gegenüber der Vorgängerversion 1.2 wesentliche Verbesserungen aufweist. Vora Modeler bietet eine Reihe neuer Funktionen, die mit Vora 1.3 eingeführt wurden, und wir decken hier nur die wichtigsten ab. Ab 1.3 können Sie auch HANA-Tabellen/Views aus dem Vora Modeler aufrufen.

Vora 1.3 ermöglicht außerdem die Erstellung des OLAP-Modells auf beiden Datenquellen. Das folgende Modell bringt Daten aus der HANA-Quelle und HDFS. Dies zeigt, wie Unternehmensdaten, die auf einem SAP-System oder Fremdsystem liegen, mit Data-See-Szenarien in Hadoop zusammengeführt bzw. kombiniert werden können. Vora bietet demnach viel mehr Funktionen und ist sehr leistungsfähig.

Hierarchien aufbauen: Es kann eine stufenbasierte Hierarchie oder eine Eltern-Kind-Hierarchie erstellt werden. Das Erstellen von Hierarchien mit dem Vora Modeler ist sehr einfach und bietet viele Funktionen zum Erstellen und Abfragen von Hierarchien auf jeder Ebene.

Vora 1.4

Im März 2017 wurde mit dem Release Version 1.4 aus SAP HANA Vora SAP Vora. Die wichtigsten Verbesserungen sind:

Bis 1.3 gab es nur die relationale In-Memory-Unterstützung. Bei 1.3 begann die Unterstützung mehrerer Engines. Die Version 1.4 hat die eigenständige relationale In-Memory-Unterstützung entfernt und als Engine wieder hinzugefügt. Mit der Ausnahme der Plattenmaschine, die Daten zur Verarbeitung in den Speicher hebt und danach ablegt, speichern andere Motoren ihre Daten im Speicher.

Vora Engines

Vora bietet verschiedene Engines auf einer Plattform an, auf der Sie verschiedene Datenquellen kombinieren können. Dadurch werden Komplikationen bei der Einrichtung einzelner Tools reduziert und die einfache Übernahme der verarbeiteten Daten in SAP HANA ermöglicht.

Time Series Engines

Dieser Engine ist optimiert für die Speicherung und Analyse von Zeitreihendaten. Sie unterstützt auch die Kompression von Zeitreihen, Partitionierung, das Abrufen von Histogrammen und vieles mehr. Die Zeitreihen-Engine von Vora verarbeitet Daten mit Zeitstempeln wie sensor- oder transaktionsbasierten Daten wie z.B. IoT, Weblog oder Clickstream-Daten. Bei einer herkömmlichen Datenbank kann die Verarbeitung von Zeitreihendaten aufgrund ihres Umfangs und der Geschwindigkeit der Daten schwierig sein. Diese Datentypen erfordern geeignete Kompressionsverfahren, Partitionsschemata und Granularisierungsunterstützung. Mit der richtigen Komprimierungstechnik können Datenpunkte, die den Trend darstellen, oder Datenpunkte, die den Fehleranteil überschreiten, nur speicherplatzsparend aufgezeichnet werden, anstatt alle Datenpunkte aufzuzeichnen.

Graph Engine

Bei einem verknüpften Datensatz mit großem Volumen kann die Speicherung der Daten in einer Grafik-Engine die Abfrageeffizienz erhöhen. Grafikmodelle können One-to-Many-Beziehungen auf einfachere Weise handhaben, indem sie Fremdschlüssel in RDBMS in Beziehungen zwischen Knoten konvertieren. Dadurch wird die Komplexität reduziert. Außerdem benötigt die Graph-Engine ebenso wie die Document Store Engine keine Kenntnis des Datentyps zum Einfügen von Daten, was sie dazu geeignet macht, neue Daten mit unterschiedlichen Strukturen in Echtzeit hinzuzufügen.

Document Store Engine

Genau wie MongoDB oder CouchDB kann die Document Store Engine von Vora dokumentenorientierte Daten aufnehmen. Dokumentenorientierte Datensätze sind semi-strukturiert, d.h. Dokumente in derselben Sammlung (analog zu einer Tabelle im RDBMS) können unterschiedliche Felder aufweisen. In einer relationalen Datenbank müssen alle Zeilen einer Tabelle die gleiche Struktur haben und die Datentypen der einzelnen Attribute müssen vor dem Import der Daten zugeordnet werden. Bei der Document Store Engine gibt es jedoch kein vordefiniertes Tabellenschema für den Datenimport.

Disk Engine

Die Version 1.3 hatte die Einschränkung, dass sie nur auf einem einzigen Knoten verfügbar ist. Version 1.4 hat diese Einschränkung aufgehoben, um den Datenzugriff zu beschleunigen. Die Funktionen sind nun mit der relationalen In-Memory-Engine identisch. Die Daten, die aus Datenquellen wie HDFS geladen werden, können problemlos in diese Disk-Engine geschoben werden. Die Plattenmaschine ist in der Tat ein säulenförmiger relationaler Speicher, das Abfragen von Daten aus einem optimierten Datenspeicher ist schneller als das Lesen und das Interpretieren von Daten aus einer Datenquelle.

Hadoop-Infrastruktur

Vora läuft nativ auf Hadoop-Knoten. Das bedeutet, dass Sie die Hadoop-Administrationswerkzeuge verwenden, um Vora zu installieren und zu überwachen. Außerdem hat Vora die Datenlokalität, wo sich die einzelnen Datenstücke über diesen Hadoop-Knoten befinden. So kann es diese Vora-Sequel-Engine nutzen, um diese Daten schneller zu verarbeiten und die LLVM-Optimierung (Compiler Framework) zu verwenden, die in der Lage ist, die Daten viel schneller zu verarbeiten und dann die Daten zu verbinden, die von den verteilten Knoten kommen.

Erweiterte Funktionen

SAP Vora bietet für das Spark Execution Framework erweiterte Funktionen, wie z.B. Datenhierarchien, die eine Drill-Down-Verarbeitung von Rohdaten ermöglichen. Um die Verwendung der Daten im Geschäftsumfeld zu erleichtern, bietet Vora auch Funktionen wie Währungsumrechnung, Mengeneinheitenumrechnung und zeitabhängige Hierarchien.

Verbesserter Smart Data Access

Vora bietet diese bidirektionale Konnektivität durch die Verbesserung des Smart Data Access. Mit Smart Data Access konnten wir nur die Hadoop-Daten von HANA konsumieren. Aber mit Vora können Sie auch die SAP-Daten oder HANA-Daten von Hadoop oder Spark mit den Möglichkeiten von Vora übernehmen. Vor Vora war der einzige Weg, Zugang zu diesen SAP-Daten zu erhalten, ETL-Technologien zu verwenden, um die Daten von HANA physisch in Hadoop zu verschieben, und dann Ihre Datenwissenschaftler alle Algorithmen ausführen zu lassen, die sie auf Spark aufbauen.

Mit Vora können Sie dies als virtuelles Artefakt darstellen, was bedeutet, dass Sie sich keine Sorgen um Delta-Ladungen oder Datenkonsistenz machen müssen, da sich die Daten neu geladen werden. Die Daten werden nicht physisch zwischen den Systemen verschoben. Wenn ETL genutzt wurde, muss auch ETL-Datenmoment und Delta-Loads in Hadoop verwendet werden. Aber die Bereitstellung eines virtualisierten Zugriffs bedeutet, dass Sie sich um all diese Dinge keine Sorgen machen müssen.

Die Sicht ist immer für Vora oder Spark verfügbar und kann die Daten bei der Aktualisierung der Daten auf der ERP-Seite oder auf der HANA-Seite verbrauchen. Es kann also eine S/4HANA-Anwendung sein, die eine ERP-Anwendung ist oder ein SAP BW. Wenn Sie in einem BW-Szenario InfoCubes haben, die sich auf Ihrem HANA-System befinden, können Sie diese InfoCubes als Kalkulationssicht darstellen. Sobald Sie diese als Kalkulationsansicht darstellen, kann die Kalkulationsansicht von Vora über die Datenquellen-API verwendet werden.

Spark-Controller

Weitere wesentliche Vorteile von Vora sind, dass es die bestehende ODBC- und JDBC-Konnektivität durch den direkten Zugriff auf Hadoop und Spark über HANA Vora mit dem Spark-Controller ersetzt. Wenn die ODBC-Treiber von Drittanbietern verwendet wurden, konnten die ODBC-Treiber manchmal zu Inkonsistenzen im Prozess des HANA-Index-Servers führen. Der Index-Server ist einer der Kernprozesse von HANA. Vora bietet eine tiefere Integration mit Hadoop, da die Engine nativ auf jedem der Hadoop- und Spark-Knoten läuft. Es gibt also eine enge Integration zwischen Spark und Vora, wo wir von der Vora-Seite aus einen eigenen SQL-Kontext erstellt haben.

Genau wie Sie den Spark SQL-Kontext haben, haben wir einen SAP SQL-Kontext bereitgestellt. Der ermöglicht es Ihnen, mit der Vora SQL-Engine die Daten zu verarbeiten, die in HDFS, S3 oder einem der Datenformate gespeichert sind. Zukünftige Integrationen zu Hadoop und Spark von SAP HANA werden über Vora gesteuert. Vora bietet Funktionen für den Datenverbrauch sowohl von Hadoop und Spark als auch von SAP HANA, wobei die verwendete Berechnung nativ verwendet wird, wobei es sich um eine CDS-Sicht oder einen BW-InfoCube handelt, der als Kalkulationssicht dargestellt werden kann. Damit wird die Plattform auch auf Datenwissenschaftler ausgedehnt.

Auch wenn Sie aus dem Szenario “outside in” kommen, können die Datenwissenschaftler SAP konsumieren, ohne diese Daten physisch in die Hadoop-Schicht laden zu müssen. Kunden, die SDA für die Verbindung mit Hadoop verwendet haben, können Smart Data Access und Spark Controller weiterhin nutzen. Aber wenn es um eine tiefere, optimierte Integration geht, dann empfehlen wir, sich mit SAP HANA Vora und seinen Angeboten zu befassen. Neben der HANA-Integration bietet Vora auch Berichte im OLAP-Stil über Hadoop, indem es die Vorteile der Enterprise Analytics-Funktionen wie Hierarchien nutzt und die nativen Hadoop-Dateiformate wie Parquet und ORC unterstützt.

Vora liefert auch Leistungsoptimierungen. Da es nativ im Hadoop-Ökosystem läuft und Technologien wie LLVM-Funktionen nutzt, um SQL-Code in C-Code zu übersetzen oder zu konvertieren. Das ist es, was die Vora-Integrationskonnektivität auf hohem Niveau ist.

Distributed-Computing-Framework

SAP HANA Vora bietet ein Distributed-Computing-Framework im Unternehmensmaßstab, um Ihre Daten zu beschleunigen, zu innovieren und zu vereinfachen. In der Lage, diese beiden zusammenzubringen, bietet Vora also diese Schicht auf Hadoop. Es ermöglicht Ihnen eine leistungsstarke und flexible Analytik im Hinblick auf Innovationen. Zudem bietet Vora die Chance, unternehmenstaugliche und fortschrittliche Analysefunktionen bereitzustellen. So sind Unternehmen in der Lage, diese Analysen auf Enterprise-Niveau zu liefern. Enterprise Grade Analytics bedeutet dabei, nicht nur einfaches Reporting SQL darüber hinaus zu betreiben, sondern auch komplexe Funktionen einzubauen.

Sie können Vora verwenden, um Hadoop-Daten in HANA zu schreiben, aber „write to Hadoop” ist eine Roadmap-Funktion, die für zukünftige Releases geplant ist.

Fazit

SAP Vora ermöglicht die Verarbeitung der unternehmenseigenen, strukturierter Daten und großen Daten in Hadoop für Echtzeit-Geschäftsanwendungen und -analysen, indem es einen Überblick über die Rohdaten auf Unternehmensniveau bietet. Das ermöglicht die Kombination von Geschäftsdaten mit externen Datenquellen, indem es eingehende Daten von Kunden, Partnern und intelligenten Geräten in Unternehmensprozesse einfügt und so dem Unternehmen hilft, bessere Entscheidungen durch einen größeren Kontext zu treffen.

Vora ist eine Erweiterung von Apache Spark und ermöglicht die Verarbeitung von Daten aus HDFS im Speicher. Auch SAP Vora verlässt sich nicht auf SAP HANA, und eines der wichtigsten Merkmale von Vora ist die gute Integration mit HANA. Es kann seine lokalen Tische mit Tischen von HANA verbinden oder umgekehrt. Es hilft, SAP HANA- und Hadoop-Daten zu korrelieren, um einen schnellen Überblick zu erhalten und kontextbezogene Entscheidungen zu treffen, die entweder auf Hadoop oder in SAP HANA verarbeitet werden können.

FAQ

Was ist SAP Vora?

Welche Vorteile hat SAP Vora?

SAP Vora verbessert Ihre Big-Data-Nutzung und die allgemeine Datenverarbeitung für einen effektiveren Einsatz der Informationen.

Wer kann mir beim Thema SAP Vora helfen?

Wenn Sie Unterstützung zum Thema SAP Vora benötigen, stehen Ihnen die Experten von Compamind, dem auf dieses Thema spezialisierten Team der mindsquare AG, zur Verfügung. Unsere Berater helfen Ihnen, Ihre Fragen zu beantworten, das passende Tool für Ihr Unternehmen zu finden und es optimal einzusetzen. Vereinbaren Sie gern ein unverbindliches Beratungsgespräch, um Ihre spezifischen Anforderungen zu besprechen.

Xing

LinkedIn

Facebook

E-Mail

Ingo Biermann

Als Management- und Technologieberater unterstütze ich seit mehr als 15 Jahren große und mittelständische Unternehmen in Fragen der IT-Strategie und bin unterwegs in unterschiedlichen SAP-Themen wie SAP S/4HANA, User Experience und SAP Entwicklung.

Sie haben Fragen? Kontaktieren Sie mich!

Ihnen gefällt dieser Artikel? Abonnieren Sie unsere News und Blogbeiträge!

Tragen Sie Ihre E-Mail ein und Sie erhalten regelmäßig eine Zusammenstellung unserer aktuellen Blogbeiträge.

SAP Vora

Inhaltsverzeichnis