SAP Vora

SAP Vora ist eine SQL-on-Hadoop-Lösung. Es wurde ursprünglich als Großdatenlösung entwickelt, um eine OLAP-ähnliche Umgebung für die Großdatenanalyse bereitzustellen, sodass Unternehmen große Datenmengen in ihr bestehendes BI-System integrieren können.

Was ist SAP Vora?

Vora ist ein Tool, das Sie auf allen Ihren Worker-Knoten in Ihrem bestehenden Hadoop-Cluster installieren können (CDH, HDP und MapR werden alle unterstützt, einschließlich der Installation über ihre Cluster-Management-Tools). Dadurch wird auf jeder Maschine, die dauerhaft laufen soll, ein Prozess gestartet. Für diesen Prozess gibt es keine einheitliche Namensgebung. Die Dokumentation nennt es V2Server, Vora Worker, Vora In-Memory Engine oder Vora Execution Engines.

Vora läuft als ein Dienst in der Hadoop-Umgebung und steigert die Leistung von Spark. Darüber hinaus kann Vora Daten von SAP HANA nach Spark lesen und Tabellen auch nach HANA zurückschreiben (bidirektional). Vor Vora war dies nicht möglich. HANA-Daten mussten physisch in das verteilte Dateisystem (HDFS) von Hadoop übertragen werden, um die Analyse mit beiden Datenquellen durchzuführen.

Während SAP HANA allein eine hervorragende Plattform mit vielen verschiedenen Integrationsdiensten, Datenbanken und Anwendungen ist, ist es eine nicht verteilte Big Data-Lösung. Hier ist SAP Vora hingegen in der Lage, eine verteilte In-Memory-Verarbeitung durchzuführen und erweitert Hadoop und Spark um wichtige analytische In-Memory-Funktionen. Dank seiner verteilten Parallelität können wir damit große Datenszenarien bewältigen, bei denen SAP HANA allein zu restriktiv wäre.

SAP HANA in Kombination mit SAP Vora bieten das perfekte Szenario für große Datenmengen und Analysen: SAP HANA kann Transaktionsdaten und rohe, unstrukturierte SAP Vora-Daten speichern, die beide für analytische Zwecke mit den leistungsstarken Funktionen von SAP HANA kombiniert werden können.

Warum SAP Vora?

Die meisten Branchen laufen bereits auf sehr verteilten Datenlandschaften. Es kann von Hadoop oder einigen verteilten SQL-Datenbanken, SAP HANA, etc. ausgehen. Und die Kunden, die HANA nutzten, überlegten gleichzeitig, ihre Datenplattform um Petabyte an Daten zu erweitern. Sie haben ihre Unternehmensdaten, und dann haben sie diese neuartigen Datensignale, die in der Hadoop-Landschaft gespeichert sind. Sie müssen diese beiden kombinieren, um zu verstehen, was in sozialen Kreisen ihres Konsumumfeldes passiert, und das mit dem verbinden, was mit ihren Verkaufsstellen passiert.

Oder es könnte ein Echtzeit-Szenario sein, bei dem Unternehmensdaten und Big Data korreliert werden müssen. Ein einfaches Beispielszenario ist, dass das Unternehmen während der Bearbeitung eines Kundenauftrags, Kunden auf der Grundlage ihrer Transaktionshistorie (z.B. für die letzten 30 Jahre) spezielle Rabatte gewähren möchte. Die aktuellen Transaktionsdaten sind in Hana verfügbar und die alten Daten werden nach Hadoop verschoben. Tatsächlich muss die Analyse anhand von Daten durchgeführt werden, die durch Korrelation der jüngsten Daten, die sich in Hana befinden, und der alten Daten, die sich in Hadoop befinden, erstellt wurden, und sie muss im Handumdrehen und schneller verarbeitet werden. Als In-Memory-Datenbank läuft Hana sehr viel schneller. SAP Vora ist auch eine In-Memory-query-Engine und kann auf Daten aus Hadoop zugreifen und einige davon schneller verarbeiten.

Die zu diesem Zeitpunkt bestehenden Produkte innerhalb von SAP erlauben es den Kunden nicht, diese Datenverarbeitung zu skalieren und auszuführen, wenn sie Daten haben, die auf Zehntausende von Knoten wachsen müssen. Obwohl Hadoop einen kostengünstigen Speicher für große Datenmengen bot, zögerten Unternehmen, diesen zu übernehmen, da es schwierig ist, mit den unstrukturierten Daten in den Datenseen umzugehen. Und das ist eines der Dinge, die Vora anbietet. SAP hat Vora entwickelt, um spezifische Geschäftsfälle mit großen Datenmengen anzugehen.

Es gab auch andere Open-Source-Produkte auf dem Markt, aber einige der Kunden fühlten sich nicht wohl dabei, sie in ihr Produktionssystem aufzunehmen. Und genau hier kam SAP ins Spiel und stellte Vora zur Verfügung, mit dem Sie die Daten verarbeiten können, die sich innerhalb der Open-Source-Hadoop- und Apache Spark-Frameworks befinden.

SAP Vora baut strukturierte Datenhierarchien für die unstrukturierten Daten in Hadoop auf und integriert sie mit Daten aus HANA, und über die Apache Spark SQL-Schnittstelle ermöglicht es dann eine OLAP-artige In-Memory-Analyse der kombinierten Daten. Vora dient als Vermittler, wenn sich zwischen SAP HANA und Hadoop die Kompatibilitätsfrage stellt. Spark ist nicht gut mit HANA Systems und HANA Clouds kompatibel, sodass SAP etwas entwickelt hat, das dem Spark-Framework folgt und auch HANA-Adapter für die Datenkonnektivität hat. Normalerweise sind alle diese Daten in Hadoop unstrukturiert und SQL kann nicht sofort darüber hinaus ausgeführt werden. Und genau hier schafft Vora Mehrwert und könnte auch eine Brücke zwischen HANA & Hadoop sein.

Unterschied: SAP BW/4HANA und SAP BW on HANA 7.5

Ist es ein neues Produkt oder eine Weiterentwicklung? Genau um diese Fragen geht es im folgenden Beitrag.

Wer profitiert von der Nutzung

  • Datenwissenschaftler können neue Modellierungstechniken mit einer Kombination aus Geschäfts- und Hadoop-Daten ausprobieren, um Muster zu entdecken. Sie können dies tun, ohne Datenkopien in Datenseen zu duplizieren.
  • Business-Analysten können interaktive Abfragen sowohl für Geschäfts- als auch für Hadoop-Daten verwenden, um Ursachenanalysen durchzuführen und den Geschäftskontext besser zu verstehen.
  • Softwareentwickler können mit ihren vertrauten Programmierwerkzeugen eine Abfragemaschine in Anwendungen einsetzen, die sich über Unternehmens- und Hadoop-Systeme erstrecken können.

Die wichtigsten Merkmale

  • Eine offene Entwicklungsschnittstelle
  • Eine In-Memory-query-Engine, die auf dem Apache Spark Framework läuft.
  • Unterstützung für wichtige Hadoop-Distributionen.
  • Zusammengestellte Abfragen zur beschleunigten Verarbeitung über Hadoop Distributed File System-Knoten hinweg.
  • Erweiterte Spark SQL-Semantik mit Hierarchien für OLAP- und Drill-Down-Analysen.
  • Verbesserte Mash-Up-Anwendungsprogrammierschnittstelle für einen einfacheren Zugriff auf Unternehmensanwendungsdaten für Workloads zum maschinellen Lernen.
  • Bietet eine bidirektionale Verbindung zwischen Hana und Hadoop.
  • Intuitive Benutzeroberfläche „Vora Tools“ mit SQL-Zugriff auf große Datenmengen und Drag-and-Drop zum Erstellen von Modellen. Mit einer Web-Benutzeroberfläche stehen BI-Analysten ähnliche Analyse-Umgebungen zur Verfügung, so dass sie keine neuen Skriptsprachen wie Java, Python oder Scala erlernen müssen. Mit den Vora-Tools können Analysten Daten einfach mit dem Data Modeler importieren und analysieren und mit SQL abfragen. Für Analysten, die nicht mit Terminal-Shell-Skripten oder Scripting-Sprachoptionen in Spark, aber mit der Erstellung von Datenmodellen in HANA vertraut sind, benötigt Vora daher keine Lernkurve.
  • Produktionsreife, skalierbare Lösung mit unternehmensweiter Sicherheit und einfach zu bedienender Verwaltungskonsole.

Wo kann ich VORA einsetzen?

SAP HANA VORA kann auf verschiedenen Plattformen wie Hortonworks, Cloudera, MAPR oder Amazon EMR eingesetzt werden. Für den VORA-Entwickler 1.2 steht eine Probefahrt zur Verfügung. In Hortonworks wird eine Probefahrt durchgeführt und der Zeppelin ist vorinstalliert. Jede Probefahrt dauert 3 Stunden ohne Gebühren.

VORA developer 1.2 ist auch über die SAP Cloud-Bibliothek verfügbar. Die Nutzung von VORA über AWS erfordert ein Amazon Web Service(AWS)-Konto mit einer Gebühr von (.51 Cent pro Stunde). Beide Versionen werden mit Demo-Datensätzen und Demo-Notebooks ausgeliefert, so dass Sie die Grundfunktionen von VORA testen können.

Verbesserungen in Vora 1.3

SAP hat Vora 1.3 im Dezember 2016 veröffentlicht, das gegenüber der Vorgängerversion 1.2 wesentliche Verbesserungen aufweist. Vora Modeler bietet eine Reihe neuer Funktionen, die mit Vora 1.3 eingeführt wurden, und wir decken hier nur die wichtigsten ab. Ab 1.3 können Sie auch HANA-Tabellen/Views aus Vora modeler aufrufen.

Erstellung des OLAP-Modells auf beiden Datenquellen. Das folgende Modell bringt Daten aus der HANA-Quelle und HDFS. Dies zeigt, wie Unternehmensdaten, die auf einem SAP-System oder Fremdsystem liegen, mit Data-See-Szenarien in Hadoop zusammengeführt bzw. kombiniert werden können. VORA bietet viel mehr Funktionen, die nicht funken können und VORA ist sehr leistungsfähig als die Verarbeitung von Ottomotoren.

Hierarchien aufbauen: Es kann eine stufenbasierte Hierarchie oder eine Eltern-Kind-Hierarchie erstellt werden. Das Erstellen von Hierarchien mit VORA modeler ist sehr einfach und bietet viele Funktionen zum Erstellen und Abfragen von Hierarchien auf jeder Ebene.

SAP Vora

Verbesserungen in Vora 1.4

Im März 2017, mit dem Release Version 1.4 wurde aus SAP ‚Hana‘ Vora SAP Vora. Die wichtigsten Verbesserungen sind:

Bis 1.3 gab es nur die relationale In-Memory-Unterstützung und 1.3 begann die Unterstützung mehrerer Engines. Version 1.4 hat die eigenständige relationale In-Memory-Unterstützung entfernt und als Engine wieder hinzugefügt. Mit Ausnahme der Plattenmaschine, die Daten zur Verarbeitung in den Speicher hebt und danach ablegt, speichern und speichern andere Motoren ihre Daten im Speicher.

Vora Engines

VORA bietet verschiedene Engines auf einer Plattform an, auf der Sie verschiedene Datenquellen kombinieren können. Dadurch werden Komplikationen bei der Einrichtung einzelner Tools reduziert und die einfache Übernahme der verarbeiteten Daten in SAP HANA ermöglicht.

Time Series Engines

Dieser Engine ist optimiert für die Speicherung und Analyse von Zeitreihendaten. Es unterstützt auch die Kompression von Zeitreihen, Partitionierung, das Abrufen von Histogrammen und vieles mehr. Die Zeitreihen-Engine von VORA verarbeitet Daten mit Zeitstempeln wie sensor- oder transaktionsbasierten Daten (z.B. IoT, Weblog, Clickstream-Daten). Bei einer herkömmlichen Datenbank kann die Verarbeitung von Zeitreihendaten aufgrund ihres Umfangs und der Geschwindigkeit der Daten schwierig sein. Diese Datentypen erfordern geeignete Kompressionsverfahren (Abb. 1), Partitionsschemata und Granularisierungsunterstützung. Mit der richtigen Komprimierungstechnik können Datenpunkte, die den Trend darstellen, oder Datenpunkte, die den Fehleranteil überschreiten, nur speicherplatzsparend aufgezeichnet werden, anstatt alle Datenpunkte aufzuzeichnen. 

Graph Engine

Bei einem verknüpften Datensatz mit großem Volumen kann die Speicherung der Daten in einer Grafik-Engine die Abfrageeffizienz erhöhen. Grafikmodelle können One-to-Many-Beziehungen auf einfachere Weise handhaben, indem sie Fremdschlüssel in RDBMS in Beziehungen zwischen Knoten konvertieren. Dadurch wird die Komplexität hinzugefügten Tischen reduziert. Außerdem benötigt die Graph-Engine, wie die Document Store Engine, keine Kenntnis des Datentyps zum Einfügen von Daten (schemafrei), was sie geeignet macht, neue Daten mit unterschiedlichen Strukturen in Echtzeit hinzuzufügen.

Document Store Engine

Genau wie MongoDB oder CouchDB kann die Document Store Engine von VORA dokumentenorientierte Daten aufnehmen. Dokumentenorientierte Datensätze sind semi-strukturiert, d.h. Dokumente (analog zu einer Zeile im RDBMS) in derselben Sammlung (analog zu einer Tabelle im RDBMS) können unterschiedliche Felder aufweisen. In einer relationalen Datenbank müssen alle Zeilen einer Tabelle die gleiche Struktur haben und die Datentypen der einzelnen Attribute müssen vor dem Import der Daten zugeordnet werden. Bei der Document Store Engine gibt es jedoch kein vordefiniertes Tabellenschema für den Datenimport.

Disk Engine

Die Version 1.3 hatte die Einschränkung, dass sie nur auf einem einzigen Knoten verfügbar ist. Version 1.4 hat diese Einschränkung aufgehoben, um den Datenzugriff zu beschleunigen und die Funktionen sind nun mit der relationalen In-Memory-Engine identisch. Wir können die Daten (die aus Datenquellen wie HDFS geladen werden) in diese Disk-Engine schieben. Die Plattenmaschine ist in der Tat ein säulenförmiger relationaler Speicher, das Abfragen von Daten aus einem optimierten Datenspeicher ist schneller als das Lesen und Interpretieren von Daten aus einer Datenquelle.

Unterschiede zu anderen SAP-Werkzeugen

SAP Vora ermöglicht die Verarbeitung der unternehmenseigenen „heißen“ Daten (strukturierte Daten, die sich in Datenbanken befinden) und „kalten“ großen Daten (strukturierte/unstrukturierte Daten in Hadoop) für Echtzeit-Geschäftsanwendungen und -analysen, indem es einen Überblick über die Rohdaten auf Unternehmensniveau und auf eine sehr kostengünstige Weise bietet. Es ermöglicht die Kombination von Geschäftsdaten mit externen Datenquellen, indem es eingehende Daten von Kunden, Partnern und intelligenten Geräten in Unternehmensprozesse einfügt und so dem Unternehmen hilft, bessere Entscheidungen durch einen größeren Kontext zu treffen.

Das Wort HANA in „HANA Vora“ ist irreführend, da Vora eigentlich ein eigenständiges Produkt ist, das nicht auf HANA angewiesen ist. Mit dem Release von Vora 1.4 im März 2017 hat SAP es offiziell von’SAP Hana Vora‘ in’SAP Vora‘ umbenannt.

Vora ist eine Erweiterung von Apache Spark und ermöglicht die Verarbeitung von Daten aus HDFS im Speicher. Auch SAP Vora verlässt sich nicht auf SAP HANA, und eines der wichtigsten Merkmale von Vora ist die gute Integration mit HANA. Es kann seine lokalen Tische mit Tischen von HANA verbinden oder umgekehrt. Es hilft, SAP HANA- und Hadoop-Daten zu korrelieren, um einen schnellen Überblick zu erhalten und kontextbezogene Entscheidungen zu treffen, die entweder auf Hadoop oder in SAP HANA verarbeitet werden können.

Infografik: Timeline – SAP BW/4HANA und Project Blueberry

Unsere Timeline zeigt Ihnen die Entwicklung von SAP BW/4HANA und wann mit der Veröffentlichung von Project Blueberry zu rechnen ist.

Die folgenden Funktionen unterscheiden Vora von anderen ähnlichen SAP-Werkzeugen.

Hadoop-Infrastruktur

Das erste ist, dass Vora nativ auf Ihrem Hadoop-Knoten läuft, also ist es ein erstklassiger Bürger in dieser Hadoop-Infrastruktur. Das bedeutet, dass Sie die Hadoop-Administrationswerkzeuge verwenden, um Vora zu installieren und zu überwachen. Und auch Vora hat die Datenlokalität, wo sich die einzelnen Datenstücke über diesen Hadoop-Knoten befinden. So kann es diese Vora-Sequel-Engine nutzen, um diese Daten schneller zu verarbeiten und die LLVM-Optimierung (Compiler Framework) zu verwenden, die in der Lage ist, die Daten viel schneller zu verarbeiten und dann die Daten zu verbinden, die von den verteilten Knoten kommen.

Erweiterte Funktionen

SAP Vora bietet für das Spark Execution Framework erweiterte Funktionen, wie z.B. Datenhierarchien, die eine Drill-Down-Verarbeitung von Rohdaten ermöglichen. Um die Verwendung der Daten im Geschäftsumfeld zu erleichtern, bietet Vora auch Funktionen wie Währungsumrechnung, Mengeneinheitenumrechnung und zeitabhängige Hierarchien.

Verbesserter Smart Data Access

Vora bietet diese bidirektionale Konnektivität durch die Verbesserung des Smart Data Access. Mit Smart Data Access konnten wir nur die Hadoop-Daten von HANA konsumieren. Aber mit Vora können Sie auch die SAP-Daten oder HANA-Daten von Hadoop oder Spark mit den Möglichkeiten von Vora übernehmen. Vor Vora, für „outside in“ (d.h. Benutzer kommt von Hadoop, Spark oder Vora und sie wollen Zugriff auf die Daten, die in meinem HANA-System gespeichert sind))), war der einzige Weg, Zugang zu diesen SAP-Daten zu erhalten, ETL-Technologien zu verwenden, um die Daten von HANA physisch in Hadoop zu verschieben, und dann Ihre Datenwissenschaftler alle Algorithmen ausführen zu lassen, die sie auf Spark aufbauen.

Aber jetzt mit Vora können Sie dies als virtuelles Artefakt darstellen, was bedeutet, dass Sie sich keine Sorgen um Delta-Ladungen oder Datenkonsistenz machen müssen, da sich die Daten hier und da und wann neue Daten geladen werden. Die Daten werden nicht physisch zwischen den Systemen verschoben. Wenn du ETL gemacht hast, musstest du auch ETL-Datenmoment und Delta-Loads in Hadoop machen. Aber die Bereitstellung eines virtualisierten Zugriffs bedeutet, dass Sie sich um all diese Dinge keine Sorgen machen müssen.

Die Sicht ist immer für Vora oder Spark verfügbar und kann die Daten bei der Aktualisierung der Daten auf der ERP-Seite oder auf der HANA-Seite verbrauchen. Es kann also eine S/4HANA-Anwendung sein, die eine ERP-Anwendung ist, oder ein SAP BW. Wenn Sie in einem BW-Szenario InfoCubes haben, die sich auf Ihrem HANA-System befinden, können Sie diese InfoCubes als Kalkulationssicht darstellen. Sobald Sie diese als Kalkulationsansicht darstellen, kann die Kalkulationsansicht von Vora über die Datenquellen-API verwendet werden.

Spark-Controller

Weitere wesentliche Vorteile von Vora sind, dass es die bestehende ODBC- und JDBC-Konnektivität durch den direkten Zugriff auf Hadoop und Spark über HANA Vora mit dem Spark-Controller ersetzt. Wenn die ODBC-Treiber von Drittanbietern verwendet wurden, konnten die ODBC-Treiber manchmal zu Inkonsistenzen im Prozess des HANA-Index-Servers führen. Der Index-Server ist einer der Kernprozesse von HANA. Vora bietet eine tiefere Integration mit Hadoop, da die Engine nativ auf jedem der Hadoop- und Spark-Knoten läuft. Es gibt also eine enge Integration zwischen Spark und Vora, wo wir von der Vora-Seite aus einen eigenen SQL-Kontext erstellt haben.

Genau wie Sie den Spark SQL-Kontext haben, haben wir einen SAP SQL-Kontext bereitgestellt, der es Ihnen ermöglicht, mit der Vora SQL-Engine die Daten zu verarbeiten, die in HDFS, S3 oder einem der Datenformate gespeichert sind. Zukünftige Integrationen zu Hadoop und Spark von SAP HANA werden über Vora gesteuert. Vora bietet Funktionen für den Datenverbrauch sowohl von Hadoop und Spark als auch von SAP HANA, wobei die verwendete Berechnung nativ verwendet wird, wobei es sich um eine CDS-Sicht oder einen BW-InfoCube handelt, der als Kalkulationssicht dargestellt werden kann. Damit wird die Plattform auch auf Datenwissenschaftler ausgedehnt.

Auch wenn sie aus dem Szenario „outside in“ kommen, können die Datenwissenschaftler SAP konsumieren, ohne diese Daten physisch in die Hadoop-Schicht laden zu müssen. Kunden, die SDA für die Verbindung mit Hadoop verwendet haben, können Smart Data Access und Spark Controller weiterhin verwenden. Aber wenn es um eine tiefere, optimierte Integration geht, dann empfehlen wir, sich mit SAP HANA Vora und seinen Angeboten zu befassen. Neben der HANA-Integration bietet Vora auch Berichte im OLAP-Stil über Hadoop, indem es die Vorteile der Enterprise Analytics-Funktionen wie Hierarchien nutzt und die nativen Hadoop-Dateiformate wie Parquet und ORC unterstützt. Vora liefert auch Leistungsoptimierungen. Da es nativ im Hadoop-Ökosystem läuft und Technologien wie LLVM-Funktionen nutzt, um SQL-Code in C-Code zu übersetzen oder zu konvertieren. Das ist es, was die Vora-Integrationskonnektivität auf hohem Niveau ist.

Distributed-Computing-Framework

SAP HANA Vora bietet ein Distributed-Computing-Framework im Unternehmensmaßstab, um Ihre Daten zu beschleunigen, zu innovieren und zu vereinfachen. In der Lage, diese beiden zusammenzubringen, bietet Vora also diese Schicht auf Hadoop. Es ermöglicht Ihnen eine leistungsstarke und flexible Analytik im Hinblick auf Innovationen. Es ermöglicht es Ihnen, unternehmenstaugliche und fortschrittliche Analysefunktionen bereitzustellen. So in der Lage zu sein, diese Analysen auf Enterprise-Niveau zu liefern. Enterprise Grade Analytics bedeutet, nicht nur einfaches Reporting SQL darüber hinaus zu betreiben, sondern auch komplexe Funktionen einzubauen.

Sie können Vora verwenden, um Hadoop-Daten in HANA zu schreiben, aber „write to Hadoop“ ist eine Roadmap-Funktion, die für zukünftige Releases geplant ist.


Das könnte Sie auch interessieren:


Unsere Produkte zu SAP Vora

Sie haben ein bestehendes SAP Business Warehouse (BW) und benötigen einen neuen BW-Datenfluss? Wir haben eine mehrfach durchgeführte und standardisierte Vorgehensweise entwickelt, die die Erstellung eines BW-Datenflusses ermöglicht.

Mehr Informationen

SAP Analytics – Änderungen im Reporting-Umfeld sind verwirrend und sowohl Manager als auch Entwickler behalten kaum den Überblick. Mit dem „Managers Update“ bieten wir einen Service, der Sie über die neusten Entwicklungen informiert.

Mehr Informationen

Ihre Mitarbeiter machen mehr Support als Projekte? Nutzen Sie Support OnDemand – made in Germany. Wir bieten Ihnen Support ganz nach Ihrem Bedarf – überall und genau dann, wenn Sie ihn brauchen. Dabei haben wir uns besonders auf den deutschen Mittelstand spezialisiert und legen Wert auf Transparenz, Einfachheit und Schnelligkeit.

Mehr Informationen

Schreiben Sie einen Kommentar

Bitte füllen Sie alle mit * gekennzeichneten Felder aus. Ihre E-Mail Adresse wird nicht veröffentlicht.





Angebot anfordern
Expert Session