Big Data Analytics

Big Data Analytics bezeichnet den oft komplexen Prozess der Untersuchung großer und vielfältiger Datensätze oder großer Datenmengen, um Informationen aufzudecken – wie versteckte Muster, unbekannte Zusammenhänge, Markttrends und Kundenpräferenzen -, die Unternehmen dabei helfen können, fundierte Geschäftsentscheidungen zu treffen.

Auf breiter Ebene bieten Datenanalysetechnologien und -techniken eine Lösung, um Datensätze zu analysieren und Schlussfolgerungen über sie zu ziehen. Business Intelligence (BI)-Abfragen beantworten grundlegende Fragen zum Geschäftsbetrieb und zur Leistung.

Big Data Analytics ist eine Form der Advanced Analytics, bei der es sich um komplexe Anwendungen mit Elementen wie prediktive Modelle, statistische Algorithmen und What-If-Analysen handelt, die von leistungsstarken Analysesystemen unterstützt werden.

 Perfektionieren Sie Ihr Unternehmen mit Big Data Analytics

Angetrieben von spezialisierten Analysesystemen und Software sowie leistungsstarken Computersystemen, bietet die Big Data Analytics verschiedene Geschäftsvorteile, darunter:

  • Neue Umsatzmöglichkeiten
  • Effektiveres Marketing
  • Besserer Kundenservice
  • Verbesserte betriebliche Effizienz
  • Wettbewerbsvorteile gegenüber Mitbewerbern

Big Data Analytics-Anwendungen ermöglichen es Big Data Analysten, Datenwissenschaftlern, Statistikern und anderen Analytikern, wachsende Mengen an strukturierten Transaktionsdaten sowie andere Datenformen zu analysieren, die von herkömmlichen BI- und Analyseprogrammen oft ungenutzt bleiben. Dies umfasst eine Mischung aus semi- und unstrukturierten Daten – zum Beispiel Internet-Clickstream-Daten, Webserver-Protokolle, Social-Media-Inhalte, Texte aus Kunden-E-Mails und Umfrageantworten, Handy-Aufzeichnungen und Maschinendaten, die von Sensoren erfasst werden, die mit dem Internet der Dinge (IoT) verbunden sind.

E-Book: SAP Analytics – Effizienz im Unternehmen steigern

Wieso sollten Unternehmen sich um die Analyse Ihrer Daten kümmern, welche Anwendungsbereiche gibt es und welche Tools eignen sich dafür? Finden Sie es heraus.

Das steckt alles in der Big Data Analytics

Unstrukturierte und halbstrukturierte Datentypen passen in der Regel nicht gut in traditionelle Data Warehouses, die auf relationalen Datenbanken mit strukturierten Datensätzen basieren. Darüber hinaus sind Data Warehouses möglicherweise nicht in der Lage die Verarbeitungsanforderungen von großen Datenmengen zu erfüllen die häufig oder sogar kontinuierlich aktualisiert werden müssen, wie beispielsweise Echtzeitdaten über den Aktienhandel, die Online-Aktivitäten von Website-Besuchern oder die Leistung mobiler Anwendungen.

Infolgedessen greifen viele der Unternehmen, die große Datenmengen sammeln, verarbeiten und analysieren, auf NoSQL-Datenbanken sowie auf Hadoop und seine zugehörigen Datenanalysetools zurück.

7 Datenanalysetools, die eine Übersicht verschaffen

YARN: eine Cluster-Management-Technologie und eines der wichtigsten Merkmale der zweiten Generation von Hadoop.

MapReduce: ein Software-Framework, das es Entwicklern ermöglicht, Programme zu schreiben, die große Mengen unstrukturierter Daten parallel über einen verteilten Cluster von Prozessoren oder Einzelcomputern verarbeiten.

Spark: ein Open-Source-Framework für die parallele Verarbeitung, das es Anwendern ermöglicht, umfangreiche Datenanalyseanwendungen über Cluster-Systeme hinweg auszuführen.

HBase: ein spaltenorientierter Schlüssel/Wertdatenspeicher, der auf dem Hadoop Distributed File System (HDFS) läuft.

Hive: ein Open-Source-Data-Warehouse-System zur Abfrage und Analyse großer Datensätze, die in Hadoop-Dateien gespeichert sind.

Kafka: ein verteiltes Publish/Subscribe-Messaging-System, das entwickelt wurde, um traditionelle Message Broker zu ersetzen.

Pig: eine Open-Source-Technologie, die einen High-Level-Mechanismus für die parallele Programmierung von MapReduce-Aufträgen bietet, die auf Hadoop-Clustern ausgeführt werden.

Wie Big Data Analytics funktioniert

In einigen Fällen werden Hadoop-Cluster und NoSQL-Systeme in erster Linie als Landeplätze und Staging-Bereiche für Daten verwendet, bevor sie in ein Data Warehouse oder eine analytische Datenbank zur Analyse geladen werden – in der Regel in einer zusammengefassten Form, die für relationale Strukturen günstiger ist.

Hadoop-Datensammlung

Häufiger wird jedoch von großen Datenanalyse-Nutzern das Konzept einer Hadoop-Datensammlung übernommen, das als primäres Repository für eingehende Rohdatenströme dient. In solchen Architekturen können Daten direkt in einem Hadoop-Cluster analysiert oder durch eine Verarbeitungsmaschine wie Spark laufen.

Solides Datenmanagement

Wie im Data Warehousing, ist ein solides Datenmanagement ein entscheidender erster Schritt im Prozess der Big Data Analytics. Die im HDFS gespeicherten Daten müssen ordnungsgemäß organisiert, konfiguriert und partitioniert werden, um eine gute Leistung sowohl aus Extraktions-, Transformations- und Lade-(ETL)-Integrationsjobs als auch aus analytischen Abfragen zu erzielen.

Sobald die Daten fertig sind, können sie mit der Software analysiert werden, die häufig für erweiterte Analyseprozesse verwendet wird. Dazu gehören auch Werkzeuge für:

  • Data Mining, das Datensätze auf der Suche nach Mustern und Beziehungen durchsucht;
  • Predictive Analytics, die Modelle zur Vorhersage des Kundenverhaltens und anderer zukünftiger Entwicklungen erstellen;
  • maschinelles Lernen, das Algorithmen zur Analyse großer Datensätze nutzt; und
  • deep learning, ein fortgeschrittener Ableger des maschinellen Lernens.
  • Textmining

Text Mining und statistische Analysesoftware können ebenso eine Rolle im Big Data Analytics Prozess spielen wie Mainstream Business Intelligence Software und Datenvisualisierungswerkzeuge. Sowohl für ETL- als auch für Analyseapplikationen können Abfragen in MapReduce mit Programmiersprachen wie R, Python, Scala und SQL geschrieben werden, den Standardsprachen für relationale Datenbanken, die von SQL-on-Hadoop-Technologien unterstützt werden.

Big data analytics

Big Data Analytics Anwendungen

Big Data Analytics-Anwendungen beinhalten oft Daten aus internen Systemen und externen Quellen, wie z.B. Wetterdaten oder demografische Daten über Verbraucher, die von externen Informationsdienstleistern zusammengestellt wurden. Darüber hinaus werden Streaming-Analyseanwendungen in großen Datenumgebungen immer häufiger eingesetzt, da die Benutzer Echtzeitanalysen von Daten durchführen möchten, die über Stream-Verarbeitungsmaschinen wie Spark, Flink und Storm in Hadoop-Systeme eingespeist werden.

Cloud clustering

Frühe große Datensysteme wurden meist vor Ort eingesetzt, insbesondere in großen Unternehmen, die große Datenmengen sammelten, organisierten und analysierten. Aber auch Hadoop-Anbieter wie Cloudera-Hortonworks, die die Verteilung des Big Data Frameworks auf die AWS- und Microsoft Azure-Clouds unterstützen, haben die Einrichtung und Verwaltung von Hadoop-Clustern in der Cloud erleichtert. Benutzer können jetzt Cluster in der Cloud erstellen, sie so lange wie nötig ausführen und sie dann mit nutzungsabhängigen Preisen offline nehmen, die keine laufenden Softwarelizenzen erfordern.

Big-Supply-Chain-Analytics

Große Datenmengen sind in Supply-Chain-Analytics immer nützlicher geworden. Big-Supply-Chain-Analytics verwendet große Datenmengen und quantitative Methoden, um Entscheidungsprozesse in der gesamten Lieferkette zu verbessern. Insbesondere große Supply-Chain-Analysen erweitern Datensätze für erweiterte Analysen, die über die traditionellen internen Daten aus Enterprise Resource Planning (ERP) und Supply Chain Management (SCM) Systemen hinausgehen.

E-Book: SAP Analytics – Effizienz im Unternehmen steigern

Wieso sollten Unternehmen sich um die Analyse Ihrer Daten kümmern, welche Anwendungsbereiche gibt es und welche Tools eignen sich dafür? Finden Sie es heraus.

Fundierte Entscheidungen treffen

Darüber hinaus implementiert Big-Supply-Chain-Analytics hochwirksame statistische Methoden für neue und bestehende Datenquellen. Die gewonnenen Erkenntnisse ermöglichen besser informierte und effektivere Entscheidungen, die der Lieferkette zugutekommen und sie verbessern.

Mögliche Fallstricke von Big Data Analytics-Initiativen sind ein Mangel an internen Analysefähigkeiten und die hohen Kosten für die Einstellung erfahrener Datenwissenschaftler und Dateningenieure, um die Lücken zu schließen.

Entstehung und Wachstum von Big Data Analytics

Der Begriff Big Data wurde erstmals Mitte der 90er Jahre verwendet, um auf wachsende Datenmengen zu verweisen. Im Jahr 2001 erweiterte Doug Laney, damals Analyst bei der Unternehmensberatung Meta Group Inc., den Begriff der großen Daten, um auch die Zunahme der Vielfalt der von Unternehmen erzeugten Daten und die Geschwindigkeit einzuschließen. Diese drei Faktoren – Volumen, Geschwindigkeit und Vielfalt – wurden als die 3Vs von Big Data bekannt, ein Konzept, das Gartner nach der Übernahme der Meta Group und der Einstellung von Laney im Jahr 2005 populär machte.

Hadoop Distributed Processing Framework

Separat dazu wurde das Hadoop Distributed Processing Framework 2006 als Apache Open Source Projekt gestartet, das den Grundstein für eine geclusterte Plattform legte, die auf Basis von Standard-Hardware aufbaut und für den Betrieb großer Datenanwendungen ausgelegt ist. Bis 2011 begann Big Data Analytics einen festen Platz in Organisationen und der Öffentlichkeit einzunehmen, zusammen mit Hadoop und verschiedenen damit verbundenen Big Data Technologien, die um sie herum entstanden waren.

Für wen lohnt sich Big Data Analytics?

Ursprünglich, als das Hadoop-Ökosystem Gestalt annahm und zu reifen begann, waren große Datenanwendungen in erster Linie die Provinz großer Internet- und E-Commerce-Unternehmen wie Yahoo, Google und Facebook sowie Analyse- und Marketing-Dienstleister. In den folgenden Jahren wurde die Big Data Analytics jedoch zunehmend von Einzelhändlern, Finanzdienstleistern, Versicherern, Gesundheitsorganisationen, Herstellern, Energieunternehmen und anderen Unternehmen genutzt.


Das könnte Sie auch interessieren:


Unsere Produkte zu Big Data Analytics

Wir analysieren gemeinsam Ihre Daten und Ihre aktuellen Reportings. Sie bekommen alle Details zu Vor- und Nachteilen mit der SAC. Im Anschluss erstellen wir eine individuelle Roadmap für Sie und Ihre Prozesse.

Mehr Informationen

Unser Einführungsleitfaden basiert auf einem erprobten, wissenschaftlich fundierten Vorgehen. Mit einem minimierten Arbeitsaufwand für die Mitarbeiter stellt er sicher, dass die Implementierung der neuen Technologien schnell und effizient erfolgt.

Mehr Informationen

Das Produkt- und Technologieportfolio rund um die BI- und Analytics-Lösungen der SAP ist extrem vielfältig und unterliegt einem ständigen Wandel. Dies ist einerseits notwendig, um neue Anforderungen an Analysehorizont, Performance, Mobilität und Live-Reporting gerecht zu werden. Andererseits werden einige Unternehmen von dieser Geschwindigkeit der technologischen Weiterentwicklung abgehängt und verpassen die Vorteile. 

Mehr Informationen

Schreiben Sie einen Kommentar

Bitte füllen Sie alle mit * gekennzeichneten Felder aus. Ihre E-Mail Adresse wird nicht veröffentlicht.





Angebot anfordern
Expert Session
Preisliste anfordern