Big Data Analytics
Inhalt
Auf breiter Ebene bieten Datenanalysetechnologien und -techniken eine Lösung, um Datensätze zu analysieren und Schlussfolgerungen über sie zu ziehen. Business Intelligence (BI) beantwortet grundlegende Fragen zum Geschäftsbetrieb und zur Leistung.
Big Data Analytics ist eine Form der Advanced Analytics, bei der es sich um komplexe Anwendungen mit Elementen wie prediktive Modelle, statistische Algorithmen und What-If-Analysen handelt, die von leistungsstarken Analysesystemen unterstützt werden.
Was ist Big Data?
Das Konzept der großen Daten gibt es schon seit Jahren. Insbesondere die mathematischen Konzepte und die statistischen Methoden sind schon sehr alt, können aber erst mit der heutigen Technologie und Hardware-Performance umgesetzt werden. Die meisten Unternehmen wissen jetzt, dass sie bei umfangreichen Datenerfassungen Analysen anwenden und einen erheblichen Wert daraus ziehen können. Aber selbst in den 1950er Jahren, Jahrzehnte bevor der Begriff „Big Data“ überhaupt jemand aussprach, verwendeten Unternehmen grundlegende Analysen manuell, um Erkenntnisse und Trends aufzudecken.
Live-Einblicke
Die neuen Vorteile, die die Big Data Analytics mit sich bringt, sind Geschwindigkeit und Effizienz. Während vor einigen Jahren ein Unternehmen Informationen gesammelt, Analysen durchgeführt und Informationen ausgegraben hätte, die für zukünftige Entscheidungen verwendet werden könnten, kann dieses Unternehmen heute Erkenntnisse für unmittelbare Entscheidungen identifizieren. Die Fähigkeit, schneller zu arbeiten – und beweglich zu bleiben – gibt Unternehmen einen Wettbewerbsvorteil, den sie vorher nicht hatten.
Was ist Big Data Analytics?
Big Data Analytics hilft Unternehmen, ihre Daten zu nutzen und neue Möglichkeiten zu erkennen. Das wiederum führt zu intelligenteren Geschäftsvorgängen, effizienteren Abläufen, höheren Gewinnen und zufriedeneren Kunden. In seinem Bericht Big Data in Big Companies befragte IIA-Forschungsleiter Tom Davenport mehr als 50 Unternehmen, um zu verstehen, wie sie große Daten nutzen. Er fand heraus, dass sie auf folgende Weise einen Wert haben:
- Kostensenkung. Große Datentechnologien wie Hadoop und Cloud-basierte Analysen bringen erhebliche Kostenvorteile, wenn es um die Speicherung großer Datenmengen geht – außerdem können sie effizientere Wege der Geschäftsabwicklung aufzeigen.
- Schnellere und bessere Entscheidungsfindung. Mit der Geschwindigkeit von Hadoop und In-Memory-Analysen, kombiniert mit der Fähigkeit, neue Datenquellen zu analysieren, sind Unternehmen in der Lage, Informationen sofort zu analysieren – und Entscheidungen auf der Grundlage der gewonnenen Erkenntnisse zu treffen.
- Neue Produkte und Dienstleistungen. Mit der Fähigkeit, die Kundenbedürfnisse und -zufriedenheit durch Analysen zu messen, ist die Möglichkeit gegeben, den Kunden das zu geben, was sie wollen. Mit Big Data Analytics können immer mehr Unternehmen neue Produkte entwickeln, um die Bedürfnisse der Kunden zu erfüllen.
Big Data Analytics heute
Die meisten Unternehmen verfügen über Big Data. Dabei verstehen viele die Notwendigkeit, diese Daten zu nutzen und aus ihnen einen Mehrwert zu ziehen. Aber wie? Diese Ressourcen decken die neuesten Erkenntnisse über die Schnittmenge von großen Daten und Analysen ab.
Big Data Analytics Beispiele
Die besten Beispiele für große Daten sind sowohl im öffentlichen als auch im privaten Sektor zu finden. Von gezielter Werbung, Bildung und den Industrien (Gesundheitswesen, Versicherungen, Fertigung oder Banken) bis hin zu Szenarien aus dem wirklichen Leben, im Gästeservice oder in der Unterhaltung. Bis zum Jahr 2020 werden pro Sekunde 1,7 Megabyte Daten für jede Person auf dem Planeten generiert, das Potenzial für datengesteuertes organisatorisches Wachstum im Gastgewerbe ist entsprechend enorm.
Bildungsbranche
In der Bildungsbranche ermöglicht Big Data Analytics unter anderem maßgeschneiderte und dynamische Lernprogramme sowie das Reframing von Kursmaterial. Auch die Benotungssysteme und Karriere-Vorhersagen haben große, datentechnisch motivierte Veränderungen durchlebt.
Versicherungsbranche
Die Versicherungsbranche ist nicht nur für Einzelpersonen, sondern auch für Unternehmen von Bedeutung. Der Grund dafür, dass Versicherungen einen bedeutenden Platz einnehmen, ist, dass sie Menschen in Zeiten von Widrigkeiten und Unsicherheiten unterstützen. Die aus diesen Quellen gesammelten Daten haben unterschiedliche Formate und ändern sich mit enormer Geschwindigkeit.
Sammeln von Informationen
Da sich Big Data auf das Sammeln von Daten aus unterschiedlichen Quellen beziehen, stellt diese Funktion einen entscheidenden Anwendungsfall für die Versicherungsbranche dar, auf den sie sich stützen kann. Z.B.: Wenn ein Kunde beabsichtigt, eine Autoversicherung in Kenia zu kaufen, können die Unternehmen Informationen erhalten, aus denen sie das Sicherheitsniveau für das Fahren in der Nähe des Käufers und seine bisherigen Fahrten berechnen können. Auf dieser Grundlage können sie auch die Kosten der Autoversicherung effektiv berechnen.
Einblick in die Kundendaten gewinnen
Die Ermittlung des Kundenerlebnisses und die Kunden als Mittelpunkt des Unternehmens zu behandeln ist von größter Bedeutung. Big Data Analytics unterstützt Unternehmen bei der Verarbeitung von Daten hinsichtlich der Customer Experience und ermöglicht somit auch in diesem Bereich Optimierungen.
Bedrohungsanalyse
Wenn eine Versicherungsagentur eine Versicherung verkauft, möchte sie sich über alle Möglichkeiten im Klaren sein, welche Dinge bei ihrem Kunden ungünstig verlaufen und sie dazu veranlassen könnten, einen Anspruch geltend zu machen.
Regierungsbranche
Wie in vielen anderen Bereichen können Big Data auch in der Regierung einen enormen Einfluss haben – lokal, national und global. Bei so vielen komplexen Themen, die heute auf dem Tisch liegen, haben die Regierungen viel zu tun, um alle Informationen, die sie erhalten, zu verstehen und wichtige Entscheidungen zu treffen. Regierungen sehen sich fast täglich mit einer sehr großen Menge an Daten konfrontiert. Sie müssen nämlich verschiedene Aufzeichnungen und Datenbanken über die Bürger führen. Die Analyse dieser Daten helfen den Regierungen auf unendliche Weise. Dabei handelt es sich beispielsweise um Wohlfahrtsprogramme und Cyber-Sicherheit.
Bankensektor
Die Datenmenge in den Bankensektoren steigt jede Sekunde weiter in die Höhe. Nach der GDC-Prognose werden diese Daten von 2017 bis 2020 um schätzungsweise 700% wachsen.
Die Untersuchung und Analyse von Big Data kann dabei behilflich sein folgende Dinge aufzudecken:
- Den Missbrauch von Kreditkarten
- Den Missbrauch von Debitkarten
- Behandlung von Risikokreditrisiken
- Geschäftliche Klarheit
- Änderung der Kundenstatistik
- Die Geldwäscherei
- Risikominderung
Systeme & Tools
Es gibt keine einzelne Technologie, die Big Data Analytics umfasst. Natürlich gibt es fortgeschrittene Analysen, die auf Big Data angewendet werden können, aber in Wirklichkeit arbeiten mehrere Arten von Technologien zusammen, um Ihnen dabei zu helfen, den größtmöglichen Nutzen aus Ihren Informationen zu ziehen. Hier sind die größten Akteure:
Machine Learning
Maschinelle Lernverfahren (eine spezielle Untergruppe der KI), die eine Maschine im Lernen trainieren, ermöglichen es, schnell und automatisch Modelle zu erstellen. Diese Modelle können größere, komplexere Daten analysieren und schnellere, genauere Ergebnisse liefern. Durch die Erstellung präziser Modelle hat ein Unternehmen eine bessere Chance, profitable Möglichkeiten zu erkennen oder unbekannte Risiken zu vermeiden.
Data Government
Bevor Daten zuverlässig analysiert werden können, müssen sie von hoher Qualität sein und gut verwaltet werden. Da Daten ständig in ein Unternehmen hinein und aus einem Unternehmen heraus fließen, ist es wichtig, wiederholbare Prozesse zu etablieren, um Standards für die Datenqualität zu schaffen und aufrechtzuerhalten. Sobald die Daten zuverlässig sind, sollten Unternehmen ein Stammdatenverwaltungsprogramm einrichten, das das gesamte Unternehmen auf die gleiche Seite bringt.
Data Mining
Die Data Mining Technologie hilft Ihnen, große Datenmengen zu untersuchen, um Muster in den Daten zu entdecken. Diese Informationen können für weitere Analysen verwendet werden, um komplexe Geschäftsfragen zu beantworten. Mit der Data Mining Software können Sie all das chaotische und sich wiederholende Rauschen in den Daten durchsuchen, die relevanten Daten genau bestimmen, diese Informationen zur Bewertung der wahrscheinlichen Ergebnisse verwenden und dann das Tempo für fundierte Entscheidungen beschleunigen.
Hadoop
Das Open-Source-Software-Framework Hadoop kann Big Data speichern und Anwendungen auf Clustern von Standard-Hardware ausführen. Es ist aufgrund der ständig wachsenden Datenmengen und -vielfalt zu einer Schlüsseltechnologie für die Geschäftswelt geworden. Sein verteiltes Rechenmodell verarbeitet große Datenmengen schnell. Ein zusätzlicher Vorteil ist, dass das Open-Source-Framework von Hadoop kostenlos ist und Standard-Hardware zur Speicherung großer Datenmengen verwendet.
In-Memory-Analyse
Durch die Analyse von Daten aus dem Systemspeicher (statt von der Festplatte) können Sie sofortige Erkenntnisse aus Ihren Daten gewinnen und schnell darauf reagieren. Diese Technologie ist in der Lage, Datenvorbereitungs- und analytische Verarbeitungslatenzen zu entfernen, um neue Szenarien zu testen und Modelle zu erstellen. Dies ist nicht nur eine einfache Möglichkeit für Unternehmen, agil zu bleiben und bessere Geschäftsentscheidungen zu treffen, sondern ermöglicht ihnen auch die Durchführung iterativer und interaktiver Analyseszenarien.
Predictive Analytics
Die Technologie der Predictive Analytics verwendet Daten, statistische Algorithmen und maschinelle Lernverfahren, um die Wahrscheinlichkeit künftiger Ergebnisse auf der Grundlage historischer Daten zu ermitteln. Es geht darum, eine bestmögliche Einschätzung dessen zu liefern, was in der Zukunft passieren wird, damit Unternehmen sich sicherer fühlen können, dass sie die bestmögliche Geschäftsentscheidung treffen. Zu den häufigsten Anwendungen der Predictive Analytics gehören die Betrugserkennung, das Risikomanagement, die Betriebsabläufe und das Marketing.
Text Mining
Mit der Text-Mining-Technologie können Sie Textdaten aus dem Web, aus Kommentarfeldern, aus Büchern und anderen textbasierten Quellen analysieren, um Erkenntnisse aufzudecken, die Ihnen bisher nicht aufgefallen sind. Text Mining nutzt maschinelles Lernen oder eine Technologie zur Verarbeitung natürlicher Sprache, um Dokumente – E-Mails, Blogs, Twitter-Feeds, Umfragen, Wettbewerbsinformationen und mehr – zu durchkämmen, damit Sie große Mengen an Informationen analysieren und neue Themen und Begriffsbeziehungen entdecken können.
Möglichkeiten
Angetrieben von spezialisierten Analysesystemen und Software sowie leistungsstarken Computersystemen bietet die Big Data Analytics verschiedene Geschäftsvorteile. Darunter befinden sich beispielsweise:
- Neue Umsatzmöglichkeiten
- Effektiveres Marketing
- Besserer Kundenservice
- Verbesserte betriebliche Effizienz
- Wettbewerbsvorteile gegenüber Mitbewerbern
Big Data Analytics-Anwendungen ermöglichen es, Big Data Analysten, Datenwissenschaftlern, Statistikern und anderen Analytikern, wachsende Mengen an strukturierten Transaktionsdaten sowie andere Datenformen zu analysieren, die von herkömmlichen BI- und Analyseprogrammen oft ungenutzt bleiben. Dies umfasst eine Mischung aus semi- und unstrukturierten Daten – zum Beispiel Internet-Clickstream-Daten, Webserver-Protokolle, Social-Media-Inhalte, Texte aus Kunden-E-Mails und Umfrageantworten, Handy-Aufzeichnungen und Maschinendaten, die von Sensoren erfasst werden, die mit dem Internet der Dinge (IoT) verbunden sind.
Datentypen
Unstrukturierte und halbstrukturierte Datentypen passen in der Regel nicht gut in traditionelle Data Warehouses, die auf relationalen Datenbanken mit strukturierten Datensätzen basieren. Darüber hinaus sind Data Warehouses möglicherweise nicht in der Lage die Verarbeitungsanforderungen von großen Datenmengen zu erfüllen, die häufig oder sogar kontinuierlich aktualisiert werden müssen, wie beispielsweise Echtzeitdaten über den Aktienhandel, die Online-Aktivitäten von Website-Besuchern oder die Leistung mobiler Anwendungen.
Infolgedessen greifen viele der Unternehmen, die große Datenmengen sammeln, verarbeiten und analysieren, auf NoSQL-Datenbanken sowie auf Hadoop und seine zugehörigen Datenanalysetools zurück.
Datenanalysetools
YARN ist eine Cluster-Management-Technologie und eines der wichtigsten Merkmale der zweiten Generation von Hadoop.
MapReduce ist ein Software-Framework, das es Entwicklern ermöglicht, Programme zu schreiben, die große Mengen unstrukturierter Daten parallel über einen verteilten Cluster von Prozessoren oder Einzelcomputern verarbeiten.
Spark ist ein Open-Source-Framework für die parallele Verarbeitung, das es Anwendern ermöglicht, umfangreiche Datenanalyseanwendungen über Cluster-Systeme hinweg auszuführen.
HBase stellt einen spaltenorientierter Schlüssel/Wertdatenspeicher dar, der auf dem Hadoop Distributed File System (HDFS) läuft.
Hive ist ein Open-Source-Data-Warehouse-System zur Abfrage und Analyse großer Datensätze, die in Hadoop-Dateien gespeichert sind.
Kafka ist ein verteiltes Publish/Subscribe-Messaging-System, das entwickelt wurde, um traditionelle Message Broker zu ersetzen.
Pig ist eine Open-Source-Technologie, die einen High-Level-Mechanismus für die parallele Programmierung von MapReduce-Aufträgen bietet, die auf Hadoop-Clustern ausgeführt werden.
Funktionsweise Big Data Analytics
In einigen Fällen werden Hadoop-Cluster und NoSQL-Systeme in erster Linie als Landeplätze und Staging-Bereiche für Daten verwendet, bevor sie in ein Data Warehouse oder eine analytische Datenbank zur Analyse geladen werden – in der Regel in einer zusammengefassten Form, die für relationale Strukturen günstiger ist.
Hadoop-Datensammlung
Häufiger wird jedoch von großen Datenanalyse-Nutzern das Konzept einer Hadoop-Datensammlung übernommen, das als primäres Repository für eingehende Rohdatenströme dient. In solchen Architekturen können Daten direkt in einem Hadoop-Cluster analysiert oder durch eine Verarbeitungsmaschine wie Spark laufen.
Solides Datenmanagement
Wie im Data Warehousing, ist ein solides Datenmanagement ein entscheidender erster Schritt im Prozess der Big Data Analytics. Die im HDFS gespeicherten Daten müssen ordnungsgemäß organisiert, konfiguriert und partitioniert werden, um eine gute Leistung sowohl aus Extraktions-, Transformations- und Lade-(ETL)-Integrationsjobs als auch aus analytischen Abfragen zu erzielen.
Sobald die Daten fertig sind, können sie mit der Software analysiert werden, die häufig für erweiterte Analyseprozesse verwendet wird. Dazu gehören auch Werkzeuge für:
- Data Mining, das Datensätze auf der Suche nach Mustern und Beziehungen durchsucht;
- Predictive Analytics, die Modelle zur Vorhersage des Kundenverhaltens und anderer zukünftiger Entwicklungen erstellen;
- maschinelles Lernen, das Algorithmen zur Analyse großer Datensätze nutzt; und
- deep learning, ein fortgeschrittener Ableger des maschinellen Lernens.
- Textmining
Text Mining und statistische Analysesoftware können ebenso eine Rolle im Big Data Analytics Prozess spielen wie Mainstream Business Intelligence Software und Datenvisualisierungswerkzeuge. Sowohl für ETL- als auch für Analyseapplikationen können Abfragen in MapReduce mit Programmiersprachen wie R, Python, Scala und SQL geschrieben werden, den Standardsprachen für relationale Datenbanken, die von SQL-on-Hadoop-Technologien unterstützt werden.
Big Data Analytics Anwendungen
Big Data Analytics-Anwendungen beinhalten oft Daten aus internen Systemen und externen Quellen, wie z.B. Wetterdaten oder demografische Daten über Verbraucher, die von externen Informationsdienstleistern zusammengestellt wurden. Darüber hinaus werden Streaming-Analyseanwendungen in großen Datenumgebungen immer häufiger eingesetzt, da die Benutzer Echtzeitanalysen von Daten durchführen möchten, die über Stream-Verarbeitungsmaschinen wie Spark, Flink und Storm in Hadoop-Systeme eingespeist werden.
Cloud Clustering
Frühe große Datensysteme wurden meist vor Ort eingesetzt, insbesondere in großen Unternehmen, die große Datenmengen sammelten, organisierten und analysierten. Aber auch Hadoop-Anbieter wie Cloudera-Hortonworks, die die Verteilung des Big Data Frameworks auf die AWS- und Microsoft Azure-Clouds unterstützen, haben die Einrichtung und Verwaltung von Hadoop-Clustern in der Cloud erleichtert. Benutzer können jetzt Cluster in der Cloud erstellen, sie so lange wie nötig ausführen und sie dann mit nutzungsabhängigen Preisen offline nehmen, die keine laufenden Softwarelizenzen erfordern.
Big-Supply-Chain-Analytics
Große Datenmengen sind in Supply-Chain-Analytics immer nützlicher geworden. Big-Supply-Chain-Analytics verwendet große Datenmengen und quantitative Methoden, um Entscheidungsprozesse in der gesamten Lieferkette zu verbessern. Insbesondere große Supply-Chain-Analysen erweitern Datensätze für erweiterte Analysen, die über die traditionellen internen Daten aus Enterprise Resource Planning (ERP) und Supply Chain Management (SCM) Systemen hinausgehen.
Fundierte Entscheidungen treffen
Darüber hinaus implementiert Big-Supply-Chain-Analytics hochwirksame statistische Methoden für neue und bestehende Datenquellen. Die gewonnenen Erkenntnisse ermöglichen besser informierte und effektivere Entscheidungen, die der Lieferkette zugutekommen und sie verbessern.
Mögliche Fallstricke von Big Data Analytics-Initiativen sind ein Mangel an internen Analysefähigkeiten und die hohen Kosten für die Einstellung erfahrener Datenwissenschaftler und Dateningenieure, um die Lücken zu schließen.
Entstehung und Wachstum von Big Data Analytics
Der Begriff Big Data wurde erstmals Mitte der 90er Jahre verwendet, um auf wachsende Datenmengen zu verweisen. Im Jahr 2001 erweiterte Doug Laney, damals Analyst bei der Unternehmensberatung Meta Group Inc., den Begriff der großen Daten, um auch die Zunahme der Vielfalt der von Unternehmen erzeugten Daten und die Geschwindigkeit einzuschließen. Diese drei Faktoren – Volumen, Geschwindigkeit und Vielfalt – wurden als die 3Vs von Big Data bekannt, ein Konzept, das Gartner nach der Übernahme der Meta Group und der Einstellung von Laney im Jahr 2005 populär machte.
Hadoop Distributed Processing Framework
Separat dazu wurde das Hadoop Distributed Processing Framework 2006 als Apache Open Source Projekt gestartet, das den Grundstein für eine geclusterte Plattform legte, die auf Basis von Standard-Hardware aufbaut und für den Betrieb großer Datenanwendungen ausgelegt ist. Bis 2011 begann Big Data Analytics einen festen Platz in Organisationen und der Öffentlichkeit einzunehmen, zusammen mit Hadoop und verschiedenen damit verbundenen Big Data Technologien, die um sie herum entstanden waren.
Für wen lohnt sich Big Data Analytics?
Ursprünglich, als das Hadoop-Ökosystem Gestalt annahm und zu reifen begann, waren große Datenanwendungen in erster Linie die Provinz großer Internet- und E-Commerce-Unternehmen wie Yahoo, Google und Facebook sowie Analyse- und Marketing-Dienstleister. In den folgenden Jahren wurde die Big Data Analytics jedoch zunehmend von Einzelhändlern, Finanzdienstleistern, Versicherern, Gesundheitsorganisationen, Herstellern, Energieunternehmen und anderen Unternehmen genutzt.
Ist Ihre Neugierde geweckt und Sie sind bereit Ihr Unternehmen effizienter zu gestalten? Dann können Sie sich gerne unverbindlich bei uns melden. Wir helfen Ihnen dabei Ihr Unternehmen zu revolutionieren!
FAQ Big Data Analytics
Was ist Big Data Analytics?
Big Data Analytics beschreibt die Untersuchung großer und vielfältiger Datensätze oder großer Datenmengen, um Informationen aufzudecken. Unternehmen können durch diese Daten dann fundierte Geschäftsentscheidungen treffen.
Wie funktioniert Big Data Analytics?
Es gibt keine einzelne Technologie, die Big Data Analytics umfasst, sondern diese wird durch mehrere Verfahren durchgeführt. Zu den wichtigsten gehören Machine Learning, Data Government, Data Mining, Hadoop, In-Memory-Analyse, Predictive Analytics und Text Mining.