Swen Deobald
21. Mai 2020

Mixed Scenario – R und Python gemeinsam nutzen

r python

R und Python sind nicht die klassischen Gegner, wie sie oft dargestellt werden. Ganz im Gegenteil! Sie können parallel genutzt werden, um so die Stärken aus beiden Welten zu nutzen (und Schwächen auszugleichen).

R und Python für die Datenwissenschaft

Von der Geschäftsführung bis zu den Datenwissenschaftlern sind wir uns alle in einem Punkt einig: Es findet eine Transformation zur Data Driven Company statt. Die Künstliche Intelligenz (KI) und insbesondere die Datenwissenschaft definieren neu, wie Unternehmen Erkenntnisse aus ihrem/n Kerngeschäft(en) gewinnen. Wir erleben einen grundlegenden Wandel in Organisationen, in denen etwa 90% der großen globalen Organisationen bis 2019 einen Chief Data Officer haben. Warum? Weil Organisationen, wenn die Bestandteile eines “Hochleistungs-Daten-Wissenschaftsteams” vorhanden sind , in der Lage sind, einen massiven Return on Investment (ROI) zu erzielen. Datenwissenschaftsteams neigen jedoch dazu, sich in einen “Kampf” zwischen den beiden führenden Programmiersprachen für die Datenwissenschaft zu stürzen: R gegen Python.

Schlüsselstärken, R und Python

Einer der Schlüsselpunkte dieses Artikels war die Verwendung von datenwissenschaftlichen Sprachen als Werkzeuge in einem Toolkit. R, Python… Verwenden Sie beide. Nutzen Sie ihre Stärken. Bauen Sie keinen “R-Shop” oder einen “Python-Shop“. Bauen Sie ein hochleistungsfähiges datenwissenschaftliches Team auf, das die einzigartigen Stärken beider Sprachen ausnutzen kann.
Diese Idee, mehrere Sprachen zu verwenden, mag auf den ersten Blick nach doppeltem Aufwand erscheinen. Kurzfristig erfordert sie mehr Ausbildung. Aber langfristig zahlt sie sich aus:

  1. Erhöhte Effizienz – Wie schnell kann Ihr datenwissenschaftliches Team durch seinen Workflow iterieren?
  2. Gesteigerte Produktivität – Wie viel kann Ihr Datenwissenschaftsteam produzieren, das einen Mehrwert und einen ROI generiert?
  3. Erhöhte Leistungsfähigkeit – Wie begrenzt (oder unbegrenzt) ist der Output Ihres Datenwissenschaftsteams?
Unser E-Book zum Thema SAP Analytics

E-Book: SAP Analytics | Effizienz im Unternehmen steigern

Wieso sollten Unternehmen sich um die Analyse Ihrer Daten kümmern, welche Anwendungsbereiche gibt es und welche Tools eignen sich dafür? Finden Sie es heraus.

Stärken von R + Python

Beide datenwissenschaftlichen Sprachen eignen sich hervorragend für die Geschäftsanalyse. Sowohl R als auch Python können aus der Perspektive des reinen maschinellen Lernens in ähnlichen Funktionen eingesetzt werden. Beide verfügen über Pakete oder Bibliotheken, die sich dem Ringen, der Vorverarbeitung und der Anwendung des maschinellen Lernens auf Daten widmen. Beide sind ausgezeichnete Möglichkeiten für reproduzierbare Forschung, eine Voraussetzung für viele Industriezweige zur Validierung von Forschungsmethoden und Experimenten. Interessant werden die Unterschiede, die die Quelle der Schönheit und der Kraft der Kombination von Sprachen sind, um harmonisch zusammenzuarbeiten.

R Stärken

Fangen wir mit R an. Nun, eigentlich sollten wir mit S beginnen. Die Sprache S war ein Vorläufer von R, das 1976 von John Chambers (Statistiker) in den Bell Labs als Programmiersprache zur Implementierung von Statistiken entwickelt wurde. Die statistische Programmiersprache R wurde von Professoren der Universität von Auckland, Neuseeland, entwickelt, um S über die anfängliche Implementierung hinaus zu erweitern. Der entscheidende Punkt ist, dass die S- und R-Entwickler keine Software-Ingenieure oder Informatiker waren. Vielmehr waren sie Forscher und Wissenschaftler, die Werkzeuge entwickelten, um Experimente effektiver zu entwerfen und durchzuführen und Ergebnisse zu kommunizieren.

Berichterstattung mit R

Im Wesentlichen ist R eine Sprache mit Wurzeln in der Statistik, Datenanalyse, Datenexploration und Datenvisualisierung. R verfügt über ausgezeichnete Dienstprogramme für die Berichterstattung und Kommunikation, einschließlich RMarkdown (eine Methode zur Integration von Code, grafischer Ausgabe und Text in einen Bericht in Zeitschriftenqualität) und Shiny (ein Werkzeug zur Erstellung von Prototyp-Webanwendungen, Think Minimum Viable Products, MVP).

R

R wächst schnell mit dem Aufkommen der tidyverse, einer Reihe von Werkzeugen mit einer gemeinsamen Programmierschnittstelle, die funktionale Verben (Funktionen wie mutate() und summarisch()) verwenden, um intuitive Operationen durchzuführen, die durch die Pipe (%>%) verbunden sind und die das Lesen nachahmen. Die Tidyverse ist ein großer Vorteil, da sie die Erforschung von Daten sehr effizient macht. Das Iterieren durch Ihre explorative Analyse ist so einfach wie das Schreiben eines Absatzes, in dem beschrieben wird, was Sie mit den Daten machen wollen.

Die Stärken von R beziehen sich sehr gut auf die Wirtschaft, in der Organisationen Theorien testen, Ursache-Wirkungs-Beziehungen erklären, schnell iterieren und Entscheidungen treffen müssen. Darüber hinaus können Kommunikationswerkzeuge wie Geschäftsberichte, Präsentationsfolien und Webanwendungen mit Hilfe eines reproduzierbaren Workflows innerhalb von R erstellt werden.

Python-Stärken

Die Sprache Python ist eine allgemeine Programmiersprache, die 1991 von Guido van Rossum (Informatiker) entwickelt wurde. Die Sprache wurde entwickelt, um leicht lesbar zu sein und mehrere Programmierparadigmen abzudecken. Eine ihrer größten Stärken ist die Vielseitigkeit von Python, die Web-Frameworks, Datenbank-Konnektivität, Vernetzung, Web-Scraping, wissenschaftliche Berechnungen, Text- und Bildverarbeitung umfasst. Viele dieser Funktionen eignen sich für verschiedene Aufgaben des maschinellen Lernens, einschließlich Bilderkennung, Verarbeitung natürlicher Sprache und maschinelles Lernen.

Open-Source-Bibliotheken

Im Wesentlichen liegen die Wurzeln von Python in der Informatik und Mathematik. Die Sprache wurde für Programmierer entwickelt, die Vielseitigkeit in vielen verschiedenen Bereichen benötigen. Mit mehr als 100.000 Open-Source-Bibliotheken verfügt Python über das größte Ökosystem aller Programmiersprachen und ist somit eine einzigartige Wahl für diejenigen, die Vielseitigkeit wünschen.

Datenwissenschaftliche Bibliotheken

Python verfügt über ausgezeichnete datenwissenschaftliche Bibliotheken, darunter Scikit Learn, die beliebteste Bibliothek für maschinelles Lernen, und TensorFlow, eine Bibliothek, die von Softwareingenieuren bei Google für tiefes Lernen entwickelt wurde und häufig für Aufgaben der Bilderkennung und Verarbeitung natürlicher Sprache verwendet wird. Das Flussdiagramm von Scikit Learn für maschinelles Lernen ist unten abgebildet, das seine Reichweite für viele Arten von maschinellen Lernproblemen veranschaulicht.

Machine Learning

In einem geschäftlichen Kontext liegt die Hauptstärke von Python in den leistungsstarken Bibliotheken für maschinelles Lernen, einschließlich Scikit Learn und TensorFlow (und der Keras-Implementierung, die für den effizienten Aufbau neuronaler Netze ausgelegt ist). Die Scikit-Learn-Bibliothek ist leicht zu übernehmen, enthält Unterstützung für Pipelines zur Vereinfachung des Arbeitsablaufs beim maschinellen Lernen und hat fast alle Algorithmen, die man benötigt, an einem Ort.

r python

Entwurf eines datenwissenschaftlichen Workflows

Wenn Sie mehrere Sprachen lernen, gewinnen Sie die Fähigkeit, das beste Werkzeug für die Arbeit zu wählen. Das Ergebnis ist eine Sprachharmonie, die die Effizienz, die Fähigkeiten und die Produktivität des Datenwissenschaftsteams erhöht.
Die allgemeine Idee ist es, so flexibel wie möglich zu sein, damit wir das Beste beider Sprachen innerhalb unseres Full-Stack-Workflows im Bereich der Datenwissenschaft nutzen können:

  • Effizientes Erforschen von Daten
  • Modellierung, Cross-Validierung und Bewertung der Modellqualität
  • Kommunikation von Datenwissenschaft zur besseren Entscheidungsfindung über traditionelle Berichte (Word, PowerPoint, Excel, PDF),
  • webbasierte Berichte (HTML) und interaktive Web-Anwendungen (Shiny, Django)

Wir können die R- und Python-Stärken-Visualisierung leicht modifizieren, um sie in einer logischen Reihenfolge zu organisieren, die die Stärken wirksam einsetzt:

  • R wird für die Exploration ausgewählt, weil es so gut lesbar und effizient ist
  • Python wird wegen der Scikit-Learn-Pipeline für maschinelles Lernen ausgewählt

R wurde für die Kommunikation ausgewählt, da es über fortschrittliche Berichterstattungsprogramme wie RMarkdown und Shiny (interaktive Webanwendungen) und das wunderbare ggplot2-Visualisierungspaket verfügt.

Fazit

Sowohl R als auch Python sind mächtige Sprachen. Vieles in der Diskussion über R vs. Python stellt diese Sprachen als Konkurrenten dar, obwohl sie eigentlich Verbündete sind. Wir haben diese Idee der harmonischen Nutzung der Stärken der einzelnen Sprachen diskutiert und genutzt.

Wenn Datenwissenschaftsteams über die “R-Läden” und “Python-Läden” hinausgehen und anfangen, in Form von “Hochleistungs-Datenwissenschaftsteams” zu denken, beginnen sie einen Übergang, der die Effizienz, Produktivität und Fähigkeiten verbessert. Die Herausforderung besteht darin, mehrere Sprachen zu lernen. Wir helfen Ihnen gerne mit der Benutzung beider Sprachen, vereinbaren Sie gerne ein unverbindliches Telefonat mit uns.

Swen Deobald

Swen Deobald

Mein Name ist Swen Deobald und ich bin begeisterter SAP Analytics Berater. Als Fachbereichsleiter von Compamind unterstütze ich Sie mit meinem Team bei allen Fragen rund um SAP Analytics, Business Warehouse, BusinessObjects und der SAP Analytics Cloud.

Sie haben Fragen? Kontaktieren Sie mich!



Das könnte Sie auch interessieren

Wollen Sie Ihr Unternehmen für die digitale Wirtschaft neu ausrichten? Mit der SAP Software Predictive Analytics kann – gestützt auf maschinellem Lernen und Prognosealgorithmen – die Wahrscheinlichkeit zukünftiger Ergebnisse prognostiziert werden.

weiterlesen

Bevor sie mit Initiativen zur digitalen Transformation beginnen, müssen Unternehmen das Laufen lernen, indem sie die Datenverwaltung zu einer Kernkompetenz machen.

weiterlesen

Krisenzeiten gehen mit Ängsten und Ungewissheit einher. Das gilt nicht nur für die Mitarbeiter, sondern vor allem auch für die Führungskräfte. Wie sollten diese am besten agieren und welche Maßnahmen müssen sie umsetzen, um ihre Qualität beizubehalten?

weiterlesen

Schreiben Sie einen Kommentar

Bitte füllen Sie alle mit * gekennzeichneten Felder aus. Ihre E-Mail Adresse wird nicht veröffentlicht.





Kontaktieren Sie uns!
Marie Frösener Kundenservice