Swen Deobald
 - 21. Mai 2020

Mixed Scenario – R und Python gemeinsam nutzen

r python

R und Python sind nicht die klassischen Gegner, wie sie oft dargestellt werden. Ganz im Gegenteil! Sie k├Ânnen parallel genutzt werden, um so die St├Ąrken aus beiden Welten zu nutzen (und Schw├Ąchen auszugleichen).

R und Python f├╝r die Datenwissenschaft

Von der Gesch├Ąftsf├╝hrung bis zu den Datenwissenschaftlern sind wir uns alle in einem Punkt einig: Es findet eine Transformation zur Data Driven Company statt. Die K├╝nstliche Intelligenz (KI) und insbesondere die Datenwissenschaft definieren neu, wie Unternehmen Erkenntnisse aus ihrem/n Kerngesch├Ąft(en) gewinnen. Wir erleben einen grundlegenden Wandel in Organisationen, in denen etwa 90% der gro├čen globalen Organisationen bis 2019 einen Chief Data Officer haben. Warum? Weil Organisationen, wenn die Bestandteile eines „Hochleistungs-Daten-Wissenschaftsteams“ vorhanden sind , in der Lage sind, einen massiven Return on Investment (ROI) zu erzielen. Datenwissenschaftsteams neigen jedoch dazu, sich in einen „Kampf“ zwischen den beiden f├╝hrenden Programmiersprachen f├╝r die Datenwissenschaft zu st├╝rzen: R gegen Python.

Schl├╝sselst├Ąrken, R und Python

Einer der Schl├╝sselpunkte dieses Artikels war die Verwendung von datenwissenschaftlichen Sprachen als Werkzeuge in einem Toolkit. R, Python… Verwenden Sie beide. Nutzen Sie ihre St├Ąrken. Bauen Sie keinen „R-Shop“ oder einen „Python-Shop„. Bauen Sie ein hochleistungsf├Ąhiges datenwissenschaftliches Team auf, das die einzigartigen St├Ąrken beider Sprachen ausnutzen kann.
Diese Idee, mehrere Sprachen zu verwenden, mag auf den ersten Blick nach doppeltem Aufwand erscheinen. Kurzfristig erfordert sie mehr Ausbildung. Aber langfristig zahlt sie sich aus:

  1. Erh├Âhte Effizienz – Wie schnell kann Ihr datenwissenschaftliches Team durch seinen Workflow iterieren?
  2. Gesteigerte Produktivit├Ąt – Wie viel kann Ihr Datenwissenschaftsteam produzieren, das einen Mehrwert und einen ROI generiert?
  3. Erh├Âhte Leistungsf├Ąhigkeit – Wie begrenzt (oder unbegrenzt) ist der Output Ihres Datenwissenschaftsteams?
E-Book: SAP Analytics – Effizienz im Unternehmen steigern

Wieso sollten Unternehmen sich um die Analyse Ihrer Daten k├╝mmern, welche Anwendungsbereiche gibt es und welche Tools eignen sich daf├╝r? Finden Sie es heraus.

Unser E-Book zum Thema SAP Analytics

St├Ąrken von R + Python

Beide datenwissenschaftlichen Sprachen eignen sich hervorragend f├╝r die Gesch├Ąftsanalyse. Sowohl R als auch Python k├Ânnen aus der Perspektive des reinen maschinellen Lernens in ├Ąhnlichen Funktionen eingesetzt werden. Beide verf├╝gen ├╝ber Pakete oder Bibliotheken, die sich dem Ringen, der Vorverarbeitung und der Anwendung des maschinellen Lernens auf Daten widmen. Beide sind ausgezeichnete M├Âglichkeiten f├╝r reproduzierbare Forschung, eine Voraussetzung f├╝r viele Industriezweige zur Validierung von Forschungsmethoden und Experimenten. Interessant werden die Unterschiede, die die Quelle der Sch├Ânheit und der Kraft der Kombination von Sprachen sind, um harmonisch zusammenzuarbeiten.

R St├Ąrken

Fangen wir mit R an. Nun, eigentlich sollten wir mit S beginnen. Die Sprache S war ein Vorl├Ąufer von R, das 1976 von John Chambers (Statistiker) in den Bell Labs als Programmiersprache zur Implementierung von Statistiken entwickelt wurde. Die statistische Programmiersprache R wurde von Professoren der Universit├Ąt von Auckland, Neuseeland, entwickelt, um S ├╝ber die anf├Ąngliche Implementierung hinaus zu erweitern. Der entscheidende Punkt ist, dass die S- und R-Entwickler keine Software-Ingenieure oder Informatiker waren. Vielmehr waren sie Forscher und Wissenschaftler, die Werkzeuge entwickelten, um Experimente effektiver zu entwerfen und durchzuf├╝hren und Ergebnisse zu kommunizieren.

Berichterstattung mit R

Im Wesentlichen ist R eine Sprache mit Wurzeln in der Statistik, Datenanalyse, Datenexploration und Datenvisualisierung. R verf├╝gt ├╝ber ausgezeichnete Dienstprogramme f├╝r die Berichterstattung und Kommunikation, einschlie├člich RMarkdown (eine Methode zur Integration von Code, grafischer Ausgabe und Text in einen Bericht in Zeitschriftenqualit├Ąt) und Shiny (ein Werkzeug zur Erstellung von Prototyp-Webanwendungen, Think Minimum Viable Products, MVP).

R

R w├Ąchst schnell mit dem Aufkommen der tidyverse, einer Reihe von Werkzeugen mit einer gemeinsamen Programmierschnittstelle, die funktionale Verben (Funktionen wie mutate() und summarisch()) verwenden, um intuitive Operationen durchzuf├╝hren, die durch die Pipe (%>%) verbunden sind und die das Lesen nachahmen. Die Tidyverse ist ein gro├čer Vorteil, da sie die Erforschung von Daten sehr effizient macht. Das Iterieren durch Ihre explorative Analyse ist so einfach wie das Schreiben eines Absatzes, in dem beschrieben wird, was Sie mit den Daten machen wollen.

Die St├Ąrken von R beziehen sich sehr gut auf die Wirtschaft, in der Organisationen Theorien testen, Ursache-Wirkungs-Beziehungen erkl├Ąren, schnell iterieren und Entscheidungen treffen m├╝ssen. Dar├╝ber hinaus k├Ânnen Kommunikationswerkzeuge wie Gesch├Ąftsberichte, Pr├Ąsentationsfolien und Webanwendungen mit Hilfe eines reproduzierbaren Workflows innerhalb von R erstellt werden.

Python-St├Ąrken

Die Sprache Python ist eine allgemeine Programmiersprache, die 1991 von Guido van Rossum (Informatiker) entwickelt wurde. Die Sprache wurde entwickelt, um leicht lesbar zu sein und mehrere Programmierparadigmen abzudecken. Eine ihrer gr├Â├čten St├Ąrken ist die Vielseitigkeit von Python, die Web-Frameworks, Datenbank-Konnektivit├Ąt, Vernetzung, Web-Scraping, wissenschaftliche Berechnungen, Text- und Bildverarbeitung umfasst. Viele dieser Funktionen eignen sich f├╝r verschiedene Aufgaben des maschinellen Lernens, einschlie├člich Bilderkennung, Verarbeitung nat├╝rlicher Sprache und maschinelles Lernen.

Open-Source-Bibliotheken

Im Wesentlichen liegen die Wurzeln von Python in der Informatik und Mathematik. Die Sprache wurde f├╝r Programmierer entwickelt, die Vielseitigkeit in vielen verschiedenen Bereichen ben├Âtigen. Mit mehr als 100.000 Open-Source-Bibliotheken verf├╝gt Python ├╝ber das gr├Â├čte ├ľkosystem aller Programmiersprachen und ist somit eine einzigartige Wahl f├╝r diejenigen, die Vielseitigkeit w├╝nschen.

Datenwissenschaftliche Bibliotheken

Python verf├╝gt ├╝ber ausgezeichnete datenwissenschaftliche Bibliotheken, darunter Scikit Learn, die beliebteste Bibliothek f├╝r maschinelles Lernen, und TensorFlow, eine Bibliothek, die von Softwareingenieuren bei Google f├╝r tiefes Lernen entwickelt wurde und h├Ąufig f├╝r Aufgaben der Bilderkennung und Verarbeitung nat├╝rlicher Sprache verwendet wird. Das Flussdiagramm von Scikit Learn f├╝r maschinelles Lernen ist unten abgebildet, das seine Reichweite f├╝r viele Arten von maschinellen Lernproblemen veranschaulicht.

Machine Learning

In einem gesch├Ąftlichen Kontext liegt die Hauptst├Ąrke von Python in den leistungsstarken Bibliotheken f├╝r maschinelles Lernen, einschlie├člich Scikit Learn und TensorFlow (und der Keras-Implementierung, die f├╝r den effizienten Aufbau neuronaler Netze ausgelegt ist). Die Scikit-Learn-Bibliothek ist leicht zu ├╝bernehmen, enth├Ąlt Unterst├╝tzung f├╝r Pipelines zur Vereinfachung des Arbeitsablaufs beim maschinellen Lernen und hat fast alle Algorithmen, die man ben├Âtigt, an einem Ort.

r python

Entwurf eines datenwissenschaftlichen Workflows

Wenn Sie mehrere Sprachen lernen, gewinnen Sie die F├Ąhigkeit, das beste Werkzeug f├╝r die Arbeit zu w├Ąhlen. Das Ergebnis ist eine Sprachharmonie, die die Effizienz, die F├Ąhigkeiten und die Produktivit├Ąt des Datenwissenschaftsteams erh├Âht.
Die allgemeine Idee ist es, so flexibel wie m├Âglich zu sein, damit wir das Beste beider Sprachen innerhalb unseres Full-Stack-Workflows im Bereich der Datenwissenschaft nutzen k├Ânnen:

  • Effizientes Erforschen von Daten
  • Modellierung, Cross-Validierung und Bewertung der Modellqualit├Ąt
  • Kommunikation von Datenwissenschaft zur besseren Entscheidungsfindung ├╝ber traditionelle Berichte (Word, PowerPoint, Excel, PDF),
  • webbasierte Berichte (HTML) und interaktive Web-Anwendungen (Shiny, Django)

Wir k├Ânnen die R- und Python-St├Ąrken-Visualisierung leicht modifizieren, um sie in einer logischen Reihenfolge zu organisieren, die die St├Ąrken wirksam einsetzt:

  • R wird f├╝r die Exploration ausgew├Ąhlt, weil es so gut lesbar und effizient ist
  • Python wird wegen der Scikit-Learn-Pipeline f├╝r maschinelles Lernen ausgew├Ąhlt

R wurde f├╝r die Kommunikation ausgew├Ąhlt, da es ├╝ber fortschrittliche Berichterstattungsprogramme wie RMarkdown und Shiny (interaktive Webanwendungen) und das wunderbare ggplot2-Visualisierungspaket verf├╝gt.

Fazit

Sowohl R als auch Python sind m├Ąchtige Sprachen. Vieles in der Diskussion ├╝ber R vs. Python stellt diese Sprachen als Konkurrenten dar, obwohl sie eigentlich Verb├╝ndete sind. Wir haben diese Idee der harmonischen Nutzung der St├Ąrken der einzelnen Sprachen diskutiert und genutzt.

Wenn Datenwissenschaftsteams ├╝ber die „R-L├Ąden“ und „Python-L├Ąden“ hinausgehen und anfangen, in Form von „Hochleistungs-Datenwissenschaftsteams“ zu denken, beginnen sie einen ├ťbergang, der die Effizienz, Produktivit├Ąt und F├Ąhigkeiten verbessert. Die Herausforderung besteht darin, mehrere Sprachen zu lernen. Wir helfen Ihnen gerne mit der Benutzung beider Sprachen, vereinbaren Sie gerne ein unverbindliches Telefonat mit uns.

Swen Deobald

Swen Deobald

Mein Name ist Swen Deobald und ich bin begeisterter SAP Analytics Berater. Als Fachbereichsleiter von Compamind unterst├╝tze ich Sie mit meinem Team bei allen Fragen rund um SAP Analytics, Business Warehouse, BusinessObjects und der SAP Analytics Cloud.

Sie haben Fragen? Kontaktieren Sie mich!



Das k├Ânnte Sie auch interessieren


Schreiben Sie einen Kommentar

Bitte f├╝llen Sie alle mit * gekennzeichneten Felder aus. Ihre E-Mail Adresse wird nicht ver├Âffentlicht.





Angebot anfordern
Expert Session
Preisliste anfordern