Swen Deobald
23. Januar 2020

R – Programmiersprache & Umgebung

R ist eine Programmiersprache und Umgebung für statistische Berechnungen und Grafiken. Es ist ein GNU-Projekt, das der Sprache und Umgebung S ähnlich ist, die an den Bell Laboratories (früher AT&T, jetzt Lucent Technologies) von John Chambers und Kollegen entwickelt wurde.

R kann als eine andere Implementierung von S betrachtet werden. Es gibt einige wichtige Unterschiede, aber viel für S geschriebener Code läuft unverändert unter R.

R bietet eine große Vielfalt an statistischen (lineare und nichtlineare Modellierung, klassische statistische Tests, Zeitreihenanalyse, Klassifikation, Clustering, …) und grafischen Techniken und ist hochgradig erweiterbar. Die Sprache S ist oft das Mittel der Wahl für die Forschung in der statistischen Methodik, und R bietet einen Open-Source-Weg zur Teilnahme an dieser Aktivität.

Eine der Stärken von R ist die Leichtigkeit, mit der gut gestaltete Plots in Publikationsqualität erstellt werden können, einschließlich mathematischer Symbole und Formeln, falls nötig. Große Sorgfalt wurde auf die Voreinstellungen für die kleineren Design-Auswahlen in den Grafiken verwendet, aber der Benutzer behält die volle Kontrolle.

Wozu benötige ich es?

R ist ein integriertes Softwarepaket zur Datenmanipulation, Berechnung und grafischen Darstellung. Sie umfasst

  • eine effektive Datenverarbeitung und -speicherung
  • eine Reihe von Operatoren für Berechnungen auf Arrays, insbesondere Matrizen
  • eine große, kohärente, integrierte Sammlung von Werkzeugen für die Datenanalyse
  • grafische Möglichkeiten zur Datenanalyse und -anzeige entweder auf dem Bildschirm oder auf Papier
  • eine gut entwickelte, einfache und effektive Programmiersprache, die Konditionalisierungen, Schleifen, benutzerdefinierte rekursive Funktionen und Ein- sowie Ausgabemöglichkeiten enthält

Die Umgebung R

Viele Benutzer betrachten R als ein Statistiksystem. Wir ziehen es vor, es als eine Umgebung zu betrachten, in der statistische Techniken implementiert werden.

Der Begriff “Umgebung” soll es als ein vollständig geplantes und kohärentes System charakterisieren, und nicht als eine inkrementelle Anhäufung sehr spezifischer und unflexibler Werkzeuge, wie es häufig bei anderer Datenanalysesoftware der Fall ist.

R ist wie S um eine echte Computersprache herum konzipiert und erlaubt es dem Benutzer, zusätzliche Funktionalität durch die Definition neuer Funktionen hinzuzufügen. Ein großer Teil des Systems ist selbst im R-Dialekt von S geschrieben, was es den Benutzern leicht macht, den getroffenen algorithmischen Entscheidungen zu folgen. Für rechenintensive Aufgaben kann C, C++ und Fortran-Code verknüpft und aufgerufen werden. Fortgeschrittene Benutzer können einen C-Code schreiben, um R-Objekte direkt zu manipulieren.

R hat ein eigenes LaTeX-ähnliches Dokumentationsformat, das zur Bereitstellung einer umfassenden Dokumentation sowohl online in verschiedenen Formaten als auch in Papierform verwendet wird.

Unser E-Book zum Thema SAP Analytics Tools

SAP Analytics Tools: On Premise vs. Cloud [E-Book]

Finden Sie hier notwendige Informationen und einige Leitfragen, um prüfen zu können, ob Sie Ihre Analytics-Anwendungen On-Premise oder in der Cloud betreiben wollen.

Kommunizieren mit R

R hat mehrere Möglichkeiten, die Arbeit zu präsentieren und zu teilen, entweder durch ein Markdown-Dokument oder eine App. Alles kann in Rpub, GitHub oder auf der Website des Unternehmens gehostet werden.

Rstudio akzeptiert Markdown, um ein Dokument zu schreiben. Sie können die Dokumente in verschiedenen Formaten exportieren:

Dokument :

  • HTML
  • PDF/Latex
  • Wort
  • Präsentation
  • HTML
  • PDF-Beamer

Von wem wird es genutzt

Wenn wir die Verwendung von R durch die Industrie untersuchen, sehen wir, dass die Akademiker an erster Stelle stehen. R ist eine Sprache, um Statistik zu machen. R ist die erste Wahl in der Gesundheitsbranche, gefolgt von Regierung und Beratung.

Warum R verwenden?

Die Datenwissenschaft prägt die Art und Weise, wie Unternehmen ihr Geschäft betreiben. Zweifellos wird die Abkehr von künstlicher Intelligenz und Maschinen das Unternehmen zum Scheitern bringen. Die große Frage ist, welches Werkzeug/Sprache Sie verwenden sollten.

Es gibt eine Vielzahl von Werkzeugen auf dem Markt, um Datenanalysen durchzuführen. Das Erlernen einer neuen Sprache erfordert eine gewisse Zeitinvestition, doch wenn Sie den besten Einblick in die Daten geben wollen, müssen Sie einige Zeit damit verbringen, das entsprechende Werkzeug, nämlich R, zu erlernen.

Was benötige ich dazu

R ist als freie Software unter den Bedingungen der GNU General Public License der Free Software Foundation in Form von Quellcode verfügbar. Es kompiliert und läuft auf einer Vielzahl von UNIX-Plattformen und ähnlichen Systemen (einschließlich FreeBSD und Linux), Windows und MacOS.

Die Mindestanforderungen

Der RAM sollte mindestens 8 GB betragen, da die meisten Daten im RAM gespeichert werden und die Datensätze leicht über 2 GB erreichen (kleine Datensätze).

Da es sich um Single-Threading handelt, sollten Sie einen Prozessor haben, der eine gute Rechenleistung hat. Beachten Sie, dass Sie in R parallele Prozesse mit Snow, Parallel und anderen Paketen ausführen können.

GPU’s werden nicht benötigt, aber für die Datenwissenschaft benötigen Sie sie, wenn Sie sehr große Datensätze bearbeiten.

Daher sind die Mindestanforderungen:

  • 8 GB ARBEITSSPEICHER
  • 128GB SSD
  • i5-Prozessor

Wichtige Packages und Libraries

Ein Kernsatz von Paketen ist bei der Installation von R enthalten, mit mehr als 15.000 zusätzlichen Paketen (Stand September 2018), die im Comprehensive R Archive Network (CRAN), Bioconductor, Omegahat, GitHub und anderen Repositories verfügbar sind.

R kann (einfach) über Pakete erweitert werden. Es gibt etwa acht Pakete, die mit der R-Distribution geliefert werden und viele weitere sind über die CRAN Familie von Internetseiten verfügbar, die einen sehr großen Bereich moderner Statistik abdecken.

R

Erweiterungspakete von R

Die Fähigkeiten von R werden durch vom Benutzer erstellten Paketen erweitert, die spezielle statistische Techniken, grafische Geräte, Import-/Exportfähigkeiten, Berichtswerkzeuge (Rmarkdown, Knitr, Sweave) usw. ermöglichen. Diese Pakete werden hauptsächlich in R entwickelt, manchmal auch in Java, C, C++ und Fortran. Das Paketsystem wird von Forschern auch dazu verwendet, Kompendien zu erstellen, um Forschungsdaten, Code und Berichtsdateien systematisch zu organisieren, um sie gemeinsam zu nutzen und öffentlich zu archivieren.

Task Views

Die Seite “Task Views” (Themenliste) auf der CRAN Webseite listet eine große Auswahl an Aufgaben (in Bereichen wie Finanzen, Genetik, Hochleistungsrechnen, Maschinelles Lernen, Medizinische Bildgebung, Sozialwissenschaften und Raumstatistik) auf, für die R beantragt wurde und für die Pakete verfügbar sind. Es wurde auch von der FDA als geeignet für die Interpretation von Daten aus der klinischen Forschung identifiziert.

Crantastic

Weitere R-Paket Ressourcen sind Crantastic, eine Community-Site zur Bewertung und Überprüfung aller CRAN Pakete, und R-Forge, eine zentrale Plattform für die gemeinsame Entwicklung von R-Paketen, R-bezogener Software und Projekten. R-Forge hostet auch viele unveröffentlichte Beta-Pakete und Entwicklungsversionen von CRAN Paketen. Microsoft unterhält einen täglichen Schnappschuss von CRAN, der bis zum 17. September 2014 zurückreicht.

Bioconductor

Das Projekt Bioconductor stellt R-Pakete für die Analyse von genomischen Daten zur Verfügung. Dazu gehören objektorientierte Datenhandhabungs- und Analysewerkzeuge für Daten von Affymetrix, cDNA-Mikroarrays und Hochdurchsatz-Sequenzierungsmethoden der nächsten Generation.

Nachteile im Vergleich zu Python

Python macht die Replizierbarkeit und Zugänglichkeit einfacher. Tatsächlich ist Python die beste Wahl, wenn Sie die Ergebnisse Ihrer Analyse in einer Anwendung oder Website verwenden müssen.

Und so ist die Realität, dass beide Sprachen wertvoll sind, und beide sind hier, um zu bleiben. Unsere Erfahrung bestätigt dies. Viele Data Science Teams sind heute zweisprachig und nutzen sowohl R als auch Python in ihrer Arbeit.

Nun haben sie sich einen Überblick über R und dessen Können verschafft. Haben Sie dazu noch fragen oder benötigen Sie Hilfe? Dann buchen Sie jetzt Ihren R-Berater.

Swen Deobald

Swen Deobald

Mein Name ist Swen Deobald und ich bin begeisterter SAP Analytics Berater. Als Fachbereichsleiter von Compamind unterstütze ich Sie mit meinem Team bei allen Fragen rund um SAP Analytics, Business Warehouse, BusinessObjects und der SAP Analytics Cloud.

Sie haben Fragen? Kontaktieren Sie mich!


Das könnte Sie auch interessieren:

E-Book SAP Analytics Tools
SAP Analytics

Das könnte Sie auch interessieren

Bei der Rekrutierung ist im Moment viel los und die innovativen Technologien verändern die Art und Weise, wie die Personalbeschaffung funktioniert. So profitieren Sie davon!

weiterlesen

Mit dem Analytics Hub von SAP können Anwender in den Unternehmen noch einfacher auf die Analytics-Lösungen in ihrer SAP Cloud zugreifen. SAP Cloud und Hub arbeiten also Hand in Hand. Damit soll es noch einfacher sein, anhand des gespeicherten Contents […]

weiterlesen

Häufig erhalten wird die Frage was eigentlich passiert wenn die Cloud ausfällt? Viele Kunden teilen diese Bedenken vor einer Power BI Einführung. Deswegen wollen wir mal etwas Licht ins Dunkle bringen was denn eigentlich passiert wenn bei Microsoft die Lichter […]

weiterlesen

Unsere Produkte zu R – Programmiersprache & Umgebung

Ihnen fehlt das interne Wissen um Anforderungen im BW umzusetzen? Unsere Entwickler übernehmen 100% Ihrer Projektverantwortung – zum Festpreis!

Mehr Informationen

Ihre Analysen sind nichtssagend und Ihre Datenqualität miserabel? Wir analysieren Ihre Quellsysteme und geben Handlungsempfehlung, damit Sie sich auf Ihre Daten verlassen können!

Mehr Informationen

Analysehorizont, Mobilität und Live-Reportings sind für Sie ein unerreichter Traum? Sie haben die Herausforderung – wir die Mitarbeiter und das Knowhow!

Mehr Informationen

Schreiben Sie einen Kommentar

Bitte füllen Sie alle mit * gekennzeichneten Felder aus. Ihre E-Mail Adresse wird nicht veröffentlicht.





Angebot anfordern
Expert Session
Preisliste anfordern