
R – Programmiersprache & Umgebung
Inhaltsverzeichnis
R kann als eine andere Implementierung von S betrachtet werden. Es gibt einige wichtige Unterschiede, aber viele für S geschriebene Codes laufen auch unverändert unter R.
R bietet eine große Vielfalt an statistischen (lineare und nichtlineare Modellierung, klassische statistische Tests, Zeitreihenanalyse, Klassifikation, Clustering, etc.) und grafischen Techniken und ist hochgradig erweiterbar. Die Sprache S ist oft das Mittel der Wahl für die Forschung in der statistischen Methodik, und R bietet einen Open-Source-Weg zur Teilnahme an dieser Aktivität.
Eine der Stärken von R ist die Leichtigkeit, mit der gut gestaltete Plots in Publikationsqualität erstellt werden können- Darin eingeschlossen sind auch mathematische Symbole und Formeln, falls diese benötigt werden. Große Sorgfalt wurde auf die Voreinstellungen für die kleineren Design-Auswahlen in den Grafiken verwendet, aber dennoch behält der Benutzer die volle Kontrolle.
Der Verwendungszweck von R
Das Datenmanagement prägt die Art und Weise, wie Unternehmen ihr Geschäft betreiben, und wird zunehmend wichtiger. Deshalb stellt sich die große Frage, welches Werkzeug sie dafür verwenden sollten. Es gibt eine Vielzahl von Werkzeugen auf dem Markt, um Datenanalysen durchzuführen. R ist eines davon. Das integrierte Softwarepaket zur Datenmanipulation, Berechnung und grafischen Darstellung umfasst unter anderem:
- eine effektive Datenverarbeitung und -speicherung
- eine Reihe von Operatoren für Berechnungen auf Arrays, insbesondere Matrizen
- eine große, kohärente, integrierte Sammlung von Werkzeugen für die Datenanalyse
- grafische Möglichkeiten zur Datenanalyse und -anzeige entweder auf dem Bildschirm oder auf dem Papier
- eine gut entwickelte, einfache und effektive Programmiersprache, die Konditionierungen, Schleifen, benutzerdefinierte rekursive Funktionen und Ein- sowie Ausgabemöglichkeiten enthält
Die Umgebung R
Viele Benutzer verstehen R als ein Statistiksystem. Korrekter wäre es, R als eine Umgebung zu betrachten, in der statistische Techniken implementiert werden. Der Begriff „Umgebung” charakterisiert R als ein vollständig geplantes und kohärentes System, und nicht als eine inkrementelle Anhäufung sehr spezifischer und unflexibler Werkzeuge, wie es häufig bei anderer Datenanalysesoftware der Fall ist.
R ist wie S um eine echte Computersprache herum konzipiert und erlaubt es dem Benutzer, zusätzliche Funktionalität durch die Definition neuer Funktionen hinzuzufügen. Ein großer Teil des Systems ist in einer Art R-Dialekt von S geschrieben, welcher es den Benutzern leicht macht, den getroffenen algorithmischen Entscheidungen zu folgen. Für rechenintensive Aufgaben kann C, C++ und Fortran-Code verknüpft und aufgerufen werden. Fortgeschrittene Benutzer können einen C-Code schreiben, um R-Objekte direkt zu manipulieren.
Das Dokumentationsformat von R ähnelt dem von LaTeX. Es kann zur Bereitstellung einer umfassenden Dokumentation sowohl online in verschiedenen Formaten als auch in Papierform verwendet werden.
Nutzungsanforderungen
R ist als freie Software unter den Bedingungen der GNU General Public License der Free Software Foundation in Form von Quellcode verfügbar. Es kompiliert und läuft auf einer Vielzahl von UNIX-Plattformen und ähnlichen Systemen einschließlich FreeBSD und Linux, Windows und MacOS. Der RAM sollte mindestens 8 GB betragen, da die meisten Daten im RAM gespeichert werden und die Datensätze leicht über 2 GB erreichen.
Da es sich um Single-Threading handelt, sollten Sie einen Prozessor haben, der eine gute Rechenleistung hat. Beachten Sie, dass in R parallele Prozesse mit Snow, Parallel und anderen Paketen ausgeführt werden können. GPU’s werden nicht zwangsläufig benötigt, kommen aber bei der Bearbeitung von großen Datensätzen zum Einsatz.
Zusammengefasst lauten die Mindestanforderungen:
- 8 GB Arbeitsspeicher
- 128GB SSD
- i5-Prozessor
Kommunizieren mit R
R hat zwei Möglichkeiten, die Arbeit zu präsentieren und zu teilen: Entweder durch ein Markdown-Dokument oder eine App. Beides kann in Rpub, GitHub oder auf der Website des Unternehmens gehostet werden und Dokumente in verschiedenen Formaten exportieren:
- HTML
- PDF/Latex
- Wort
- Präsentation
- HTML
- PDF-Beamer
Wichtige Packages und Libraries
Ein Kernsatz von Paketen ist bei der Installation von R enthalten. Die Standardbibliothek umfasst 29 Pakete, die im Comprehensive R Archive Network (CRAN), Bioconductor, Omegahat, GitHub und anderen Repositories verfügbar sind.
R kann (einfach) über Pakete erweitert werden. Es gibt vierzehn Pakete, die beim Programmstart geliefert werden. Viele weitere sind über die CRAN Familie von Internetseiten verfügbar, die einen sehr großen Bereich moderner Statistik abdecken.
Erweiterungspakete von R
Die Fähigkeiten von R werden durch vom Benutzer erstellten Paketen erweitert, die spezielle statistische Techniken, grafische Geräte, Import-/Exportfähigkeiten oder Berichtswerkzeuge (Rmarkdown, Knitr, Sweave) ermöglichen. Diese Pakete werden hauptsächlich in R entwickelt, manchmal aber auch in Java, C, C++ und Fortran. Das Paketsystem wird von Forschern auch dazu verwendet, Kompendien zu erstellen, um Forschungsdaten, Code und Berichtsdateien systematisch zu organisieren, sie gemeinsam zu nutzen und öffentlich zu archivieren.
Task Views
Die Seite „Task Views” (Themenliste) auf der CRAN Webseite listet eine große Auswahl an Aufgaben in Bereichen wie Finanzen, Genetik, Hochleistungsrechnen, Maschinelles Lernen, Medizinische Bildgebung, Sozialwissenschaften und Raumstatistik auf, für die R beantragt wurde und für die Pakete verfügbar sind. Die Seite wurde auch von der FDA als geeignet für die Interpretation von Daten aus der klinischen Forschung identifiziert.
Crantastic
Weitere R-Paket Ressourcen sind Crantastic, eine Community-Site zur Bewertung und Überprüfung aller CRAN Pakete, und R-Forge, eine zentrale Plattform für die gemeinsame Entwicklung von R-Paketen, R-bezogener Software und Projekten. R-Forge hostet auch viele unveröffentlichte Beta-Pakete und Entwicklungsversionen von CRAN Paketen. Microsoft unterhält einen täglichen Schnappschuss von CRAN, der bis zum 17. September 2014 zurückreicht.
Bioconductor
Das Projekt Bioconductor stellt R-Pakete für die Analyse von genomischen Daten zur Verfügung. Dazu gehören objektorientierte Datenhandhabungs- und Analysewerkzeuge für Daten von Affymetrix, cDNA-Mikroarrays und Hochdurchsatz-Sequenzierungsmethoden der nächsten Generation.
R im Vergleich zu Python
Unsere Erfahrung bestätigt, dass R und Python beide wertvolle Programmiersprachen mit Zukunft sind. Viele Data Science Teams sind heute deshalb zweisprachig und nutzen sowohl R als auch Python in ihrer Arbeit.
Für Python spricht insbesondere die Replizierbarkeit sowie die vereinfachte Zugänglichkeit. Weitere Informationen zu dieser Programmiersprache finden Sie hier.
Fazit
R ist eine Programmiersprache und Umgebung für statistische Berechnungen und Grafiken. Es ist ein GNU-Projekt, das der Sprache und Umgebung S ähnelt und für viele Ziele im Bereich der Datenverarbeitung eingesetzt werden kann. R ist wie S um eine echte Computersprache herum konzipiert und erlaubt es dem Benutzer, zusätzliche Funktionalität durch die Definition neuer Funktionen hinzuzufügen. Als Mindestanforderungen zur Nutzung von R wird ein 8 GB Arbeitsspeicher, 128 GB SSD sowie ein i5-Prozessor benötigt.
FAQ
Was ist R?
R ist ähnlich wie S eine Programmiersprache und Programmierumgebung für die Verarbeitung großer Datenmengen. Insbesondere im Bereich der Statistik findet R Anwendung.
Was brauche ich, um R zu nutzen?
Die technischen Anforderungen an die Nutzung von R sind ein 8 GB Arbeitsspeicher mit 128 SSD und einem i5-Prozessor.
Welche Vorteile hat R?
R dient der effektiven Datenverarbeitung und Datenspeicherung mit einer Reihe von Operatoren und Werkzeugen sowie graphischen Darstellungsmöglichkeiten. Die Programmiersprache ist dabei vergleichsweise einfach und effektiv.