
Databricks
Inhaltsverzeichnis
Was ist Databricks?
Bei Databricks handelt es sich um eine Cloud-basierte Plattform zur Analyse von Daten in Unternehmen. Databricks wurde von den Entwickelern von Apache Spark gegründet und bezeichnet sich selbst als Data-Intelligence Platform. So soll die umfangreiche Einbindung von generativer künstlicher Intelligenz in die Software betont werden.
Die Besonderheit von Databricks ist die sogenannte Lakehouse-Architektur. Hier kombiniert Databricks die Konzepte Data Warehouse und Data Lake. So können mithilfe von Databricks große Mengen von Daten in verschiedenen Formaten sowohl strukturiert als auch unstrukturiert für Business Intelligence oder Machine Learning genutzt werden.
Das schafft für Unternehmen maximale Flexibilität im Umgang mit den Daten. Sie können in die Analysen nicht nur aufbereitete strukturierte Daten, sondern auch unstrukturierte Daten wie PDF-Dokumente, E-Mails oder Social Media Posts einbeziehen. Mit Databricks steht die Analyse und Nutzung Ihrer Daten also auf einem breiten Fundament, da Sie das Maximum an Daten nutzen können, was Ihr Unternehmen zu bieten hat.
Welche Funktionen hat Databricks?
Data Science
Mit Databricks können Sie die Data Science in Ihrem Unternehmen optimieren. In Databricks arbeiten Sie mit sogenannten Notebooks, die Sie mit Kollegen teilen können. Hier können Sie mit verschiedenen Sprachen wie Python, SQL und Scala arbeiten und außerdem Workflows für Data Science und Machine Learning etablieren. Durch die interaktive Visualisierung Ihrer Datenanalyse gewinnen Sie neue Erkenntnisse.
Sie können die Notebooks außerdem dazu verwenden, mithilfe von visuellen Low-Code-Tools Daten aufzubereiten und zu analysieren. Das spart Zeit und ermöglicht es auch Anwendern ohne tiefgreifende Programmierkenntnisse, mit den Tools zu arbeiten.
Die Ihnen zur Verfügung stehende Compute-Leistung zur Berechnung der Analysen wird durch die Cloud-Anbindung erweitert. Generell ist in Databricks die Compute-Leistung durch die automatisch verwalteten Cluster flexibel anpassbar. So können Sie genau dosieren, für welche Analyse-Aufgaben Sie wie viel Compute-Leistung aufwenden wollen.
Mithilfe von Delta Lake können Sie zudem die Daten formatübergreifend vereinheitlichen, was eine optimale Analyse ermöglicht.
Künstliche Intelligenz in Databricks
Anstatt ein allgemeines KI-Modell zu nutzen, können Sie bei Databricks frei verfügbare KI-Modelle wie GPT-4 von OpenAI auf Ihre Bedürfnisse anpassen oder eigene KI-Agenten entwickeln, die speziell auf die Daten Ihres Unternehmens zugeschnitten sind.
So hilft Ihnen beispieslweise Mosaic AI Gateway dabei, den Zugang zu KI-Modellen zu zentralisieren, sodass Sie von diesem Tool aus auf verschiedene interne und externe KI-Modelle zugreifen können.
Das Mosaic AI Agent Framework bietet Ihnen die Möglichkeit, generative AI-Anwendungen zu entwickeln und einzurichten. Das Framework ist nahtlos in die Databricks Data Intelligence Platform integriert und arbeitet deshalb sehr gut mit weiteren Tools wie Vector Search zusammen.
Diese Vektor-Datenbank hilft Ihnen dabei, Ihr LLM mit den Daten Ihres Unternehmens zu verbessern. Das ist nötig, da LLMs normalerweise KI-Modelle sind, die mit einer sehr großen Menge an öffentlich zugänglichen Daten trainiert werden. Mithilfe des RAG-Ansatzes (retrieval augmented generation, deutsch: durch Datenabruf verbesserte Generierung) wird die KI so verbessert, dass sie Experte für die Daten Ihres Unternehmens wird und ganz konkrete Fragen zu Ihrem Unternehmen beantworten kann.
Bei dieser tiefen Einbindung von künstlicher Intelligenz in die Analyse-Plattform legt Databricks insgesamt großen Wert darauf, dass die KI-Modelle, die Sie in Ihrem Unternehmen nutzen, nicht nur effizient ihre Aufgaben erledigen, sondern auch die Sicherheitsanforderungen erfüllen.
Gemeinsame Nutzung der Daten
Mithilfe des Open-Source-Ansatzes Delta Sharing können Sie Datensätze, Modelle und Dashboards sicher und plattformübergreifend teilen. Mithilfe der sogenannten Clean Rooms (deutsch: Reinräume) können Sie die freigegebenen Daten verschiedener Parteien analysieren, ohne direkten Zugriff auf die Rohdaten zu haben. Die Daten bleiben dort, wo sie am sichersten sind, was die Risiken minimiert. Databricks hilft so dabei, alle Compliance-Anforderungen Ihres Unternehmens zu erfüllen und die ordnungsgemäße Governance zu gewährleisten.
Dashboards in Databricks erstellen
Databricks bietet verschiedene Anwendungen für den Bereich Business Intelligence (BI) an. Dabei wird die Präsentation der Daten durch KI unterstützt, wodurch nicht nur eine verbesserte Visualisierung der Daten möglich ist. Die Einbindung von KI ermöglicht es Ihnen außerdem, die Visualisierungen mithilfe von natürlicher Sprache zu erstellen. Sie müssen sich also keine komplizierten Vorgehensweisen merken, um Dashboards zu erstellen, sondern können der KI einfach sagen, was das Dashboard anzeigen soll.
Die Dashboards können Sie jedem zugänglich machen, der über einen Databricks-Account verfügt, auch wenn die Person keinen Zugang zu Ihrem Workspace hat. Die Dashboards sind außerdem dynamisch, geben also immer den neuesten Stand der Analysen wieder, und können außerdem in verschiedenen Formaten wie HTML oder IPython Notebook exportiert werden.
Die erstellten Dashboards sind interaktiv und sorgen dafür, dass die Entscheidungen in Ihrem Unternehmen auf Basis von aktuellen Daten und Fakten getroffen werden.
Datenstreaming in Echtzeit
Mithilfe der Datenstreaming-Möglichkeiten von Databricks können Sie Batch- und Streamingpipelines zentral betreiben, steuern und verwalten. Das Versenden von Daten via Streamingpipelines auf der Lakehouse-Plattform von Databricks sorgt für eine Beschleunigung in der Bereinigung Ihrer Rohdaten. Außerdem verlieren Sie keine Zeit bei der Extraktion und Transformation der Daten. Möglich wird dies durch die Nutzung der Engine Apache Spark Structured Streaming.
Mithilfe der Streamingdaten ist außerdem die Analyse Ihrer Unternehmensdaten in Echtzeit möglich. Sie arbeiten also statt mit den Zahlen von gestern mit sekunden-aktuellen Daten und Fakten. Dies erhöht nicht nur die Präzision Ihrer Analytics, sondern sorgt auch für eine bessere Performance Ihrer unternehmensinternen KI.

Preismodell
Grundsätzlich bietet Databricks sowohl ein pay-as-you-go-Preismodell als auch feste Verträge zur Nutzung der Services an. Wenn Sie Databricks zunächst ausprobieren möchten, können Sie die Software im Rahmen einer kostenfreien Version zunächst testen.
Im Rahmen des pay-as-you-go-Modells gibt es sogenannte DBUs (Databricks Units). Dabei handelt es sich um Credits, die eine festgelegte Einheit von Rechenleistung auf der Lakehouse Platform angeben. Je nachdem, wie viel Aufwand ein Analyseprozess erzeugt, desto mehr DBUs werden verbraucht. Für verschiedene Services der Plattform werden DBUs jeweils verschieden bepreist, sodass beispielsweise Stand April 2025 ein DBU im Bereich Data Engineering 0,15 US-Dollar kostet, während ein DBU im Bereich Interactive Workloads 0,40 US-Dollar kostet.
Databricks und die SAP Business Data Cloud
Im Februar 2025 ist Databricks eine vielbeachtete Partnerschaft mit SAP eingegangen. Im Rahmen dieser Kooperation stellt der Datenspezialist gemeinsam mit dem ERP-Giganten die SAP Business Data Cloud (BDC) vor.
Hierbei handelt es sich um eine umfassende cloud-basierte SaaS-Lösung, mit der Sie alle Daten Ihres Unternehmens für die Analyse nutzbar machen können. Mithilfe von tiefer KI-Einbindung ermöglicht die BDC die Analyse von Daten verschiedenster Formate, wobei besonders betont wird, dass auch unstrukturierte Daten wie E-Mails oder PDF-Dokumente in die Analyse miteinbezogen werden können. Außerdem können auch Nicht-SAP-Daten vollumfänglich verarbeitet und nutzbar gemacht werden.
Da viele Anwendungen in der BDC bereits fertig mitgeliefert werden, ist der Aufwand für die Anwender vergleichsweise niedrig. Für die typischen Anwendungsfälle können sie auf die fertigen Inhalte der BDC zurückgreifen und die Anwendungen unkompliziert einrichten. Die fertigen Anwendungen sind in der Bibliothek Insight Apps gesammelt. Auch hier achten Databricks und SAP darauf, viele Tools anzubieten, die auch Nicht-SAP-Daten verarbeiten können.
Fazit
Databricks ist eine umfassende Lösung, um die Daten Ihres Unternehmens zu analysieren. Die Software umfasst Tools für sämtliche Anwendungen in diesem Bereich und baut auf der modernen Lakehouse-Architektur auf. Dadurch ist sowohl die Verarbeitung aufbereiteter Daten als auch die Nutzung von unverarbeiteten Rohdaten möglich. Durch die starke Einbindung von künstlicher Intelligenz werden viele Prozesse vereinfacht und die Streaming-Möglichkeiten stellen Echtzeitdaten bereit.
Wenn die Daten gesammelt und aufbereitet sind, können Sie unkompliziert übersichtliche Dashboards erstellen, damit alle Beteiligten auf einen Blick die wichtigsten Daten erfassen und bewerten können.
Sollte Ihr Unternehmen bereits SAP im Einsatz haben, können Sie über die Einführung der Business Data Cloud nachdenken. So holen Sie sich alle Vorteile von Databricks in Ihr Unternehmen und profitieren außerdem von der guten Integration in Ihre bestehenden SAP-Systeme.
Sollten Sie weitere Fragen zu Databricks oder allgemein zur Datenanalyse und -visualisierung haben, kontaktieren Sie uns gerne. Wir verfügen über langjährige Expertise im Bereich der Business Analytics und helfen Ihnen gerne dabei, Ihr Unternehmen durch die moderne und intelligente Nutzung Ihrer Daten vorwärts zu bringen.
SAP BI & Analytics Strategieberatung
Unsere professionellen SAP BI & Analytics-Berater unterstützen Sie bei der Planung und Konzeption Ihrer strategischen Projekte.
Weitere Informationen
- Rezensionen von Databricks bei G2.com
- Vergleich zwischen den Konzepten Data Warehouse, Data Lake und Data Lakehouse
FAQ
Was ist Databricks?
Databricks ist eine cloud-basierte Data-Intelligence-Plattform zur Datenanalyse und -visualisierung. Sie basiert auf der sogenannten Lakehouse-Architektur, die Konzepte aus Data Warehouse und Data Lake kombiniert. Damit lassen sich sowohl strukturierte als auch unstrukturierte Daten aus unterschiedlichen Quellen flexibel analysieren und für Business Intelligence sowie Machine Learning nutzen.
Welche wesentlichen Funktionen bietet Databricks?
- Data Science mit interaktiven Notebooks und Low-Code-Tools
- Integration von Künstlicher Intelligenz (öffentliche Modelle und eigene KI-Agents)
- Delta Sharing für sichere und einfache gemeinsame Datennutzung
- Echtzeit-Datenstreaming via Apache Spark Structured Streaming
- KI-unterstützte, interaktive Dashboards
Wie unterstützt Databricks Unternehmen bei der Nutzung von künstlicher Intelligenz?
Databricks bietet umfassende KI-Funktionalitäten. Unternehmen können eigene KI-Agenten entwickeln, frei verfügbare KI-Modelle (wie GPT-4 von OpenAI) individuell anpassen und dabei auf Tools wie Mosaic AI Gateway und das Mosaic AI Agent Framework zurückgreifen. Mittels des RAG-Ansatzes (retrieval augmented generation) verbessert Databricks KI-Modelle, sodass sie spezifische Fragen zu Unternehmensdaten beantworten können.
Was bedeutet die Kooperation zwischen Databricks und SAP für Unternehmen?
Durch die Partnerschaft zwischen Databricks und SAP entstand die SAP Business Data Cloud (BDC). Diese cloud-basierte SaaS-Lösung ermöglicht Unternehmen, SAP- und Nicht-SAP-Daten umfassend und unkompliziert zu analysieren. Dank vorkonfigurierter Anwendungen in der BDC können Unternehmen schneller starten und profitieren zugleich von einer tiefen Integration in bestehende SAP-Systeme.