1. Einleitung
Bei vielen Unternehmen steht die Einführung von KI ganz oben auf der strategischen Agenda. Doch die tatsächliche Wertschöpfung aus KI scheitert in der Praxis oft am Zugang zu den richtigen Daten und deren Qualität.
Um Daten für KI-Anwendungen nutzbar zu machen, müssen sie bestimmte Voraussetzungen erfüllen: Sie brauchen eine hohe Datenqualität, eine klare semantische Struktur und müssen im entsprechenden Business-Kontext verständlich und relevant sein. Diese sogenannte KI-Readiness ist eine Herausforderung – besonders, wenn Daten aus SAP-Systemen genutzt werden sollen.
Bisher war der Zugriff auf SAP-Daten für Data-Science- und KI-Plattformen nur über komplexe Replikationsmechanismen möglich. Das führte zu Redundanzen, Verzögerungen und Data Governance-Problemen.
Mit der SAP Business Data Cloud (BDC) will SAP dieses Problem nun grundlegend adressieren: durch eine offene, semantisch konsistente und KI-fähige Datenplattform.
Wir haben uns die SAP BDC im Detail angesehen und geben im Folgenden eine praxisnahe Einschätzung zu ihren Mehrwerten, technischen Möglichkeiten und typischen Einsatzszenarien.
2. SAP Business Data Cloud
Was ist die Business Data Cloud?
Die SAP Business Data Cloud (BDC)ist eine neue, cloud-native Datenplattform der SAP, bereitgestellt auf der SAP Business Technology Plattform (BTP). Als Software-as-a-Service (SaaS) Lösung soll sie SAP- und Nicht-SAP-Daten vereinheitlichen, verwalten und für moderne Anwendungsfälle nutzbar machen. Die BDC vereinigt damit bestehende SAP-Lösungen wie Datasphere, Analytics Cloud und BW und erweitert diese um neue KI-Funktionen, unter anderem durch die native Integration von Databricks.
Zentrale Funktionen und Architekturprinzipien
Ein Kernprinzip der BDC ist die zentrale Datenintegration über Systemgrenzen hinweg: Sie integriert Daten aus SAP- und Nicht-SAP-Systemen und macht sie als einheitliche Datenprodukte unter Beibehaltung des Geschäftskontextes verfügbar. Dabei folgt die BDC dem Prinzip des Data Sharing statt Data Replication – also dem Zugriff auf Daten

an der Quelle anstatt redundanter Kopien. Dadurch werden Redundanzen verhindert und die SAP Governance gewahrt. Die SAP Datasphere übernimmt die zentrale Modellierung, Zugriffssteuerung und Rollenverwaltung, sodass Daten und Zugriffstreue gewährleistet sind. SAP stellt zudem einsatzbereite Anwendungen („Intelligent Applications“) bereit, die KI-basierte Analysen, Planung und Metriken enthalten können und über das BDC-Cockpit nutzbar sind.
Neu ist zudem das Konzept von Daten als Produkt: Datenobjekte erhalten Metainformationen wie Semantik, Beschreibung, Qualitätsanforderungen und Freigabeprozesse. Dies ist ein wichtiger Fortschritt im Sinne von Data Mesh und Data Governance, da somit gepflegte und klar definierte Datenpakete zur Verfügung gestellt werden.
Für die eigenständige Entwicklung und Bereitstellung von Business-spezifischen KI-Lösungen bietet die BDC mit SAP Databricks nun eine eigene Plattform bereit.
Offenheit und Integration
Die SAP BDC folgt einem Multi-Cloud Ansatz und kann auf AWS, Google Cloud und Azure betrieben werden. Darüber hinaus bietet sie eine Vielzahl an standardisierten Konnektoren und offenen Schnittstellen zur Anbindung von Nicht-SAP-Systemen.
Ziel ist es SAP- und Nicht-SAP-Daten in einer gemeinsamen, semantisch angereicherten Plattform zusammenzuführen und so einen zentralen Zugangspunkt auf den Datenschatz des Unternehmens zu schaffen. Die SAP verfolgt dabei explizit den Ansatz eines offenen Datenökosystems, bei dem weitestgehend auf Datenkopien verzichtet wird und ein Lock-In vermieden wird. Fachanwender und Data Scientists greifen nun auf denselben semantisch harmonisierten Datenbestand zu – mit jeweils passenden Werkzeugen und Rollen.
Insbesondere Data Scientists profitieren nun von der Zero-Copy-Integration mit SAP Databricks: Für KI/Analytics Use-Cases müssen nun keine Daten mehr aus SAP-Systemen exportiert werden. Stattdessen können die Daten direkt aus dem Quellsystem gelesen werden. (Mehr dazu in Kapitel 3.)
Governance, Sicherheit und Kontrolle
Die BDC wird zentral über das BDC-Cockpit verwaltet. Hier lassen sich Datenprodukte und -modelle definieren und verwalten. Außerdem können Zugriffsrechte und Rollen zugewiesen werden. Datenquellen und -flüsse können ebenfalls nachvollzogen werden.
Auch das Identitäts- und Berechtigungsmanagement wird hier zentral gesteuert, um Daten und Zugriffsrechte über verschiedene Plattformen hinweg einheitlich und Compliance konform zu verwalten. Zusätzlich bietet die BDC Protokollierungsfunktionen für Datenzugriffe, -änderungen und Bewegungen. Dies ist ein wichtiger Aspekt für Audits, Revisionssicherheit und DSGVO-konforme Datennutzung.
3. SAP Databricks
Einführung Databricks
SAP Databricks ist die neue, von SAP verwaltete, Integration der Databricks Data Intelligence Plattform in der Business Data Cloud. Databricks ist eine cloudbasierte Plattform für Data Engineering, Data Science, Analytics und KI.
Sie basiert auf dem Architekturmodell des Data Lakehouse, welches die Flexibilität von Data Lakes mit der Performance von Data Warehouses verbindet. Es ermöglicht die Speicherung und Verarbeitung von strukturierten, semi-strukturierten und unstrukturierten Daten an einem Ort. Die dort gespeicherten Daten lassen sich ohne aufwändige ETL-Prozesse direkt analytisch nutzen.
Die Ressourcen lassen sich dank Cloud-Technologie bedarfsgerecht skalieren. Das Data Lakehouse bietet zudem Möglichkeiten für Data Governance, Zugriffskontrolle und Katalogisierung der Datenbestände über den Unity Catalog.
Databricks nutzt den offenen Standard Delta Sharing, um Daten plattformübergreifend zu teilen. Die Daten verbleiben somit an der Quelle und können von verschiedenen autorisierten Konsumenten verarbeitet werden. Dieses Vorgehen wird auch als Zero-Copy Sharing bezeichnet.
Databricks ist explizit auf die Verarbeitung und Analysen von großen Datenmengen und die Entwicklung von KI-Modellen ausgelegt. Es basiert auf Apache Spark, welches eine schnelle und verteilte Verarbeitung von großen Datenmengen erlaubt. Weiterhin können mit Spark effiziente ETL-Pipelines für verschiedene Datenquellen entwickelt werden. Databricks bildet ebenfalls den kompletten End-to-End Workflow für die Entwicklung und den Betrieb von KI-Modellen ab. Unterstützt wird dies von MLflow, einem etablierten Tool für das Management des kompletten Machine-Learning-Lebenszyklus. Dieses erleichtert insbesondere die Modellüberwachung und Versionierung.
SAP Databricks: Besonderheiten der Integration in Business Data Cloud
Dank der nativen Integration von Databricks in SAP BDC profitieren Datenexperten vom Zero-Copy Zugriff auf Geschäftsdaten, welcher Analysen enorm beschleunigt und langwierige und komplexe Datenexporte vermeidet.
Ein weiterer Vorteil der nativen Integration ist, dass vorgefertigte SAP Data Products genutzt werden können. Damit bleiben die geschäftliche Semantik und Metadaten aus SAP erhalten und Analysen können direkt im geschäftlichen Kontext stattfinden. Durch die Data Products entfällt weitgehend die Notwendigkeit für ETL-Prozesse, da die Datenprodukte zentral gepflegt und bereitgestellt werden. Allerdings entstehen durch diese Standardisierung, im Vergleich zum eigenständigen Databricks-Setup auch Einschränkungen bei der individuellen Datenmodellierung.
Auch externe Datenquellen (z.B. Schnittstellen, Legacy-Systeme, öffentliche Daten) können zur Anreicherung der SAP-Kerndaten über Delta Sharing oder Konnektoren eingebunden werden.
Das integrierte Databricks ist ideal für Unternehmen, die auf ihren bestehenden SAP-Daten aufbauen möchten und einen schnellen Einstieg in KI suchen. Weiterhin ist es ideal geeignet, wenn Unternehmen hohe Anforderungen an Compliance und Governance stellen und möglichst wenig Integrationsaufwand betreiben möchten.
Für anspruchsvollere Data Engineering Szenarien z.B. mit hoher Vielfalt an Datenquellen, Nicht-SAP-Zentrierung oder komplexen Transformationslogiken bietet sich weiterhin die Nutzung eines eigenständigen Databricks-Clusters an.

4. Fazit
Mit der Business Data Cloud schafft SAP eine moderne Datenarchitektur, die bestehende Systeme wie Datasphere, Analytics Cloud und BW nicht ersetzt, sondern integriert und erweitert. Bestehende Investitionen sind somit geschützt und können schrittweise in eine zukunftssichere KI-fähige Datenplattform migriert werden.
Die Business Data Cloud basiert auf drei wesentlichen Neuerungen: Durch das konsistente, semantisch angereicherte Datenmodell wurde nun eine stabile Grundlage für Analysen, Planung und KI geschaffen. Der Zero-Copy-Zugriff auf die Geschäftsdaten verhindert redundante Datenhaltung und beschleunigt Analysen deutlich, während die Data Governance gewahrt bleibt. Mit dem neuen SAP Databricks wird zudem erstmals die Entwicklung von KI-Modellen und komplexen Datenverarbeitungen direkt auf SAP-Daten möglich.
SAP hat mit der Business Data Cloud wesentliche technische Fesseln gelöst. Den letzten Schritt zur Business-KI müssen Unternehmen jedoch selbst gehen.