Einleitung
Die SAP Business Data Cloud (BDC) auf der SAP Business Technology Platform (BTP) ist derzeit eines der meistdiskutierten Themen im SAP-Ökosystem. Insbesondere von SAP Databricks versprechen sich viele Unternehmen eine anwenderfreundliche und skalierbare Plattform, um Datenanalysen und KI-Entwicklung zu entfesseln. Besonders Unternehmen, deren SAP-Systeme bereits in der Cloud betrieben werden, profitieren vom neuen Zero-Copy-Ansatz: Ein Paradigmenwechsel, der es erlaubt, direkt auf die Quelldaten zuzugreifen, ohne diese aufwändig in eine Entwicklungsplattform replizieren zu müssen.
Doch was können Unternehmen heute schon tun, wenn die Einführung der Business Data Cloud noch nicht erfolgt ist? Welche Möglichkeiten gibt es, um schon jetzt erste Machine-Learning und KI-Anwendungsfälle in der bestehenden SAP-Systemlandschaft zu erproben?
In diesem Beitrag beleuchten wir zwei praxisnahe Szenarien zur Entwicklung und Operationalisierung von ML-Lösungen auf Basis von SAP HANA und SAP AI Core.
SAP HANA Machine Learning
SAP HANA ist die In-Memory-Datenbank, die in modernen SAP-Systemen zum Einsatz kommt. Diese bietet über die Bibliotheken Predictive Analytics Library (PAL) und Automated Predictive Library (APL) eigene Machine Learning Funktionalitäten. In beiden Fällen werden die Berechnungen direkt auf der Datenbank ausgeführt, ohne dass die Daten exportiert werden müssen.
Die Predictive Analytics Library (PAL) ist eine Sammlung von Modellen und Algorithmen für maschinelles Lernen und statistische Analysen, die direkt in die SAP HANA Datenbank integriert sind. PAL bietet über 100 Algorithmen und Modelle in den Bereichen Klassifikation, Regression, Clustering, Time Series, Recommender Systems und mehr.
Ähnlich wie die PAL beinhaltet die Automated Predictive Library (APL) ebenfalls Modelle aus den Bereichen Klassifikation, Regression, Clustering und Time Series. Die APL legt jedoch den Fokus auf automatisiertes Machine Learning. Dabei automatisiert APL viele Schritte des maschinellen Lernens wie Datenaufbereitung, Feature Engineering, Modellauswahl, Optimierung und Modellbewertung.
Sowohl PAL als auch APL bieten unterschiedliche Zugangsmöglichkeiten. Es ist möglich mittels SQLScript z.B. aus SAP HANA Studioheraus die Bibliotheken anzusteuern und Machine Learning Trainingsprozesse anzustoßen. Für Machine Learning Entwickler dürften aber die Zugriffsmöglichkeiten über R (hana.ml.r) oder Python (hana-ml) interessanter und komfortabler sein. Diese Bibliotheken stellen Client-Side-Funktionen bereit, die auf der HANA in PAL oder APL entsprechende Funktionen ansteuern. Somit können Machine Learning Entwickler in Ihrer gewohnten Programmiersprache arbeiten und gleichzeitig die In-Database-Machine-Learning-Funktionen der PAL und APL nutzen.
Abbildung 1 zeigt eine mögliche Architektur des ML-Lifecycles aus Entwicklerperspektive. Das Modelltraining wird über die entsprechenden Bibliotheken angestoßen und trainierte Modelle können direkt in der HANA gespeichert werden. Mit Hilfe von SQL-Prozeduren können Vorhersagen für neue Daten erzeugt werden und anschließend von Business Applikationen abgerufen werden.

SAP AI Core
SAP AI Core ist ein Service innerhalb der SAP Business Technology Plattform (BTP). Er ermöglicht die systematische Ausführung von Machine Learning Workflows (Training und Bereitstellung).
Es können dabei sowohl SAP als auch Cloudanbieter als Datenquelle herangezogen werden. Bei der Umsetzung der Architektur setzt SAP stark auf Drittanbieterservices, die in der Industrie verbreitet sind: Das Herzstück bildet ein Kubernetes Cluster, der skalierbar für Training und Bereitstellung genutzt werden kann. Mit Hilfe von Argo CD können Workflows auf dem Kubernetes Cluster bereitgestellt werden. Zur Codeverwaltung und Containerisierung bietet AI Core Anbindungen an Github und Docker Repositories an. Innerhalb der Docker Container kann in der bevorzugten Programmiersprache gearbeitet werden. Daher ist man mit diesem Ansatz frei in der Auswahl der Machine Learning Modelle und nicht auf vorgefertigte Modelle angewiesen. Es kann auch das KServe Framework verwendet werden, um den Inference Service mit REST-Schnittstellen bereitzustellen.
Wenn AI Core mit HANA als Datenquelle genutzt wird, können auch die HANA Machine Learning Bibliotheken genutzt werden. Dann müssen die Daten nicht übertragen werden und die Machine Learning Workflows werden direkt auf der HANA ausgeführt.
Mit dem Generative AI Hub bietet AI Core auch eine Lösung für die Bereitstellung von generativer KI. Es bietet Zugang zu verschiedenen kommerziellen und Open Source Large Language Models (LLMs). Somit kann SAP AI Core für die gesamte Bandbreite des Machine Learning und KI-Feldes eingesetzt werden.
In Abbildung 2 ist der Einsatz von AI Core für das Training und die Bereitstellung einer Machine Learning basierten Lösung schematisch gezeigt. Business Applikationen können über die REST-Schnittstelle Ergebnisse erhalten und weiterverwenden.

Fazit
SAP bietet mit HANA Machine Learning und AI Core zwei unterschiedliche, aber mächtige Ansätze, um bereits heute Machine Learning und KI innerhalb von SAP zu entwickeln und zu betreiben. Mit SAP HANA Machine Learning wird ein Ansatz angeboten, der direkt auf der In-Memory Datenbank HANA arbeitet und somit Datenübertragungen überflüssig macht. Dieser Ansatz bietet sich vor allem für schnelles Prototypisieren oder die Entwicklung und die Bereitstellung einzelner Anwendungsfälle an. Mit AI Core stellt SAP eine SAP-zentrische Entwicklungs- und Betriebsplattform für Machine Learning und generative KI bereit. Auf Basis eines skalierbaren Kubernetes Clusters können hierbei flexible und aufwändigere Entwicklungen und Bereitstellungen vorgenommen werden.
Ausblick: SAP Databricks
SAP Databricks wurde im Februar 2025 angekündigt und ist seit Mai auf der SAP BTP im Rahmen von Business Data Cloud verfügbar. Die Lösung verspricht, eine leistungsstarke Plattform für Daten- und KI-Entwicklung direkt innerhalb der SAP-Landschaft bereitzustellen.
Ein zentrales Merkmal ist die sogenannte Zero Copy-Technologie, die es ermöglicht, Analysen und Entwicklungen direkt auf den Quelldaten durchzuführen. Umfangreiche Datenreplikationsmechanismen, die Datenprojekte deutlich komplexer und umfangreicher machen, werden dadurch nicht mehr benötigt. Voraussetzung dabei ist allerdings, dass die SAP-Systeme bereits in der Cloud betrieben werden.
Darüber hinaus integriert SAP Databricks im Vergleich zu AI Core zusätzliche Technologien, die in der Datenwissenschaft etabliert sind: Data Lakehouse-Architektur, skalierbare Datenverarbeitung mittels Apache Spark, interaktive Analyse -Notebooks sowie MLflow zur Verwaltung und Nachverfolgung von Machine-Learning-Experimenten.
Im nächsten Teil der Blogserie werfen wir einen genaueren Blick auf SAP Databricks und wollen hierbei Architekturen, Anwendungsszenarien und bewährte Vorgehensweisen aus der Praxis beleuchten.