DataOps mit Dataiku
Mit automatisierten Datenpipelines stehen im gesamten Unternehmen zeitnah bereinigte Daten bereit.
Projekte
In Dataiku-Projekten erledigen die Nutzer ihre Arbeit – einzeln oder auch gemeinsam. Für jedes Projekt gibt es einen visuellen Workflow, einschließlich der Datensatzpipeline und der zugehörigen Blöcke („Recipes“).
Nutzer können sich das Projekt und die verknüpften Ressourcen wie Dashboards ansehen, den Status des Projekts abrufen und die letzten Aktivitäten überprüfen.
Visueller Workflow
Für produktionsreife KI-Projekte müssen Datenpipelines erstellt werden, um die Daten zu transformieren, aufzubereiten und zu analysieren.
Im visuellen Workflow von Dataiku können sowohl Programmierer als auch andere Nutzer ganz einfach Datenpipelines mit Datensätzen, Blöcke für verschiedene Datentransformationen und Prognosemodelle erstellen. Er umfasst auch Code und wiederverwendbare Plug-ins für die individuelle Anpassung und komplexere Funktionen.
Datenqualität und Überprüfungen
In Dataiku können Workflow-Elemente automatisch überprüft und mit spezifischen oder zuvor ermittelten Werten verglichen werden. So wird sichergestellt, dass die geplanten Zeitspannen eingehalten und die erwarteten Ergebnisse erzielt werden. Besteht ein Element in der Datenpipeline die Überprüfung nicht, wird eine Fehlermeldung ausgegeben, damit ein Nutzer das Problem untersuchen und schnell beheben kann.
Szenarien und Trigger für die Automatisierung
Bei KI-Projekten fallen repetitive Aufgaben wie das Laden und Verarbeiten von Daten oder das Ausführen von Batch-Bewertungen an. In Dataiku werden diese Aufgaben mithilfe von Szenarien und Triggern automatisiert. Es können entweder regelmäßige Ausführungen geplant oder Trigger für bestimmte Bedingungen festgelegt werden.
Dank der Automatisierung können Produktionsteams mehr Projekte verwalten und auch skalieren, um noch mehr produktionsreife KI-Initiativen zu erstellen.
Code-Notebooks, Code-Blöcke und Entwicklungsumgebungen
Dataiku ist sowohl für Programmierer als auch für alle anderen Nutzer geeignet. Entwickler und erfahrene Datenwissenschaftler, die Tools wie Python oder R bevorzugen, können Code über Notizbücher einbinden oder mithilfe von Code-Blöcken und Plug-ins direkt in die Projekte einfügen.
Dataiku unterstützt Code-Notizbücher für SQL, Python und R sowie Code-Blöcke, die in Python, R, SQL, Hive, Pig, Impala, Spark-Scala, PySpark, Spark/R, SparkSQL und Shell entwickelt wurden. Außerdem werden Entwicklungsumgebungen für Python, R und Conda unterstützt und es gibt eine umfassende API für R.
Git-Integration
Für Entwicklungsprojekte ist die Integration in Git für das Code-Versionsmanagement erforderlich. Dataiku unterstützt die Git-Integration, einschließlich der Versionskontrolle für Projekte, des Imports von Python- und R-Code, der Entwicklung wiederverwendbarer Plug-ins, des Imports von Plug-ins und weiterer Funktionen.
APIs
Dataiku bietet stabile APIs für die Integration in externe Systeme, mit denen sich KI- und Analyseprojekte erstellen und verwalten lassen. Über die öffentliche Dataiku-API können autorisierte Nutzer über ein externes System interagieren, zum Beispiel für die Administration, die Wartung oder den Datenzugriff.
Die öffentliche API ist über einen Python-API-Client oder eine HTTP-REST-API verfügbar. Dataiku umfasst außerdem eine umfassende R-API und APIs für JavaScript und Scale für bestimmte Funktionen.