Datenaufbereitung mit Dataiku
Große Datenmengen einpflegen, bereinigen und für umfangreiche Analysen und ML-Projekte aufbereiten.
Visueller Workflow
Im visuellen Workflow von Dataiku können sowohl Programmierer als auch andere Nutzer ganz einfach Datenpipelines mit Datensätzen, Blöcke („Recipes“) für verschiedene Datentransformationen und auch Prognosemodelle erstellen.
Er umfasst auch Code und wiederverwendbare Plug-ins für die individuelle Anpassung und komplexere Funktionen.
Connectors für führende Datenquellen
Dataiku bietet Connectors für mehr als 25 führende On-Premises- und Cloud-Datenquellen, zum Beispiel Amazon S3, Azure Blob Storage, Google Cloud Storage, Snowflake, SQL-Datenbanken, NoSQL-Datenbanken und HDFS.
Aufbereitung, Integration und Bereinigung von Daten
Mit der benutzerfreundlichen visuellen Oberfläche von Dataiku lässt sich die Datenaufbereitung enorm beschleunigen. Sie können Datensätze kombinieren oder gruppieren, aggregieren, bereinigen, normalisieren, anreichern und deduplizieren – mit nur wenigen Klicks.
Besonders praktisch ist, dass Dataiku diese Schritte in einem wiederverwendbaren Block (einem sogenannten „Recipe“) im visuellen Workflow erfasst.
Über 90 integrierte Datentransformer
Dataiku umfasst über 90 integrierte Datentransformer für typische Bearbeitungsschritte, beispielsweise die Klassenbildung (Binning), Verknüpfung, Währungsumrechnung, Datumskonvertierung, Filterung und Datenaufteilung.
Während der Analyse schlägt Dataiku je nach Datentyp bestimmte Funktionen vor. So sparen Sie viel Zeit.
Selbst wenn ein bestimmter Datentransformer in der Bibliothek fehlt, können Nutzer schnell Formeln (ähnlich wie in Tabellenkalkulationen) für nahezu alle Datentransformationsaufgaben nutzen.
Aufbereitung von Geodaten
In Dataiku sind bereits Funktionen für die Transformation von Geodaten integriert.
Dazu gehören beispielsweise die Ermittlung der Längen- und Breitengrade aus Punktkoordinaten (und umgekehrt), GeoIP-Daten zur Ermittlung des Standorts wie Land, Region/Bundesstaat, Stadt und Postleitzahl anhand einer IP-Adresse und „geo-join“-Prozesse zur Verknüpfung von Datensätzen basierend auf ihren geografischen Koordinaten.
Außerdem gibt es spezielle Plug-ins mit weiteren Funktionen wie der Geocodierung.