de

Machine Learning mit Dataiku

Nutzen Sie die neuesten Technologien, um komplexe Modelle für das Machine Learning zu erstellen.

 

Feature-Engineering

Dataiku AutoML unterstützt das Feature-Engineering, indem fehlende Werte automatisch angegeben und nicht numerische Daten mithilfe bewährter Umwandlungsverfahren in numerische Werte konvertiert werden.

Nutzer können auch mit Formeln, Code oder integrierten visuellen Blöcken („Recipes“) neue Merkmale erstellen, um die Genauigkeit des Modells zu verbessern. Die entsprechenden Schritte werden in Dataiku in Blöcken gespeichert und können dann für die Bewertung und das erneute Training von Modellen wiederverwendet werden.

 

Mehr Modelle dank AutoML

Durch die Automatisierung des Modelltrainings unter Berücksichtigung der Best Practices und integrierten Sicherheitsfunktionen können Analysten mehr produktionsreife Modelle entwickeln und vergleichen.

Dataiku AutoML nutzt führende Algorithmen und Frameworks wie Scikit-Learn und XGBoost. So können alle Nutzer in der intuitiven Oberfläche die besten Modellergebnisse abrufen.

 

Maschinelles Lernen und Notebooks

Dataiku unterstützt diverse Notizbücher für codebasierte Tests und die Modellentwicklung in Python, R und Scala on Jupyter.

Es stehen auch acht vorkonfigurierte Notizbücher für Datenanalysen zur Verfügung, unter anderem für Statistiken, Dimensionsreduktion, Zeitreihen und Themenmodelle.

 

Visualisierung und Prognose von Zeitreihen

Dataiku unterstützt die Aufbereitung von Zeitreihendaten, zum Beispiel Resampling-Verfahren, Fensterfunktionen und die Extraktion von Extrema und Intervallen. In Liniendiagrammen können Zeitreihendaten auch visuell analysiert werden.

Datenwissenschaftler können Prognosemodelle mit dem Prognose-Plug-in oder mithilfe von benutzerdefiniertem Code in Notizbüchern und den Datenaufbereitungs- und Visualisierungsfunktionen in einem Projekt entwickeln. So stellen sie sicher, dass das Modell produktionsreif ist.

 

Deep Learning mit Keras und TensorFlow

Dataiku unterstützt Deep Learning mit Keras und TensorFlow, einschließlich des Trainings und der Bereitstellung auf CPUs und GPUs.

Da Deep-Learning-Modelle wie alle anderen in Dataiku erstellten und verwalteten Modelle behandelt werden, lassen sie sich ganz einfach in Projekte und Unternehmensanwendungen einbinden.

 

Benutzerdefinierte Modelle mit Python und Scala

Dataiku unterstützt nicht nur die Algorithmen der AutoML-Funktionen. Nutzer können auch mit Python oder Scala eigene Modelle entwickeln. In Dataiku sind benutzerdefinierte Modelle First-Class-Objekte.

Nachdem sie in ein Projekt eingebunden wurden, werden sie wie alle anderen Modelle behandelt. Dadurch eröffnen sich ganz neue Möglichkeiten und es sind auch Anwendungsfälle denkbar, die mit anderen Methoden (wie AutoML) eventuell nicht zur Verfügung stehen würden.

 

Training mit großen Datensätzen in Spark

Dataiku unterstützt auch Spark MLLib und H2O Sparkling Water, mit denen das Modelltraining mit großen Datensätzen möglich wird, die nicht in den Arbeitsspeicher passen.

Nach der Konfiguration steht Spark Nutzern für das Modelltraining zur Verfügung. Diese können dann je nach Konfiguration die verfügbaren Algorithmen in MLLib für Regression, Entscheidungsbäume und Ähnliches, oder in H2O Sparkling Water für Deep Learning, GBM, GLM, Random Forest und weitere Verfahren nutzen.