自己完結型、デプロイ可能なプロジェクト
Dataikuプロジェクトはすべての作業とユーザーコラボレーションの中心的な場所です。チームはプロジェクトを共有し、ここで関連するデータプロダクトを作成し、維持・メンテナンスすることができます。Dataikuの各プロジェクトが持つビジュアルフローは、データ変換や処理などデータパイプラインをエンドツーエンドで表現しています。
最近の活動のタイムライン、フローの自動的なドキュメント化、およびプロジェクトバンドルにより、変更を追跡でき、本番稼働するデータパイプラインのバージョン管理も容易にできます。
バッチまたはリアルタイムデプロイメント
プロジェクトバンドルは、QAまたは本番環境でパイプラインを再現し実行するために必要なデータ、ロジック、および依存関係をスナップショットします。スケジュールされたジョブを実行したり、REST APIとして要素を公開し、リアルタイムアプリケーションをサポートします。
Dataikuのセントラルデプロイヤーは、両タイプのデプロイの監視を提供します。イベントログとダッシュボードによりデータオペレーターは、継続的にシステムを監視して問題を検出することができます。
データ品質ルール
データ品質ルールを使用すると、データ品質の問題をプロアクティブに監視できます。データエンジニアからアナリストまで、誰でも特定のパラメータに対するチェックを迅速に設定できます。
設定可能なアラートと警告により、チームは本番パイプラインを安全に管理するために必要なコントロールを得ることができます。
自動化シナリオおよびトリガー
Dataikuの組み込みスケジューラーであるシナリオを使用することで、データの読み込みと処理、バッチスコアリングジョブの実行、モデルの再トレーニング、ドキュメントの更新など、反復的なシーケンシャルタスクを自動化できます。
オペレーターは、ビジュアルインターフェースを使用したり、プログラムでAPIをコールするシナリオを実行し、時間や条件に依存するトリガーに基づいて部分的または完全なパイプラインの実行を柔軟に構成することができます。
スマートフローオペレーション
中断された接続、断絶した依存関係、同期していないスキーマ – Dataikuのデータ操作とオーケストレーションのための機能で、これらの共通の落とし穴を回避します。
フローのようなツールは、パイプラインの依存関係を管理し、スキーマの整合性をチェックし、データセットとサブフローをインテリジェントに再構築して、最近の更新を反映させます。
APIおよびGit統合
Dataikuは堅牢なAPIを備えており、外部システムやIDEからプログラムによりデータプロジェクトを操作することができます。
Gitとの連携により、プロジェクトのバージョン管理やトレーサビリティを実現し、コード開発やCI/CDのために外部ライブラリ、ノートブック、リポジトリを容易に取り込むことができます。