特徴量エンジニアリング
特徴量エンジニアリングのプロセスを迅速化するために、シチズンデータサイエンティストからデータの専門家まで、あらゆるタイプのデータサイエンティストが、自動特徴量生成を活用したり、Dataikuのフィーチャーストアで参照フィーチャーセットを見つけ、自分のプロジェクトにインポートすることができます。
DataikuのAutoMLは、特徴量の選択や削減、欠損値、変数エンコーディング、データ型に基づく再スケーリングのための処理方法を透過的にに適用します。デフォルトの設定をそのまま使用したり、あるいは特定の目的のために簡単に任意の部分を変更することができます。
生成AIサービスとの統合
Dataikuは、OpenAIのChatGPTのような主要な生成AIサービスとの統合が可能であり、さらに多くの生成AIとの統合のための機能も近日中に追加されます。テクノロジーとアルゴリズムにとらわれないDataikuのアプローチにより、常に最高の生成AIサービスとモデルを利用することができ、貴社のビジネスニーズを満たすために最適なコストで最大のアジリティーとパフォーマンスを得ていただけます。
AutoMLでより多くのモデルを提供
Dataikuが提供するガイド付きの方法論、内蔵のガイド、ホワイトボックスの説明可能性は、モデル開発プロセスを補強します。これらにより、データサイエンティストとアナリストは同様に、複数の本番稼働可能なモデルを構築し、比較することができます。
DataikuのAutoMLは、企業全体で人々が最高の結果を生み出すことができるように、予測、クラスタリング、時系列予測、因果ML、コンピュータビジョンのタスクのための主要なフレームワークのアルゴリズムを、使いやすいインタフェースを通して提供します。
カスタムML
高度なデータサイエンティストは、Python、R、Scala、Julia、Pysparkなどの言語を使ってカスタムモデルをプログラミングで開発したり、MLFlowで開発されたモデルをインポートしたりすることで、ビジュアルMLインターフェースを拡張することができます。
Dataikuの外で開発されたモデルもデータプロジェクトに組み入れることができると共に、チームの他のメンバーが解釈できるように、DataikuはMLFlowの実験やクラウドMLモデルの詳細を把握し、自動的にモデルの比較と説明可能性レポートを提供します。
モデルがどこで開発されたかにかかわらず、Dataikuはいつでも、デプロイ、モニタリング、ガバナンスのための中心的なプラットフォームとして機能します。
プロンプトエンジニアリング
Dataikuのプロンプトスタジオを使い、プロンプトエンジニアリングで、大規模な言語モデル(LLM)搭載プロジェクトを構築できます。高性能で、プログラミング可能で、再利用可能なプロンプトを設計し、比較し、運用できます。(近日公開)
モデルの検証と評価
DataikuのAutoMLは、設計からデプロイまで、モデルを検証・評価するための多くの機能を提供します。データサイエンティストは、実験段階でのサニティチェックのために、k-fold交差検証、自動診断、モデルアサーションと予測のオーバーライドを利用することができます。
公平性分析、what-if分析、ストレステストなど、パフォーマンスと解釈に関するインタラクティブなレポートが豊富に用意されており、結果を説明し、責任を持って信頼性と精度の高いモデルを提供するために必要なツールを提供します。
時系列分析と予測
Dataikuは、時系列探索と統計解析のためのツール群を提供し、さらにリサンプリング、インピュテーション、デコンポジション、極値・区間抽出などの準備作業も行います。
ビジネス分野の専門家もデータサイエンティストも、Dataikuのビジュアル化されたMLインターフェースを使って、統計的予測モデルやディープラーニング予測モデルを簡単に開発、デプロイ、管理することができます。
ビジュアルとコードベースの深層学習
Dataikuのおなじみのモデルの設計、展開、ガバナンスの仕組みを使い、ディープラーニングをデータプロジェクトやビジネスアプリケーションの一部として簡単に含めることができます。
KerasやTensorflowでカスタム深層学習アーキテクチャーを定義したり、画像分類や物体検出などのコンピュータビジョンタスクのために事前学習済みモデル、転移学習、ノーコードインターフェースを活用することができます。
Kubernetes上のマネージドSparkでスケール
大規模な計算やモデルのトレーニングジョブでは、SparkとKubernetesを利用したオンデマンドの弾力的なリソースで、ワークロードを自動的かつ効率的に拡張することができます。
事前に設定されたフルマネージドのクラスタにより、データサイエンティストはコンテナ化されたインフラの複雑さに悩まされることなく、バックエンドリソースの設定に時間をかける必要がありません。関心のあるタスクに多くの時間を費やすことができます。